Vectara запускает Open RAG Eval для объективной оценки систем генерации AI

Ведущая компания в области искусственного интеллекта Vectara представила новую открытость для оценки систем ретривал-усиленной генерации (RAG) — Open RAG Eval. Этот инструмент направлен на решение актуальной проблемы: как объективно измерить эффективность систем RAG, которые становятся все более сложными и дорогостоящими в реализации для предприятий.

Open RAG Eval создан в сотрудничестве с профессором Джимми Линым и его командой из Университета Ватерлоо. Он заменяет традиционные субъективные методы оценки на строгую и воспроизводимую методологию, которая позволяет измерять точность извлечения, качество генерации и уровень галлюцинаций. Этот новый подход предоставляет организациям возможность оценивать качества ответа с использованием двух основных категорий метрик: метрики извлечения и метрики генерации.

Профессор Лин подчеркнул, что «если вы не можете это измерить, вы не можете это улучшить». В связи с усложнением RAG-систем, особенно в переходе от простого вопросно-ответного взаимодействия к многошаговым агентным системам, стало необходимым иметь научный подход к оценке.

С помощью нового фреймворка организации смогут точно определить, какие компоненты их RAG-реализаций требуют оптимизации. Этот инструмент находит свою значимость благодаря автоматизации процесса оценки с использованием крупных языковых моделей (LLM), что делает процесс более эффективным и менее трудоемким.

Пользователи, среди которых компания Anywhere.re, уже заинтересованы в использовании Open RAG Eval для улучшения своих систем оценки. Ожидается, что этот фреймворк станет стандартом в области оценки RAG, обеспечивая предприятиям возможность применять научный подход и избегать субъективных заключений в процессе внедрения.