Запущен новый стандарт оценки фактической точности в моделях искусственного интеллекта

Компания Google представила FACTS Grounding, новый стандарт для оценки способности больших языковых моделей (LLMs) генерировать ответы, основанные на фактической информации и контексте. Эта инициатива направлена на уменьшение случаев «галлюцинаций», когда модель выдает неверные данные, что может подорвать доверие пользователей к таким системам.

Сегодня был также запущен онлайн-лидерборд на платформе Kaggle, который включает ранжирование имеющихся моделей по их фактической точности. Теперь доступен набор FACTS Grounding, состоящий из 1,719 случаев, каждый из которых требует от модели создания ответа, полностью обоснованного предоставленным документом.

Примеры из набора разнообразны по длине и тематике, включая финансы, технологии, медицину и право, что позволяет всесторонне оценить модели на различных динамиках взаимодействия с пользователями.

Оценка ответов осуществляется с использованием трех автоматизированных LLM-судей, что помогает исключить предвзятость и повысить объективность результатов. Проводится двухступенчатая проверка, в которой сначала оценивается соответствие ответов запросу, а затем их фактическая точность.

Команда разработчиков, включая специалистов из Google DeepMind и Google Research, надеется, что внедрение FACTS Grounding будет способствовать отраслевому прогрессу в области точности и надежности искусственного интеллекта.

В связи с постоянным развитием технологий фактологичность и обоснованность ответов будут определять будущее успешности и полезности больших языковых моделей и более широких систем ИИ.