Запущен новый бенчмарк для оценки фактической точности языковых моделей

Сегодня была представлена новая система оценки FACTS Grounding, призванная оценить способность крупных языковых моделей (LLM) генерировать фактически точные и детализированные ответы в соответствии с предоставляемыми источниками. Как показывают исследования, LLM могут «галлюцинировать», то есть генерировать ложную информацию, что подрывает доверие пользователей и ограничивает возможные области применения технологий.

На платформе Kaggle также запущен лидерборд FACTS, который позволяет отслеживать достижения в области точности и основательности LLM. База данных FACTS Grounding включает 1,719 разработанных примеров, каждый из которых требует от модели длинных ответов, основываясь на контексте, содержащемся в документе. Эти примеры делятся на публичный набор из 860 и приватный из 859 элементов, последний из которых не будет доступен для оценки, чтобы избежать возможного манипулирования рейтингами.

В своей работе были использованы различные LLM — Gemini 1.5 Pro, GPT-4o и Claude 3.5 Sonnet, которые автоматически оценивают точность ответов по двум критериям: соответствие запросу пользователя и фактографическая точность, без «галлюцинаций». Результаты оценки суммируются для определения успешности работы модели.

Создатели FACTS Grounding, совместная команда Google DeepMind и Google Research, подчеркивают важность данного бенчмарка для достижения значимых результатов в области искусственного интеллекта и призывают сообщество AI активно участвовать в его развитии.