Сегодня представлено новое решение под названием FACTS Grounding, которое предназначено для оценки способности крупных языковых моделей (LLMs) генерировать ответы, основанные на фактических данных и соответствующие запросам пользователей. Этот бенчмарк был разработан с целью борьбы с распространенной проблемой «галлюцинации», когда модели создают недостоверную информацию при сложных запросах.
FACTS Grounding включает обширный набор данных из 1,719 примеров, которые требуют от LLMs давать развернутые ответы, основанные на предоставленном контексте. Примеры разделены на две категории: общественная (860) и частная (859) оценка. Публичный набор уже доступен для всех желающих, в то время как частный будет защищен от манипуляций, что поможет установить справедливые условия оценки.
Для оценки качества ответов используются три различных оценщика LLM, что позволяет свести к минимуму потенциальные предвзятости. Результаты будут агрегироваться, чтобы определить, насколько успешно модель справилась с заданием.
Бенчмарк также включает разнообразные примеры из таких областей, как финансы, технологии, медицина и право, что обеспечивает возможность глубокого тестирования моделей. К тому же, данный бенчмарк призван служить основой для будущих улучшений и развития языковых моделей, в том числе посредством постоянного обновления лидерборда на платформе Kaggle.
Создатели FACTS Grounding из Google DeepMind и Google Research надеются, что этот инструмент подстегнет развитие отрасли и приведет к улучшению точности и надежности LLMs в реальных приложениях.
