Google представила CURIE — новую платформу для оценки языковых моделей в научных изысканиях

3 апреля 2025 года команда Google Research анонсировала CURIE, новый эталон для оценки возможностей крупных языковых моделей (LLMs) в научных задачах, фокусирующийся на понимании длительного контекста и решении комплексных проблем. CURIE нацелен на помощь ученым в обработке, анализе и извлечении информации из обширной научной литературы.

Современные научные достижения требуют не только глубоких знаний в специфических областях, но и способности применять эти знания к конкретным задачам. CURIE стремится заполнить существующую нишу в оценке языковых моделей, которые прежде всего проверялись на коротких вопросах и заданиях с множественным выбором. Новый эталон будет включать десять различных задач, охватывающих шесть научных дисциплин: материаловедение, теоретическую физику, квантовые вычисления, геопространственный анализ, биодиверситет и белки.

Разработка CURIE включала активное участие экспертов, которые помогли определить реальные задачи и собрать соответствующие исследовательские документы. Эталон содержит 580 пар запросов и решений, основанных на 429 научных статьях, и охватывает такие задачи, как извлечение информации, многопрофильное понимание и агрегирование данных. В рамках проекта была разработана обширная методология для оценки эффективности моделей.

Кроме CURIE, исследовательская команда представила и другие проекты, такие как SPIQA, направленный на оценку мультимодальных возможностей LLMs, и FEABench, который фокусируется на способности моделей решать задачи моделирования в инженерии и науке. Эти новшества открывают новые горизонты для интеграции искусственного интеллекта в научные исследования, что, в свою очередь, может способствовать ускорению процессов открытия и создания новых знаний.