Исследование выявило недостатки в способности больших языковых моделей интерпретировать время

Учёные Эдинбургского университета провели исследование, в ходе которого оценили возможности семи мультимодальных больших языковых моделей (БЯМ) в интерпретации и генерации информации, связанной с показаниями времени на различных изображениях часов и календарей. Результаты показали, что модели сталкиваются с трудностями в выполнении этих базовых задач, что имеет значительные последствия для их применения в реальных условиях.

Научная работа акцентирует внимание на том, что понимание времени и его интерпретация на основе визуальных данных, таких как аналоговые часы и календари, имеют ключевое значение для различных приложений, включая планирование событий и автономные системы. Несмотря на значительный прогресс в области БЯМ, исследователи отметили, что большинство усилий было сосредоточено на распознавании объектов на изображениях, что оставило вопрос восприятия времени недостаточно изученным.

В рамках исследования были протестированы такие модели, как GPT-4o и o1 от OpenAI, Gemini 2.0 от Google DeepMind и другие. Учёные представляли моделям различные изображения часов и задавали вопросы о времени и датах, включая такие как «На какие числа выпадает Новый год?» или «Какой день — 153-й день в году?» Результаты оказались неутешительными: БЯМ правильно распознавали время на аналоговых часах менее чем в 25% случаев, при этом особенно сильно они проявили недостатки при работе с римскими цифрами и стилизованными стрелками.

gemini-2.0 показала лучший результат среди оцененных моделей в задаче с часами, в то время как o1 была более точной в вопросах, связанных с календарями, однако даже в этих случаях модели допускали ошибки примерно в 20% случаев. Аспирант Школы информатики Эдинбургского университета Рохит Саксена, соавтор исследования, подчеркнул важность устранения этих недостатков для успешного применения ИИ в чувствительных ко времени полях деятельности.

Исследование «Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs» было опубликовано 7 февраля 2025 года на платформе arxiv.org.