Учёные Эдинбургского университета провели исследование, в ходе которого оценили возможности семи мультимодальных больших языковых моделей (БЯМ) в интерпретации и генерации информации, связанной с показаниями времени на различных изображениях часов и календарей. Результаты показали, что модели сталкиваются с трудностями в выполнении этих базовых задач, что имеет значительные последствия для их применения в реальных условиях.
Научная работа акцентирует внимание на том, что понимание времени и его интерпретация на основе визуальных данных, таких как аналоговые часы и календари, имеют ключевое значение для различных приложений, включая планирование событий и автономные системы. Несмотря на значительный прогресс в области БЯМ, исследователи отметили, что большинство усилий было сосредоточено на распознавании объектов на изображениях, что оставило вопрос восприятия времени недостаточно изученным.
В рамках исследования были протестированы такие модели, как GPT-4o и o1 от OpenAI, Gemini 2.0 от Google DeepMind и другие. Учёные представляли моделям различные изображения часов и задавали вопросы о времени и датах, включая такие как «На какие числа выпадает Новый год?» или «Какой день — 153-й день в году?» Результаты оказались неутешительными: БЯМ правильно распознавали время на аналоговых часах менее чем в 25% случаев, при этом особенно сильно они проявили недостатки при работе с римскими цифрами и стилизованными стрелками.
gemini-2.0 показала лучший результат среди оцененных моделей в задаче с часами, в то время как o1 была более точной в вопросах, связанных с календарями, однако даже в этих случаях модели допускали ошибки примерно в 20% случаев. Аспирант Школы информатики Эдинбургского университета Рохит Саксена, соавтор исследования, подчеркнул важность устранения этих недостатков для успешного применения ИИ в чувствительных ко времени полях деятельности.
Исследование «Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs» было опубликовано 7 февраля 2025 года на платформе arxiv.org.
