Google Research анонсировала ScreenAI, новую модель, разработанную для понимания пользовательских интерфейсов (UIs) и инфографики. ScreenAI применяет архитектуру PaLI и гибкую стратегию разделения изображений, чтобы добиться передовых результатов в задачах, связанных с интерфейсами и графиками.
Модель была обучена на уникальном наборе данных, включая новую задачу Screen Annotation, которая позволяет моделью идентифицировать информацию о элементах интерфейсов — типах, расположении и описаниях. Данная информация позволяет языковым моделям (LLMs) автоматически генерировать обучающие наборы данных для вопросов-ответов, навигации в интерфейсе и суммирования.
ScreenAI демонстрирует выдающиеся результаты в задачах, таких как Chart QA, DocVQA и InfographicVQA, по сравнению с аналогичными моделями, что подтверждает её высокую эффективность. Модель была дополнительно обучена с использованием наборов данных по вопросам-ответам и навигации, включая известные бенчмарки WebSRC и MoTIF.
Важной частью обучения модели является использование самообучающегося подхода, который позволяет ей автоматически генерировать метки для данных. Это позволяет обеспечить разнообразие пре-тренировочных данных для обучения и улучшает качество распознавания.
С запуском ScreenAI Google стремится улучшить взаимодействие пользователя с интерфейсами, предоставляя более глубокое понимание и интерактивный опыт работы с графиками и визуальными представлениями данных.
