Google представил ScreenAI — новый модель для понимания интерфейсов и инфографики

Google Research анонсировала ScreenAI, новую модель, разработанную для понимания пользовательских интерфейсов (UIs) и инфографики. ScreenAI применяет архитектуру PaLI и гибкую стратегию разделения изображений, чтобы добиться передовых результатов в задачах, связанных с интерфейсами и графиками.

Модель была обучена на уникальном наборе данных, включая новую задачу Screen Annotation, которая позволяет моделью идентифицировать информацию о элементах интерфейсов — типах, расположении и описаниях. Данная информация позволяет языковым моделям (LLMs) автоматически генерировать обучающие наборы данных для вопросов-ответов, навигации в интерфейсе и суммирования.

ScreenAI демонстрирует выдающиеся результаты в задачах, таких как Chart QA, DocVQA и InfographicVQA, по сравнению с аналогичными моделями, что подтверждает её высокую эффективность. Модель была дополнительно обучена с использованием наборов данных по вопросам-ответам и навигации, включая известные бенчмарки WebSRC и MoTIF.

Важной частью обучения модели является использование самообучающегося подхода, который позволяет ей автоматически генерировать метки для данных. Это позволяет обеспечить разнообразие пре-тренировочных данных для обучения и улучшает качество распознавания.

С запуском ScreenAI Google стремится улучшить взаимодействие пользователя с интерфейсами, предоставляя более глубокое понимание и интерактивный опыт работы с графиками и визуальными представлениями данных.

Похожие записи

«Охота за единорогами» — Business StandUp тур от Оскара Хартманна

Samsung ведет переговоры о партнерстве с Perplexity AI для интеграции технологий поиска в смартфоны

Искусственный интеллект DeepNash достиг уровня эксперта в игре Stratego