Представлен новый бенчмарк для оценки мультимодальных систем на основе реальных видео, аудио и текстовых данных

Команда исследователей под руководством Вирики Патрэуцеан и других экспертов представила новый бенчмарк, призванный улучшить оценку мультимодальных систем, использующих реальные видео, аудио и текстовые данные. Данный подход, названный Перцепционный тест, предназначен для оценки восприятия и интеллекта ИИ, что имеет важное значение для развития технологий в таких областях, как робототехника, автономные транспортные средства и медицинская диагностика.

Бенчмарки, такие как AlexNet и AlphaFold, в значительной степени способствовали достижениям в области искусственного интеллекта, устанавливая четкие рамки для достижения целей исследований и позволяя сравнивать модели. В связи с этим разработка эффективных бенчмарков, как Перцепционный тест, становится не менее важной, чем создание самих моделей.

Перцепционный тест включает набор специально разработанных видео, которые позволяют исследовать навыки, такие как отслеживание объектов и обработка аудио. Каждое видео имеет временные и пространственные аннотации, предоставленные участниками, которые обеспечили разнообразие материалов. В результате было отснято более 11 600 видео, в среднем по 23 секунды каждое.

Общая цель теста — помочь исследователям оценить общие способности моделей восприятия, охватывающие разные аспекты, включая память и умение делать выводы. Команда надеется на расширение сотрудничества с исследовательским сообществом для добавления новых задач и метрик.

В скором времени будет доступен рейтинг и сервер для вызовов, что откроет дополнительные возможности для изучения моделей восприятия. В рамках подготовки к этой инициативе 23 октября 2022 года пройдет семинар на Европейской конференции по компьютерному зрению в Тель-Авиве, где эксперты обсудят подходы к разработке моделей общего восприятия.