Google Research представила новый открытый набор данных для анализа длинных видео

Команда исследователей Google опубликовала Neptune, новый открытый набор данных для оценки понимания длинных видео. С набором данных Neptune исследователи намерены продвинуть технологии вопросо-ответов и резюмирования видео, которые долгое время ограничивались короткими клипами.

С учетом стремительного роста объемов видео-контента в интернете, актуальность разработки и тестирования новых моделей становится необычайно важной. Ранее доступные модели, такие как Gemini-1.5, показывают возможность обработки до миллионов токенов, что открывает новые горизонты для применения VideoQA на видео продолжительностью до нескольких минут.

Тем не менее, недостаток адекватных наборов данных для оценки понимания длинных видео оставался непреодолимым препятствием для разработки соответствующих моделей. Используя новаторский полупромышленный процесс, команда Google смогла создать набор данных, включающий сложные многовариантные и открытые вопросы к видео продолжительностью до 15 минут.

Neptune поддерживает два режима оценки: многовариантный и открытый. Параметры оценки подходят для разнообразных типов вопросов, таких как “резюмирование видео”, “временной порядок” и “изменение состояния”, что ставит под сомнение способности существующих моделей и способствует их дальнейшему развитию.

Доступность набора данных Neptune открывает новые возможности для исследователей, стремящихся улучшить понимание длинных видео, и, как ожидается, вдохновит на дальнейшие исследования и сотрудничество с членами видеосообщества для добавления новых аннотаций, задач и метрик.