Команда Generative Media анонсировала значительный прогресс в своей технологии видео-ауидо (V2A), которая интегрирует видео пиксели и текстовые подсказки для создания звуковых дорожек, синхронизированных с видеорядом. В то время как многие современные модели генерации видео способны создавать лишь беззвучный контент, новая разработка делает шаг в сторону оживления этих визуальных материалов, добавляя богатые звуковые эффекты и музыку.
Технология V2A может быть сочетана с существующими моделями генерации видео, такими как Veo, и позволяет создавать динамичные сцены с драматической музыкой, реалистичными звуковыми эффектами и диалогами, соответствующими персонажам и тону видео. Она также открывает новые возможности для создания звуковых дорожек к традиционным записям, включая архивный материал и немые фильмы.
Ключевой особенностью V2A является возможность генерации неограниченного количества звуковых дорожек для любого видео, с настройками, позволяющими выделять желаемые или нежелательные звуки согласно заданным текстовым подсказкам. Это придает пользователям больше контроля над итоговым аудио, позволяя быстро экспериментировать и выбирать наилучшие результаты.
В процессе исследований были применены как авторегрессионные, так и диффузионные подходы, при этом последняя методика доказала свою эффективность в создании самых реалистичных звуков для синхронизации с видеорядом. Однако команда отметила, что качество генерируемого аудио зависит от качества видео, и продолжается работа над улучшением синхронизации губ для видеозаписей со словами.
Важным аспектом разработки является ответственность в использовании AI технологий, поэтому перед открытием доступа к V2A широкой аудитории технология пройдет строгие оценки безопасности и тестирования.
