На ежегодной конференции разработчиков I/O в этот вторник компания Google анонсировала выпуск Veo 3, последней итерации своей AI-модели для генерации видео, которая теперь также обеспечивает возможность синхронизации звука. Это событие знаменует собой важный шаг вперед в развитии AI-технологий, ранее страдавших от недостатка аудиосопровождения.
Теперь пользователи могут вводить запросы на создание видео, например, «внутри заполненного вагона метро», и получать не только изображения, но и AI-сгенерированные звуки окружения, создающие ощущение реальности. Модель также способна воспроизводить человеческие голоса, что открывает новые возможности для креативной индустрии.
Veo 3 отличается от других AI-моделей, таких как Movie Gen от Meta, представленной в октябре, тем, что может одновременно генерировать видео и аудио без необходимости в постобработке. Этот процесс требует мощных вычислительных ресурсов и является технически сложным, так как требует синхронизации двух разных модальностей: видео, представляющего собой серию неподвижных кадров, и звука, который является непрерывной волной.
Благодаря усовершенствованию технологии моделирования реальной физики и синхронизации движений губ, Veo 3 может стать ценным инструментом для режиссёров и производственных команд. Данная модель доступна для подписчиков Gemini Ultra в США и может использоваться через Flow — новую AI-платформу для кинематографистов, представленную на конференции.
Разработка моделей, которые способны объединить видео и звук, представляет собой активную область исследований в сфере искусственного интеллекта и открывает новые горизонты для творческих решений.
