На ежегодной конференции Google I/O компания анонсировала новые модели генерации медиаконтента, среди которых особенно выделяется Veo 3 — первая версия искусственного интеллекта от Google, способная создавать видео с синхронизированным звуком. Эта инновация позволяет создавать ролики с поющими птицами или уличной сценой с шумом транспорта. По словам представителей Google, Veo 3 превосходит своих предшественников в отношении реалистичности физики и синхронизации движений губ.
В настоящее время модель доступна только подписчикам Gemini Ultra в США через приложение Gemini и корпоративным клиентам на платформе Vertex AI. Кроме того, Veo 3 интегрирована в Flow — новый инструмент Google для кинопроизводства на основе ИИ, который объединяет возможности Veo, Imagen и Gemini. Flow позволяет пользователям создавать кинематографические сцены, описывая результат на естественном языке, однако его функции пока доступны только подписчикам Google AI Pro и Ultra в США.
На мероприятии также была представлена модель Imagen 4, улучшенная версия инструмента для создания изображений, которая значительно увеличила качество детализации и работы с типографикой. Модель уже доступна в Gemini, Vertex AI и Workspace.
В то же время компания Lightricks объявила о запуске новой модели LTXV-13B, открытой модели с 13 миллиардами параметров, которая задаёт новые стандарты качества и доступности в области генеративного видео. Модель, поддерживающая несколько режимов генерации, включает в себя ключевые технологии, позволяющие создавать видео с максимальной длиной до 9 секунд при разрешении 720p и частоте 30 кадров в секунду.
Интеграция LTXV-13B в платформу LTX Studio делает её доступной для независимых создателей контента и небольших студий, обеспечивая открытый доступ к коду и возможностям адаптации. Это создает новую динамику на рынке генеративного видео, способствуя его демократизации и сотрудничеству в сообществе разработчиков.
Таким образом, новые инструменты от Google и Lightricks не только улучшат генерацию мультимедиа, но и подчеркивают растущую необходимость прозрачности в эпоху ИИ.
