Google презентует новые технологии генерации многоголосого диалога

Компания Google представила новые достижения в области генерации речи, которые могут существенно улучшить взаимодействие пользователей с цифровыми ассистентами и AI-инструментами. За последние несколько лет команда специалистов, включая Залана Бороша, Мэтта Шарифиа и Марко Таглиасаччи, разработала модели, способные создавать качественную, естественную речь на основе различных входных данных, таких как текст и настройки темпа.

Благодаря совместной работе с партнерами Google, были внедрены новые функции, позволяющие генерировать длинные многоголосые диалоги, что делает сложный контент более доступным. Эти достижения основываются на нескольких ранее разработанных проектах, включая SoundStorm, SoundStream и AudioLM, которые нацелены на оптимизацию и улучшение качества аудио.

Новая технология может производить двухминутные диалоги с высокой натуральностью, согласованностью спикеров и акустическим качеством всего за три секунды на единичном чипе Tensor Processing Unit (TPU) v5e, что в свою очередь превышает скорость реального времени более чем в 40 раз. При этом использование инновационного кодека, позволяющего эффективно сжимать звук в последовательность токенов, дает возможность поддерживать качество аудио.

Также подчеркивается важность соблюдения принципов ответственной разработки AI-технологий. Компания встроила технологию SynthID для водяной маркировки созданного AI контента, чтобы минимизировать риск его неправильного использования. В будущем Google планирует сосредоточиться на повышении текучести и акустического качества модели, а также на расширении возможностей управления такими аспектами, как просодия.

Эти инновации открывают широкие перспективы для применения технологий генерации речи, от улучшения образовательных материалов до обеспечения универсального доступа к контенту.

Похожие записи

«Охота за единорогами» — Business StandUp тур от Оскара Хартманна

Samsung ведет переговоры о партнерстве с Perplexity AI для интеграции технологий поиска в смартфоны

Искусственный интеллект DeepNash достиг уровня эксперта в игре Stratego