Компания Google представила новые достижения в области генерации речи, которые могут существенно улучшить взаимодействие пользователей с цифровыми ассистентами и AI-инструментами. За последние несколько лет команда специалистов, включая Залана Бороша, Мэтта Шарифиа и Марко Таглиасаччи, разработала модели, способные создавать качественную, естественную речь на основе различных входных данных, таких как текст и настройки темпа.
Благодаря совместной работе с партнерами Google, были внедрены новые функции, позволяющие генерировать длинные многоголосые диалоги, что делает сложный контент более доступным. Эти достижения основываются на нескольких ранее разработанных проектах, включая SoundStorm, SoundStream и AudioLM, которые нацелены на оптимизацию и улучшение качества аудио.
Новая технология может производить двухминутные диалоги с высокой натуральностью, согласованностью спикеров и акустическим качеством всего за три секунды на единичном чипе Tensor Processing Unit (TPU) v5e, что в свою очередь превышает скорость реального времени более чем в 40 раз. При этом использование инновационного кодека, позволяющего эффективно сжимать звук в последовательность токенов, дает возможность поддерживать качество аудио.
Также подчеркивается важность соблюдения принципов ответственной разработки AI-технологий. Компания встроила технологию SynthID для водяной маркировки созданного AI контента, чтобы минимизировать риск его неправильного использования. В будущем Google планирует сосредоточиться на повышении текучести и акустического качества модели, а также на расширении возможностей управления такими аспектами, как просодия.
Эти инновации открывают широкие перспективы для применения технологий генерации речи, от улучшения образовательных материалов до обеспечения универсального доступа к контенту.
