Исследователи Google, включая Залана Боршоса, Мэтта Шарифы и Марко Таглиасаки, объявили о достижениях в области генерации речи, которые значительно улучшат способы взаимодействия людей с цифровыми помощниками и инструментами искусственного интеллекта. Новая технология позволяет создавать естественные и динамичные диалоги с несколькими участниками, что делает сложный контент более доступным.
В последние годы команда глубоко сосредоточилась на разработке моделей, способных генерировать высококачественную речь на основе текстовых данных и указаний по интонации. Это достигнуто благодаря интеграции технологий, таких как SoundStream и AudioLM, которые позволяют эффективным образом обрабатывать и интерпретировать богатые аудиосигналы.
Особенное внимание уделено созданию многооформленных диалогов, которые могут продолжаться до двух минут, демонстрируя улучшенную естественность и качество звука. Этот процесс становится возможным благодаря новому кодеку, который эффективно сжимает аудиоданные, позволяя создавать аудиофайлы до 40 раз быстрее реального времени.
Для достижения реалистичного звучания модель была предварительно обучена на сотнях тысяч часов разговорной речи, а затем дополнила свой опыт на меньших наборах данных, состоящих из качественной записи и точных аннотаций спикеров.
Google также подчеркивает ответственный подход к внедрению новых технологий, включая разработку системы SynthID, которая обеспечивает водяной знак для цифрового контента, созданного ИИ, чтобы предотвратить его возможное злоупотребление.
Очевидно, что новые технологии открывают широкие возможности для применения в различных сферах, от образовательных программ до создания более доступного контента для всех пользователей.
