Amazon представила новую генеративную ИИ-модель Nova Sonic для голосового общения

Компания Amazon во вторник анонсировала новую генеративную ИИ-модель Nova Sonic, способную осуществлять голосовое общение с высокой степенью естественности. По словам представителей компании, производительность новой модели сопоставима с передовыми решениями в области голосового ИИ, разработанными такими компаниями, как OpenAI и Google, обеспечивая высокую скорость, точное распознавание речи и качество разговора.

Nova Sonic, как уверяет Amazon, представляет собой «самую экономичную» голосовую модель на рынке, стоящую примерно на 80% дешевле, чем аналогичная модель GPT-4o от OpenAI. Доступ к новой модели осуществляется через платформу Amazon Bedrock, предназначенную для разработчиков приложений на основе ИИ.

Новая модель уже нашла своё применение в обновлённом голосовом помощнике Alexa+, где она позволяет осуществлять двусторонний диалог с учётом пауз и прерываний со стороны собеседника. Nova Sonic использует уникальную архитектуру, которая, по утверждению разработчиков, превосходит традиционные подходы, состоящие из слоёв для распознавания речи, генерации текста и преобразования его в аудиоформат.

Кроме того, Nova Sonic продемонстрировала лучшие результаты в сравнительных тестах по распознаванию речи. В бенчмарке Multilingual LibriSpeech, оценивающем точность распознавания на нескольких языках, модель показала коэффициент ошибок всего 4,2%. В тесте Augmented Multi Party Interaction, она была на 46,7% точнее, чем рассматриваемая модель OpenAI.

Согласно старшему вице-президенту Amazon Рохиту Прасаду, новая модель открывает возможности для создания инструментов, таких как боты для обслуживания клиентов и ИИ-агенты для туристической индустрии. В будущем Amazon планирует расширить ассортимент своих ИИ-моделей, которые будут обрабатывать не только голос, но и изображения и видео.