Компания Amazon во вторник анонсировала новую генеративную ИИ-модель Nova Sonic, способную осуществлять голосовое общение с высокой степенью естественности. По словам представителей компании, производительность новой модели сопоставима с передовыми решениями в области голосового ИИ, разработанными такими компаниями, как OpenAI и Google, обеспечивая высокую скорость, точное распознавание речи и качество разговора.
Nova Sonic, как уверяет Amazon, представляет собой «самую экономичную» голосовую модель на рынке, стоящую примерно на 80% дешевле, чем аналогичная модель GPT-4o от OpenAI. Доступ к новой модели осуществляется через платформу Amazon Bedrock, предназначенную для разработчиков приложений на основе ИИ.
Новая модель уже нашла своё применение в обновлённом голосовом помощнике Alexa+, где она позволяет осуществлять двусторонний диалог с учётом пауз и прерываний со стороны собеседника. Nova Sonic использует уникальную архитектуру, которая, по утверждению разработчиков, превосходит традиционные подходы, состоящие из слоёв для распознавания речи, генерации текста и преобразования его в аудиоформат.
Кроме того, Nova Sonic продемонстрировала лучшие результаты в сравнительных тестах по распознаванию речи. В бенчмарке Multilingual LibriSpeech, оценивающем точность распознавания на нескольких языках, модель показала коэффициент ошибок всего 4,2%. В тесте Augmented Multi Party Interaction, она была на 46,7% точнее, чем рассматриваемая модель OpenAI.
Согласно старшему вице-президенту Amazon Рохиту Прасаду, новая модель открывает возможности для создания инструментов, таких как боты для обслуживания клиентов и ИИ-агенты для туристической индустрии. В будущем Amazon планирует расширить ассортимент своих ИИ-моделей, которые будут обрабатывать не только голос, но и изображения и видео.
