Stability AI и Arm представили компактную модель генерации звука для смартфонов

Компания Stability AI в сотрудничестве с Arm анонсировала новую модель генерации звука под названием Stable Audio Open Small, которая предназначена для работы на мобильных устройствах. Эта компактная модель способна генерировать стереофонические аудиоклипы продолжительностью до 11 секунд всего за 7 секунд, что ставит её среди самых быстрых решений на рынке.

Stable Audio Open Small основана на методе, известном как состязательный релятивистско-контрастный (ARC), разработанном исследователями из Калифорнийского университета в Беркли. На высокопроизводительных системах, таких как графический процессор Nvidia H100, модель воспроизводит стереозвук частотой 44 кГц за 75 миллисекунд, что достаточно быстро для практически реального времени.

Эта новая версия модели использует всего 341 миллион параметров, что делает её использование возможным на потребительском оборудовании. Переработанная архитектура, состоящая из автокодировщика, встраиваемого модуля и диффузионной модели, существенно сокращает требования к памяти с 6,5 ГБ до 3,6 ГБ, что позволяет запускать её на мобильных устройствах, таких как Vivo X200 Pro.

Stability AI сообщает, что модель особенно хорошо справляется с генерацией звуковых эффектов и полевых записей, однако испытывает затруднения с реализацией вокала и сложной музыки. Модель была обучена на 472 000 аудиоклипах в базе данных Freesound, используя только материалы, свободные от авторских прав.

Платформа с открытым исходным кодом уже доступна, но для коммерческого использования предполагается лицензирование. Stability AI также акцентирует внимание на строгих условиях использования для разработчиков, зависящих от годового дохода организации.