MIT разработал модель искусственного интеллекта для имитации человеческих голосов без предварительного обучения

Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (MIT CSAIL) представили новую систему искусственного интеллекта, способную производить голосовые имитации человека без предварительного обучения. Эта технология может значительно изменить способы коммуникации и обучения.

Искусственный интеллект имитирует звуки, используя модель человеческого голосового тракта, что позволяет ему воспроизводить различные звуки, такие как шорох листьев или звук сирены. Исследование основано на когнитивной науке о том, как люди общаются, что позволяет системе учитывать контекст в процессе имитации.

Система была разработана с тремя уровнями сложности, каждый из которых учитывает человеческое поведение. Особенно интересным является тот факт, что волновая модель имитации может быть использована не только для генерации звуков, но и для определения звуков из голосовых имитаций, что открывает перспективы для разработки более интуитивных интерфейсов для дизайнеров звука и обучения языкам.

Авторы исследования предполагают, что эта технология может привести к созданию более человекоподобных персонажей в виртуальной реальности и помочь артистам лучше общаться с компьютерными системами. Несмотря на успехи, модель еще требует улучшения, так как у нее возникают проблемы с некоторыми согласными звуками.

Работа исследователей была поддержана фондами и представлена на конференции SIGGRAPH Asia в начале декабря, что подчеркивает важность этих технологий в будущем.

Похожие записи

«Охота за единорогами» — Business StandUp тур от Оскара Хартманна

Samsung ведет переговоры о партнерстве с Perplexity AI для интеграции технологий поиска в смартфоны

Искусственный интеллект DeepNash достиг уровня эксперта в игре Stratego