Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (MIT CSAIL) представили новую систему искусственного интеллекта, способную производить голосовые имитации человека без предварительного обучения. Эта технология может значительно изменить способы коммуникации и обучения.
Искусственный интеллект имитирует звуки, используя модель человеческого голосового тракта, что позволяет ему воспроизводить различные звуки, такие как шорох листьев или звук сирены. Исследование основано на когнитивной науке о том, как люди общаются, что позволяет системе учитывать контекст в процессе имитации.
Система была разработана с тремя уровнями сложности, каждый из которых учитывает человеческое поведение. Особенно интересным является тот факт, что волновая модель имитации может быть использована не только для генерации звуков, но и для определения звуков из голосовых имитаций, что открывает перспективы для разработки более интуитивных интерфейсов для дизайнеров звука и обучения языкам.
Авторы исследования предполагают, что эта технология может привести к созданию более человекоподобных персонажей в виртуальной реальности и помочь артистам лучше общаться с компьютерными системами. Несмотря на успехи, модель еще требует улучшения, так как у нее возникают проблемы с некоторыми согласными звуками.
Работа исследователей была поддержана фондами и представлена на конференции SIGGRAPH Asia в начале декабря, что подчеркивает важность этих технологий в будущем.
