Стартап Kyutai представил MoshiVis — первую в мире модель, объединяющую речь и зрение в реальном времени

Стартап Kyutai анонсировал запуск MoshiVis — первой в мире открытой модели, которая сочетает в себе возможности распознавания речи и зрения в режиме реального времени. Разработанная технология позволяет не просто говорить об изображениях, но и взаимодействовать с ними через голосовые команды.

MoshiVis является продолжением предыдущей модели компании Moshi, но теперь дополнена визуальным энкодером PaliGemma2-3B-448 и модулем перекрёстного внимания с 206 миллионами параметров. Благодаря этому, модель выполняет задачи с задержкой менее 7 миллисекунд, что существенно ускоряет процесс взаимодействия. Это делает её особенно эффективной для использования на устройствах с ограниченными ресурсами.

Одним из ключевых аспектов MoshiVis является функция обучаемого гейтинга, позволяющая отключать ненужную визуальную информацию, что экономит ресурсы и повышает скорость отклика. В результате пользователь получает живой и эмоциональный голос, способный естественно вести диалог о визуальном контенте.

Преимущество MoshiVis заключается также в её доступности: модель выпущена под лицензией CC-BY-4.0, что позволяет её использование в коммерческих проектах. Разработчики могут без труда интегрировать MoshiVis в различные приложения, такие как голосовые ассистенты и интерфейсы для людей с нарушениями зрения.

Анонс MoshiVis отвечает растущему спросу на мультимодальные искусственные интеллекты в условиях недостатка парных датасетов «речь + изображение». В компании Kyutai уверены, что эта разработка станет основой для будущих открытий и новых решений, направленных на практическое применение технологий.