HPC-AI Tech представила новую систему видео ИИ Open-Sora 2.0 с рекордно низкими затратами на обучение

Компания HPC-AI Tech анонсировала разработку новой системы видео искусственного интеллекта Open-Sora 2.0, которая позволяет достичь качества коммерческого уровня при затратах, составляющих всего одну десятую от стоимости обучения аналогичных систем. Благодаря инновационным методам сжатия и оптимизации, система требует около $200,000 для обучения, в то время как такие решения, как Movie Gen и Step-Video-T2V, обходятся в $2.5 млн и $1 млн соответственно.

Open-Sora 2.0 использует уникальный подход, жертвуя некоторым разрешением для снижения вычислительных потребностей. Система может генерировать видео как из текстовых описаний, так и из отдельных изображений, интегрируя функции оценки движения, что дает пользователям возможность контролировать интенсивность движений в созданных клипах.

Процесс обучения системы проходит в три фазы: от видео низкого разрешения до финальной тонкой настройки для более высокого качества. Центральным компонентом является автоэнкодер Video DC-AE, обеспечивающий более высокую скорость генерации видео и улучшенные показатели сжатия.

Несмотря на свои преимущества, Open-Sora 2.0 имеет ограничения — максимальное разрешение видео составляет лишь 768×768 пикселей, а длительность — пять секунд. Однако, по результатам тестирования, система демонстрирует высокое качество работы, близкое к коммерческим системам, и значительно сокращает разрыв с конкурентами.

Open-Sora 2.0 доступна как открытый исходный код на GitHub и может оказать заметное влияние на рынок видео ИИ, снижая затраты на услуги в этой области. Ожидается, что конкуренция среди компаний продолжит расти, в том числе благодаря подобным моделям с открытым исходным кодом.