Исследовательские команды из Vast AI, Шанхайской ИИ-лаборатории, Гонконгского университета и Техасского университета в Остине представили две новые нейросети — TripoSG и TripoSF, предназначенные для генерации высококачественных 3D-моделей. Эти модели используют передовые технологии трансформеров с выпрямленным потоком (rectified flow transformers), что значительно уменьшает количество шума и повышает детализацию создаваемых объектов. TripoSG, с 1,5 миллиардом параметров, специализируется на преобразовании изображений в детализированные 3D-меши, а TripoSF ориентирована на генерацию сложных внутричерепных объектов и механизмов, пригодных для 3D-печати и разработки игр.
Эти достижения позволяют преодолеть проблему слабой работы нейросетей в области 3D-графики, которая ранее создавалась с множеством артефактов и требовала значительных правок. Код моделей и примеры работы опубликованы на GitHub и Hugging Face, а демонстрации доступны через официальные платформы проектов. Важной особенностью является возможность использования этих нейросетей в различных сферах — от инженерных решений до разработки игр и промышленных прототипов.
Кроме того, команда SkyworkAI анонсировала SkyReels V2 — новую модель для генерации видео по текстовому описанию, превосходящую по качеству конкурентов вроде OpenSora 2.0 и HunyuanVideo. Разработанная архитектура Diffusion Forcing объединяет мультимодальные языковые модели и многоступенчатую подготовку данных, что позволяет создавать согласованные видео любой длины, включая режимы сюжетной генерации, создание видео из изображений и управление виртуальной камерой. В бенчмарке VBench SkyReels V2 показывает превосходство по качеству и согласованности, а результаты на платформе доступны для тестирования и скачивания.»
