ServiceNow представила новый модель StarVector для генерации SVG из текста и изображений

Исследователи из компании ServiceNow в четверг анонсировали запуск новой модели StarVector, предназначенной для генерации Scalable Vector Graphics (SVG) по текстовым и визуальным входным данным. Модель, входящая в категорию многомодальных крупных языковых моделей (MLLM), решает ряд ограничений, свойственных предыдущим методам генерации SVG, которые часто приводили к появлению артефактов и трудностям с примитивами SVG, выходящими за рамки кривых пути.

Хуан А. Родригес, AI-исследователь в ServiceNow Research, поделился новостью на платформе X о выходе модели и коде, сопровождающем ее. StarVector открывает новую парадигму для генерации SVG, сочетая возможности многомодальных LLM для создания кода SVG, который эстетически соответствует вводимым изображениям и текстовым инструкциям, — отметил он.

Исследовательская работа подчеркивает, что StarVector работает непосредственно в пространстве кода SVG, используя визуальное понимание для применения точных примитивов SVG, что обеспечивает компактный и точный выходной результат. Чтобы обучить StarVector, команда создала набор данных SVG-Stack, содержащий 2 миллиона образцов, и представила SVG-Bench — инструмент для оценки по десяти датасетам и трем задачам: генерация изображений в SVG, генерация текста в SVG и создание диаграмм.

Архитектура StarVector включает в себя энкодер изображений для проекции изображений в визуальные токены и трансформерный языковой модель, который изучает взаимосвязи между инструкциями, визуальными признаками и последовательностями кода SVG. Это позволяет StarVector выполнять векторизацию изображений и генерацию SVG на основе текста, обеспечивая более компактные и семантически насыщенные SVG.

StarVector показала сильные результаты по сравнению с существующими моделями в задачах генерации изображений в SVG и текста в SVG, превзойдя такие решения, как GPT-4 Vision и Potrace. Несмотря на достижения модели, Родригес отметил, что она иногда может генерировать неточные детали, и команда активно работает над улучшением и устранением подобных проблем.

Модель доступна на Hugging Face, а ее код открыт для использования на GitHub под лицензией Apache 2.0.

Похожие записи

«Охота за единорогами» — Business StandUp тур от Оскара Хартманна

Samsung ведет переговоры о партнерстве с Perplexity AI для интеграции технологий поиска в смартфоны

Искусственный интеллект DeepNash достиг уровня эксперта в игре Stratego