Инженеры из Массачусетского технологического института (MIT) и компании NVIDIA представили инновационную технологию под названием HART (гибридный автрорегрессивный трансформер), которая существенно ускоряет процесс генерации высококачественных изображений. Этот инструмент совмещает преимущества двух популярных подходов: быструю работу автрорегрессивных моделей и детальную точность диффузионных моделей, что позволяет добиться качества, сопоставимого или превосходящего качество существующих методов, при этом в девять раз быстрее.
HART использует компактные модели, что снижает вычислительные затраты примерно на 31% по сравнению с современными аналогами, позволяя запускать его на обычных ноутбуках и смартфонах всего по одному естественному языковому запросу. Это открывает новые возможности для обучения автономных транспортных средств, разработки видеоигр и других приложений, требующих создания реалистичных изображений в реальном времени.
Ключевая идея метода состоит в том, что автрорегрессивная модель сначала формирует базовую картину, а затем диффузионная модель уточняет детали, например, края объектов и текстуры, что существенно повышает качество финального изображения. Исследование, выполненное группой ученых под руководством профессора Сона Хана, будет представлено на международной конференции по обучению представлений.
Разработчики отмечают, что их решение сочетает преимущества больших моделей, подобно использующимся для генерации изображений, и скорости, свойственной автрорегрессивным подходам, что делает HART наиболее перспективным инструментом в области искусственного интеллекта. В будущем команда планирует адаптировать технологию для видео и аудио-моделей, расширяя спектр её применения.
Данное исследование финансировалось группой организаций, включая MIT-IBM Watson AI Lab и NVIDIA, а технологическую инфраструктуру предоставила NVIDIA. Новая технология обещает значительно повысить эффективность и качество автоматической генерации изображений без значительных затрат ресурсов.
