ByteDance представила Seedream 3.0 — новую модель AI для генерации изображений, превосходящую GPT-4 и Midjourney

Компания ByteDance анонсировала запуск новой версии своей модели преобразования текста в изображение — Seedream 3.0, которая уже демонстрирует выдающиеся результаты в сравнении с ведущими конкурентами, включая GPT-4o и Midjourney. Предварительные тесты показывают, что модель превосходит своих предшественников по скорости, точности и качеству создаваемых изображений.

Seedream 3.0 обучалась на вдвое большем объеме данных, чем предыдущая версия, включая изображения, ранее исключенные из обучения из-за дефектов, что позволило значительно повысить качество генерации. Новые методы обучения, такие как выборка с учетом разрешения и смешанное разрешение, позволяют модели точно работать с изображениями различных размеров. Способность поддерживать исходное разрешение 2K и генерировать изображение 1K за около трех секунд выделяет Seedream 3.0 среди аналогов.

В масштабных тестах, таких как Artificial Analysis Arena, Seedream 3.0 уже занимает лидирующие позиции, уступая лишь на один балл GPT-4. Кроме того, модель демонстрирует высокую точность при выполнении задач с большим количеством текста — достигая 94% при переводе на английский и китайский языки, особенно в плотной типографике.

Модель обучена на наборах данных с детальными эстетическими и стилистическими описаниями, что позволяет ей превосходить GPT-4o и платформы, ориентированные на дизайн, такие как Canva, в создании плакатов и стикеров. В области фотореалистичных портретов Seedream 3.0 превосходит Midjourney v6.1, создавая более реалистичные кожи, волосы и морщины без необходимости постобработки.

Компания также представила SeedEdit — инструмент для точечного редактирования изображений, который, по мнению экспертов ByteDance, превосходит GPT-4o и Gemini 2.0 Flash по точности внесения изменений с меньшим количеством искажений. Визуальные сравнения подтверждают конкурентоспособность Seedream 3.0, которая планируется к интеграции в платформу чат-ботов Doubao, расширяя возможности AI в области визуального контента.