Разработчики Ollama анонсировали выход версии 0.7.0, которая значительно расширяет поддержку мультимодальных моделей благодаря новому движку. Эта версия включает в себя полную независимость от проекта ggml-org/llama.cpp, что позволяет сосредоточиться на создании надежной основы для мультимодальных систем. Теперь поддерживаются такие ключевые модели, как Meta Llama 4, Google Gemma 3, Qwen 2.5 VL и Mistral Small 3.1. Новый движок гарантирует улучшенную обработку моделей, что повышает их надежность и точность для задач, связанных с обработкой изображений и речи, а также закладывает основу для генерации изображений и видео.
Каждая из моделей теперь полностью автономна, что упрощает процесс разработки и снижает вероятность ошибок. Ollama также внедряет обработку метаданных для улучшения качества вывода в процессе работы с изображениями, что обеспечивает корректную позиционную информацию.
Кроме того, в сотрудничестве с производителями аппаратного обеспечения была проведена оптимизация использования памяти, включающая кэширование изображений и усовершенствования KV-кэша. Также анонсирована поддержка новых функций, таких как скользящее окно внимания в Gemma 3 и фрагментированное внимание для Meta Llama 4.
В то же время, Google AI представил новую версию инструмента Axolotl — 0.8.0, добавив официальную поддержку моделей Gemma 3. Обновление обещает ускорить обучение моделей в 3,6 раза по сравнению с традиционными методами, что делает их доступными даже на ограниченных ресурсах. Потребление видеопамяти снижается на 50%, что позволяет обучать мощные модели на одном графическом процессоре.
Обновления Axolotl v0.8.0 открывают новые возможности для разработчиков, делая сложные ИИ-приложения доступными и для небольших команд и стартапов. Полная документация и бенчмарки уже доступны на официальном сайте Axolotl.
