Nvidia демонстрирует обновлённые модели MambaVision для компьютерного зрения с новыми возможностями

Компания Nvidia расширила свою линейку моделей MambaVision, предназначенных для задач компьютерного зрения и распознавания изображений, представив обновлённые версии, доступные на платформе Hugging Face. Новые модели, включающие вариации L/L2 и L3, масштабированы до 740 миллионов параметров и обучены на размере более обширного набора данных ImageNet-21K, что повышает их точность и универсальность в обработке сложных изображений и высокоразрешительных задач.

Модель MambaVision основана на архитектуре Structured State Space Models (SSM), которая отличается от классических трансформеров по способу обработки последовательных данных, моделируя их как динамическую систему. В отличие от традиционных моделей Vision Transformer (ViT), более ресурсоёмких и ориентированных на глобальное понимание контекста, MambaVision сочетает эффективность SSM с возможностями самовнимания для моделирования пространственных зависимостей, что обеспечивает баланс между производительностью и затратами.

Новые модели обладают улучшенными характеристиками, включая поддержку изображений разрешением до 512 пикселей и более эффективную работу на аппаратных средствах, что делает их перспективными для внедрения на крайних устройствах и в реальных приложениях, таких как автоматическое управление, инспекция качества и системы автономного вождения. Благодаря интеграции с платформой Hugging Face и лицензии Nvidia Source Code License-NC, внедрение MambaVision становится проще и доступнее для предприятий и исследователей. Этот шаг подчеркивает важность внедрения архитектурных инноваций и демонстрирует перспективы развития компьютерного зрения в ближайшие годы.