Google DeepMind объявил о запуске новых моделей ИИ — Gemini Robotics и Gemini Robotics-ER, основанных на архитектуре Gemini 2.0, которые призваны стать основой для следующего поколения полезных роботов. Эти модели разработаны с целью обеспечения «воплощённого» мышления, позволяющего роботам безопасно взаимодействовать с физическим миром.
Gemini Robotics представляет собой продвинутую модель обработки речи и действий, позволяющую управлять роботами на основе понимания визуального контента и текста. В свою очередь, Gemini Robotics-ER отличается улучшенной пространственной оценкой, обеспечивая роботам возможность выполнения программ, использующих способности воплощённого мышления.
Основными характеристиками новых моделей являются их универсальность, интерактивность и ловкость. Gemini Robotics способен адаптироваться к различным ситуациям и задачам, а также эффективно взаимодействовать с людьми и окружающей средой. Модель демонстрирует значительно улучшенные результаты в сравнении с другими современными моделями, обеспечивая решение различных задач с нуля.
Кроме того, Gemini Robotics способен выполнять сложные многоэтапные задания, требующие точной манипуляции, такие как складывание оригами или упаковка продуктов. Модели также были созданы с акцентом на безопасность, включая интеграцию с традиционными системами управления, что позволяет правильно оценивать риски в реальных условиях.
В сотрудничестве с партнером Apptronik, DeepMind надеется создать следующую генерацию гуманоидных роботов и протестировать потенциал Gemini Robotics с рядом доверенных тестировщиков, включая Boston Dynamics и Agility Robots. Это важный шаг вперед в развитии робототехники и искуственного интеллекта.
