Google DeepMind представила модели Gemini Robotics для повышения эффективности робототехники

Google DeepMind анонсировала запуск двух новых моделей искусственного интеллекта на основе Gemini 2.0, которые предназначены для решения сложных задач в области робототехники. Новые модели, именуемые Gemini Robotics и Gemini Robotics-ER, разрабатываются для обеспечения возможности ‘воплощенного’ рассуждения, позволяя роботам не только понимать, но и реагировать на физический мир.

Первая модель, Gemini Robotics, представляет собой усовершенствованную модель визуально-языкового действия (VLA), которая позволяет роботам выполнять физические действия, основанные на восприятии. Вторая модель, Gemini Robotics-ER, фокусируется на пространственном понимании, позволяя разработчикам запускать собственные программы, используя возможности ‘воплощенного’ рассуждения.

Обе модели значительно расширяют спектр задач, которые могут выполнять роботы. Gemini Robotics демонстрирует выдающиеся результаты в обобщении и адаптации к новым ситуациям, причем в среднем её производительность более чем вдвое превосходит другие современные модели подобного типа.

Также подчеркивается важность интерактивности, так как Gemini Robotics понимает и быстро реагирует на команды пользователей, а также обладает высокой степенью ловкости, что позволяет ей выполнять сложные многопользовательские задачи. Модель адаптируется ко многим типам робототехники, а также взаимодействует с существующими системами управления, что представляет собой значительный шаг вперед в области робототехники.

Google DeepMind сотрудничает с компанией Apptronik для создания нового поколения гуманоидных роботов на базе Gemini 2.0, а также работает с рядом доверенных тестировщиков для улучшения функциональности моделей. В результате ожидается, что новые разработки повысят уровень интеграции ИИ в различные сферы, от домашнего обихода до производственных процессов.