Исследователи представили Robotic Transformer 2 (RT-2), новую модель визуально-языкового действия (VLA), способную обучаться на данных как из интернета, так и из реальных робототехнических экспериментов. Модель демонстрирует улучшенные возможности обобщения и понимания визуальной информации, расширяя горизонты робототехники за счет интеграции веб-данных.
RT-2, развивающий концепцию Robotic Transformer 1 (RT-1), способен генерировать обобщенные команды для управления роботами, основываясь на огромном объеме предварительно обученных данных. Модель демонстрирует способность интерпретировать новые указания и выполнять сложные задачи, такие как распознавание категорий объектов и принятие решения в многослойных сценариях. Например, RT-2 может определить, какой объект использовать в качестве импровизированного молотка, или какой напиток предложить усталому человеку.
Особое внимание в исследовании уделено использованию цепочечного мышления, которое позволяет модели выполнять многопараметрные рассуждения и улучшает совмещение команд на естественном языке с действиями робота. Это могло бы значительно расширить функциональность роботов, позволяя им выполнять более сложные задачи с использованием как текстовых, так и визуальных команд.
Эксперименты с RT-2 показали более чем тройное улучшение в обобщении по сравнению с предшествующими моделями. Виртуальное тестирование продемонстрировало успех модели на открытых задачах с показательным результатом 90%, что подчеркивает высокую эффективность новой архитектуры, которая сочетает как данные роботехнических испытаний, так и веб-данные.
Разработка RT-2 открывает новые горизонты в создании универсальных роботов, способных не только выполнять заданные инструкции, но и адаптироваться к новым условиям и задачам, основываясь на полученном прошлом опыте и знаниях.
