Исследователи из Google DeepMind анонсировали Robotic Transformer 2 (RT-2), инновационную модель в области систем, сочетающих визуальное, языковое и действий (VLA). Эта модель обучается на данных из интернета и робототехники, преобразуя полученные знания в обобщенные инструкции для управления роботами.
RT-2 является продолжением Robotic Transformer 1 (RT-1) и демонстрирует улучшенные способности к обобщению и семантическому пониманию, выходящему за рамки ранее увиденных данных. Модель способна интерпретировать новые команды и выполнять задачи, требующие элементарного рассуждения — например, определять, какой объект можно использовать как молоток (камень) или какой напиток подойдет уставшему человеку (энергетик).
В процессе обучения RT-2 использует данные, собранные с 13 роботами в офисной кухне на протяжении 17 месяцев. Среди возможностей модели — выполнение команд, которые связывают знания из интернета с опытом работы с объектами. Например, задачи, такие как «подними сумку, которая вот-вот упадет со стола», позволяют оценить способности RT-2 к обобщению и интерпретации.
В ходе испытаний RT-2 показала стабильный успех в управлении роботами, демонстрируя уровень успешности в 90% по сравнению с предыдущими моделями. Модель эффективно справляется как с известными задачами, так и с ранее невиданными объектами и окружениями. Это качество, наряду с интеграцией цепочки размышлений, позволяет RT-2 совместно планировать действия и предсказывать необходимые операции.
С помощью RT-2 исследователи надеются на создание общего физического робота, способного к рассуждению и решению проблем, что открывает новые горизонты в интеграции машинного обучения и робототехники.
