看一眼就会!大模型赋能人形机器人,单视频模仿学习新突破
近年来,人形机器人领域掀起了一股模仿学习的热潮。 由于人形机器人与人类外形相似,研究人员一直试图利用人类行为数据来训练机器人,使其能够完成各种复杂的任务。然而,传统的模仿学习方法往往需要大量的训练数据,且难以适应不同的环境和任务。
近日,德克萨斯大学奥斯汀分校和 NVIDIA Research 的朱玉可团队发布了一项突破性研究成果,名为 OKAMI。 这项技术能够让人形机器人仅通过观看一段单一的 RGB-D 视频,就能快速学会新的操作技能。这意味着,机器人不再需要大量的人工标注数据,只需观看人类演示者如何完成任务,就能轻松掌握新技能。
OKAMI 的核心在于“物体感知型动力学重定向”。 该技术将人类运动重新定向成人形机器人的运动,并通过对物体位置的感知,使机器人能够在不同的环境和初始条件下完成任务。
具体而言,OKAMI 采用两阶段过程:
第一阶段: OKAMI 会分析视频,识别出与任务相关的物体,并重建人类演示者的运动轨迹。
第二阶段: OKAMI 会利用重建的运动轨迹和物体信息,生成一个参考操作规划,并将其映射到人形机器人身上。
OKAMI 的优势在于:
- 单视频学习: 无需大量训练数据,仅需观看一段视频即可学习新技能。
- 物体感知: 能够识别和定位与任务相关的物体,并根据物体位置调整动作。
- 环境适应性: 能够在不同的环境和初始条件下完成任务。
在实验中,OKAMI 成功地教会了人形机器人完成一系列操作任务,包括:
- 向袋子中装东西
- 撒盐
- 将玩具放进篮子
- 合上笔记本电脑
这项研究成果为人形机器人领域带来了新的曙光。 它不仅简化了机器人的学习过程,也为机器人应用于更复杂的任务提供了可能。
未来,OKAMI 技术有望应用于:
- 家庭服务机器人:帮助老人和残疾人完成日常生活中的各种任务。
- 工业机器人:在工厂中完成各种操作任务,提高生产效率。
- 医疗机器人:辅助医生完成手术和护理工作。
OKAMI 的出现,标志着人形机器人模仿学习迈入了新阶段。 随着技术的不断发展,我们有理由相信,人形机器人将越来越智能,并最终融入人类社会,为人类生活带来更多便利。
参考文献:
*OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation. https://arxiv.org/pdf/2410.11792
* Project website: https://ut-austin-rpl.github.io/OKAMI/
Views: 2
