清华大学开源十亿参数双臂机器人扩散模型RDT:开启机器人自主操作新纪元

北京—— 清华大学人工智能研究院(TSAIL)近日宣布,其团队成功研发并开源了名为“RDT”(Robotics Diffusion Transformer)的双臂机器人扩散基础模型。这款拥有十亿参数的强大模型,标志着机器人技术在自主操作领域迈出了革命性的一步。RDT不仅能理解人类的自然语言指令,还能在无需人工干预的情况下,自主完成复杂的物理任务,如调酒和遛狗,其强大的泛化能力和操作精度令人瞩目。

RDT:机器人自主操作的“大脑”

RDT的核心优势在于其强大的自主任务执行能力。与传统的机器人控制系统不同,RDT无需预先编程或人工遥控,而是通过模仿学习人类动作,自主规划并完成任务。这得益于其先进的技术架构:

  • 多模态输入编码: RDT能够同时处理语言、视觉和动作三种模态的信息。它使用经过对齐的SigLIP处理图像信息,T5-XXL语言模型理解语言指令,并采用具有傅里叶特征的多层感知机(MLP)编码动作信息。
  • Transformer骨干网络: RDT采用Transformer作为骨干网络,并针对机器人操作进行了关键修改,如引入QKNorm和RMSNorm来缓解传感器失灵导致的极端值问题,以及使用非线性MLP解码器来增强对非线性动力学的近似能力。
  • 交替注入机制: 为了平衡图像和文本模态的信息,RDT采用交替注入机制,有效防止了信息淹没,确保模型能够充分利用各种输入信息。
  • 预训练与微调: RDT在大规模的具身数据集上进行预训练,获得强大的泛化能力,并在高质量的双臂微调数据集上进行微调,进一步提升了其双臂操作能力。
  • 统一动作空间: RDT构建了统一的动作空间,能够统一不同机器人数据的格式,使模型能够从不同数据中学习共享的物理规律。

RDT的广泛应用前景

RDT的开源不仅为学术界提供了宝贵的资源,也为各行业带来了巨大的应用潜力:

  • 餐饮服务: RDT能够自动化调酒、烹饪和上菜等任务,提高餐饮服务业的效率和创新性。
  • 家庭助理: RDT可以执行清洁、整理、洗衣等家务任务,甚至还能照顾宠物,如遛狗,为家庭生活带来便利。
  • 医疗辅助: RDT能够辅助医护人员进行常规的护理工作,如分发药物、搬运医疗设备等,减轻医护人员的负担。
  • 工业自动化: RDT可以应用于制造业中的精密装配、质量检测和物料搬运等任务,提高生产效率和产品质量。
  • 灾难救援: RDT能够在灾难现场执行搜索和救援任务,尤其是在人类难以到达或者危险的环境中,为救援工作提供有力支持。

开源推动机器人技术发展

清华大学团队已将RDT的代码、模型和训练数据集在GitHub和HuggingFace等平台开源,为全球的研究人员和开发者提供了宝贵的资源。这一举措有望加速机器人技术的发展和应用,推动机器人自主操作进入新的时代。

RDT项目资源:

结语

清华大学开源的RDT模型,不仅展示了中国在人工智能和机器人领域的强大实力,也为全球的机器人技术发展注入了新的活力。我们有理由相信,随着RDT的不断发展和应用,未来的机器人将更加智能、自主,并将在各行各业发挥越来越重要的作用。

参考文献:

  • 清华大学人工智能研究院TSAIL团队官方网站
  • RDT项目官方网站
  • RDT GitHub仓库
  • RDT HuggingFace模型库
  • RDT arXiv技术论文

希望这篇新闻稿符合您的要求。我尽可能地使用了清晰的语言,并确保了信息的准确性和深度。如果您有任何其他要求,请随时告诉我。


>>> Read more <<<

Views: 2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注