北京——人工智能领域再迎突破!清华大学交叉信息研究院智能社会研究实验室(ISRLab)与北京星动纪元科技有限公司联合开源了首个AIGC生成式机器人大模型VPP(Video Prediction Policy),该研究成果已入选国际机器学习大会ICML 2025 Spotlight。这一创新模型利用预训练视频生成大模型,通过海量互联网视频数据训练,学习人类动作,大幅降低了对高质量机器人真机数据的依赖,并实现了跨人形机器人本体的切换,为人形机器人的商业化落地注入了强劲动力。

AIGC浪潮下的具身智能新突破

从2023年引爆全球的Sora,到如今国内涌现的可灵、Vidu、通义万相,AIGC生成式技术正以其强大的能力重塑着AI应用场景。如今,这股浪潮也席卷至具身智能机器人领域,VPP的诞生正是这一趋势下的重要里程碑。

想象一下,未来你只需对身边的机器人说一句“给我盛一碗热腾腾的鸡汤”,它就能立即为你端上一碗热气腾腾的美味。这并非科幻,而是VPP正在实现的愿景。VPP通过学习海量的互联网视频数据,让机器人能够理解并执行复杂的任务,如同“机器人界的Sora”,将AIGC的魔力从数字世界带入真实的物理世界。

VPP:技术解析与优势

VPP模型的核心在于利用预训练视频生成大模型,让机器人直接学习人类动作,从而摆脱对昂贵且难以获取的高质量机器人真机数据的依赖。更重要的是,VPP能够在不同的人形机器人本体之间自如切换,这意味着它可以快速适应不同的机器人硬件平台,加速商业化进程。

VPP的技术亮点主要体现在以下几个方面:

  1. 提前预知未来: 传统的机器人策略往往只能根据当前观测进行动作学习,而VPP能够提前预测未来的场景,让机器人“看着答案”行动,从而显著增强泛化能力。
  2. 高频预测和执行: 尽管AIGC视频扩散模型通常需要大量的推理时间,但星动纪元的研究团队发现,通过有效提取视频模型中间层的表征,单步去噪的预测就能蕴含大量未来信息。这使得VPP的预测时间小于150ms,控制频率超过50Hz,实现了高频预测和执行。
  3. 跨本体学习: VPP可以直接学习各种形态机器人的视频数据,甚至包括人类操作数据,这大大降低了数据获取成本,并提高了模型的泛化能力。
  4. 基准测试领先: 在Calvin ABC-D基准测试中,VPP实现了4.33的任务完成平均长度,接近满分5.0,相较于先前技术提升了41.5%。
  5. 真实世界灵巧操作: 在真实世界的测试中,VPP展现出了惊人的多任务学习能力和泛化能力,能够完成抓取、放置、堆叠、倒水、工具使用等100多种复杂灵巧操作任务。
  6. 可解释性与调试优化: VPP的预测视觉表示具有一定的可解释性,开发者可以通过预测的视频来提前发现失败的场景和任务,进行针对性的调试和优化。

开源共享,共筑机器人智能未来

清华大学和星动纪元选择开源VPP,无疑将加速整个机器人行业的发展。通过开源,更多的研究者和开发者可以参与到VPP的改进和应用中来,共同推动机器人技术的进步。

尽管VPP是首个AIGC生成式机器人大模型,但它与基于自回归的理解模型(如PI)并非相互排斥,而是可以相互借鉴和融合。正如在大模型领域LLM和生成式模型并存一样,VPP与PI等VLA大模型也将共同推动机器人技术迈向新的阶段。

随着更多优质模型和技术的开源,具身AGI(通用人工智能)将加速到来,一个充满无限可能的智能未来正在向我们招手。

VPP项目开源信息:

参考文献:

  • 清华大学叉院ISRLab与星动纪元联合发布新闻稿。
  • ICML 2025 Spotlight 论文列表。
  • 相关人工智能及机器人领域学术论文。

(记者:[你的名字])


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注