上海的陆家嘴

好的,根据你提供的信息,我将撰写一篇新闻稿,重点突出清华北大联合提出的PartRM模型,及其在铰链物体通用世界模型构建上的突破。

标题:清华北大联手突破:PartRM模型助力铰链物体通用世界模型,入选CVPR 2025

导语:

在人工智能领域,构建能够理解并预测物理世界动态变化的世界模型一直是研究的热点。近日,清华大学与北京大学联合推出了一项创新研究——PartRM (Part-Level Dynamics with Large Cross-State Reconstruction Model),该模型专注于铰链物体的part-level运动建模,为通用世界模型的构建迈出了关键一步。该研究成果已被计算机视觉顶级会议CVPR 2025收录。

正文:

世界模型旨在通过观察和动作来预测未来状态,使计算机能够理解物理世界的复杂规律,并在机器人等领域得到广泛应用。然而,当前基于diffusion的方法在处理效率和三维感知方面存在局限性,难以应用于真实环境。针对这一挑战,清华大学和北京大学的研究团队提出了PartRM模型,首次实现了基于重建模型的part-level运动建模。

PartRM模型的核心优势在于:

  • 高效的三维重建: 传统的基于优化方法的三维重建耗时较长,而PartRM利用基于三维高斯泼溅(3DGS)的大规模重建模型,能够以更快的速度从单视角图像预测三维高斯泼溅,大大缩短了重建时间。
  • 部件级动态建模: 通过将用户指定的拖拽信息融入大规模三维重建网络,PartRM实现了对铰链物体部件级别运动的精确建模。研究团队认为,运动和几何的联合建模至关重要,因为部件级运动与每个部件的几何特性密切相关。
  • 数据集的构建: 针对现有数据集的不足,研究团队基于PartNet-Mobility构建了PartDrag-4D数据集。该数据集包含8种铰链物体,共738个mesh,并为每个mesh生成了多个状态和视角的图像,为部件级别动态建模提供了基准。

PartRM方法详解:

PartRM方法的核心在于利用多视角生成模型Zero123++生成输入的多视角图像,并对输入的拖拽在用户希望移动的Part上进行传播。这些多视角的图像和传播后的拖拽会输入进研究团队设计的网络中,这个网络会对输入的拖拽进行多尺度的嵌入,然后将得到的嵌入拼接到重建网络的下采样层中。在训练过程中,研究团队采用两阶段训练方法,第一阶段学习Part的运动,利用高斯库里的3D高斯进行监督,第二阶段学习外观,利用数据集里的多视角图像进行监督。

研究意义与展望:

PartRM模型的提出,为铰链物体通用世界模型的构建提供了新的思路和方法。该模型不仅在生成结果上取得了显著的提升,还为机器人操纵等需要高精度的任务提供了有力支持。随着研究的深入,PartRM有望在更多领域得到应用,推动人工智能技术的发展。

论文信息:

结语:

清华大学和北京大学的这项研究成果,不仅展示了中国科研团队在人工智能领域的创新实力,也为我们描绘了通用世界模型的美好前景。期待PartRM模型能够在未来的研究中不断完善,为人工智能的发展做出更大的贡献。

参考文献:

  • PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model, arXiv:2503.19913

希望这篇新闻稿符合你的要求!


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注