新闻报道新闻报道

摘要: 上海人工智能实验室(Shanghai AI Lab)近日开源了其研发的生成式世界模型Aether。该模型基于合成数据训练,融合了三维时空建模与生成式建模,具备4D动态重建、动作条件视频预测和目标导向视觉规划三大核心能力,为具身智能系统提供了强大的空间推理和决策支持。

上海报道 – 在人工智能领域,世界模型的构建一直是研究的热点。近日,上海人工智能实验室(Shanghai AI Lab)开源了其研发的生成式世界模型Aether,为该领域带来了新的突破。Aether的发布,不仅为研究人员提供了强大的工具,也预示着具身智能系统将在机器人、自动驾驶、虚拟现实等领域迎来更广阔的应用前景。

Aether的核心能力:感知、理解与决策

Aether并非简单的图像或视频生成模型,它更像是一个能够理解物理世界规则的“AI大脑”。其核心能力体现在以下三个方面:

  • 4D动态重建: Aether能够从视频中重建包含时间和空间的三维场景模型,捕捉动态变化。这意味着它可以理解物体在时间轴上的运动轨迹,而不仅仅是静态的图像。
  • 动作条件视频预测: 基于初始观察和动作轨迹,Aether能够预测未来场景的变化。例如,它可以预测机器人在执行特定动作后,周围环境将会如何改变。
  • 目标导向视觉规划: Aether可以根据起始和目标场景生成合理的路径,辅助智能系统规划行动路线。这使得机器人能够自主地完成复杂的任务,例如在未知环境中导航。

技术原理:多任务融合与几何感知

Aether之所以能够实现上述能力,得益于其独特的技术原理:

  • 统一多任务框架: Aether将动态重建、视频预测和动作规划三项任务融合在一个统一的框架中进行优化。通过任务交错的特征学习,实现不同任务之间的协同优化,提升模型的稳定性和鲁棒性。
  • 几何感知建模: Aether引入三维时空建模,构建几何空间,从而提升模型的空间推理能力。研究人员利用海量仿真RGBD数据(彩色图像和深度图),开发了一套完整的数据清洗与动态重建流程,并标注了丰富的动作序列。
  • 相机轨迹作为动作表征: Aether选择相机轨迹作为全局动作的表示方式。在导航任务中,相机轨迹直接对应导航路径;在机器人操作中,手柄相机的运动可以捕捉末端执行器的6D运动。
  • 扩散模型与多模态融合: Aether基于预训练的视频扩散模型,用合成4D数据进行后训练。它将深度视频转换为尺度不变的归一化视差表示,并将相机轨迹编码为与扩散变换器(DiTs)时空框架对齐的尺度不变射线图序列表示。通过动态整合跨任务和跨模态的条件信号,Aether实现了多模态信息的融合和协同优化。
  • 零样本泛化能力: Aether完全在虚拟数据上训练,实现了对真实世界的零样本泛化。基于组合不同的条件输入(如观察帧、目标帧和动作轨迹),结合扩散过程,实现了对多种任务的统一建模与生成。这使得模型在没有真实世界数据的情况下,也能迁移到真实场景中表现出色。

应用场景:潜力无限

Aether的应用场景非常广泛,包括:

  • 机器人导航: 帮助机器人规划路径,避开动态障碍。
  • 自动驾驶: 实时重建道路场景,预测交通动态。
  • 虚拟现实: 生成沉浸式虚拟场景,增强用户体验。
  • 工业机器人: 优化机器人操作路径,提高生产效率。
  • 智能监控: 分析监控视频,预测异常行为。

开源地址:

结论:

Aether的开源,标志着生成式世界模型的研究进入了一个新的阶段。它不仅为具身智能系统提供了强大的技术支持,也为人工智能领域的研究人员提供了宝贵的资源。随着Aether的不断发展和完善,我们有理由相信,未来的机器人将更加智能、更加自主,能够更好地服务于人类社会。

参考文献:

(完)


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注