摘要: 上海人工智能实验室(Shanghai AI Lab)近日开源了其研发的生成式世界模型Aether。该模型基于合成数据训练,融合了三维时空建模与生成式建模,具备4D动态重建、动作条件视频预测和目标导向视觉规划三大核心能力,为具身智能系统提供了强大的空间推理和决策支持。
上海报道 – 在人工智能领域,世界模型的构建一直是研究的热点。近日,上海人工智能实验室(Shanghai AI Lab)开源了其研发的生成式世界模型Aether,为该领域带来了新的突破。Aether的发布,不仅为研究人员提供了强大的工具,也预示着具身智能系统将在机器人、自动驾驶、虚拟现实等领域迎来更广阔的应用前景。
Aether的核心能力:感知、理解与决策
Aether并非简单的图像或视频生成模型,它更像是一个能够理解物理世界规则的“AI大脑”。其核心能力体现在以下三个方面:
- 4D动态重建: Aether能够从视频中重建包含时间和空间的三维场景模型,捕捉动态变化。这意味着它可以理解物体在时间轴上的运动轨迹,而不仅仅是静态的图像。
- 动作条件视频预测: 基于初始观察和动作轨迹,Aether能够预测未来场景的变化。例如,它可以预测机器人在执行特定动作后,周围环境将会如何改变。
- 目标导向视觉规划: Aether可以根据起始和目标场景生成合理的路径,辅助智能系统规划行动路线。这使得机器人能够自主地完成复杂的任务,例如在未知环境中导航。
技术原理:多任务融合与几何感知
Aether之所以能够实现上述能力,得益于其独特的技术原理:
- 统一多任务框架: Aether将动态重建、视频预测和动作规划三项任务融合在一个统一的框架中进行优化。通过任务交错的特征学习,实现不同任务之间的协同优化,提升模型的稳定性和鲁棒性。
- 几何感知建模: Aether引入三维时空建模,构建几何空间,从而提升模型的空间推理能力。研究人员利用海量仿真RGBD数据(彩色图像和深度图),开发了一套完整的数据清洗与动态重建流程,并标注了丰富的动作序列。
- 相机轨迹作为动作表征: Aether选择相机轨迹作为全局动作的表示方式。在导航任务中,相机轨迹直接对应导航路径;在机器人操作中,手柄相机的运动可以捕捉末端执行器的6D运动。
- 扩散模型与多模态融合: Aether基于预训练的视频扩散模型,用合成4D数据进行后训练。它将深度视频转换为尺度不变的归一化视差表示,并将相机轨迹编码为与扩散变换器(DiTs)时空框架对齐的尺度不变射线图序列表示。通过动态整合跨任务和跨模态的条件信号,Aether实现了多模态信息的融合和协同优化。
- 零样本泛化能力: Aether完全在虚拟数据上训练,实现了对真实世界的零样本泛化。基于组合不同的条件输入(如观察帧、目标帧和动作轨迹),结合扩散过程,实现了对多种任务的统一建模与生成。这使得模型在没有真实世界数据的情况下,也能迁移到真实场景中表现出色。
应用场景:潜力无限
Aether的应用场景非常广泛,包括:
- 机器人导航: 帮助机器人规划路径,避开动态障碍。
- 自动驾驶: 实时重建道路场景,预测交通动态。
- 虚拟现实: 生成沉浸式虚拟场景,增强用户体验。
- 工业机器人: 优化机器人操作路径,提高生产效率。
- 智能监控: 分析监控视频,预测异常行为。
开源地址:
- 项目官网:https://aether-world.github.io/
- GitHub仓库:https://github.com/OpenRobotLab/Aether
- HuggingFace模型库:https://huggingface.co/AetherWorldModel/AetherV1
- arXiv技术论文:https://arxiv.org/pdf/2503.18945
- 在线体验Demo:https://huggingface.co/spaces/AmberHeart/AetherV1
结论:
Aether的开源,标志着生成式世界模型的研究进入了一个新的阶段。它不仅为具身智能系统提供了强大的技术支持,也为人工智能领域的研究人员提供了宝贵的资源。随着Aether的不断发展和完善,我们有理由相信,未来的机器人将更加智能、更加自主,能够更好地服务于人类社会。
参考文献:
- Aether项目官网:https://aether-world.github.io/
- Aether GitHub仓库:https://github.com/OpenRobotLab/Aether
- Aether arXiv技术论文:https://arxiv.org/pdf/2503.18945
(完)
Views: 1
