上海,[日期] – 上海人工智能实验室(Shanghai AI Lab)近日开源了其最新的研究成果——Aether,一个基于合成数据训练的生成式世界模型。该模型首次将三维时空建模与生成式建模深度融合,具备4D动态重建、动作条件视频预测和目标导向视觉规划三大核心能力,为具身智能系统提供了强大的空间推理和决策支持。
Aether的发布,无疑为人工智能领域注入了新的活力,也为机器人、自动驾驶、虚拟现实等多个行业带来了新的可能性。
Aether:打破虚拟与现实的界限
Aether的核心在于其能够感知环境,理解物体的位置和运动关系,并在此基础上做出智能决策。它通过以下关键技术实现这一目标:
- 4D动态重建: 从视频中重建包含时间和空间的三维场景模型,捕捉动态变化,使机器能够“看到”并理解周围的世界。
- 动作条件视频预测: 根据初始观察和动作轨迹预测未来场景的变化,让机器能够“预见”未来。
- 目标导向视觉规划: 根据起始和目标场景生成合理路径,辅助智能系统规划行动路线,使机器能够“思考”并规划。
Aether的技术原理也颇具创新性:
- 统一多任务框架: 将动态重建、视频预测和动作规划三项任务融合在一个统一的框架中进行优化,实现不同任务之间的协同优化,提升模型的稳定性和鲁棒性。
- 几何感知建模: 引入三维时空建模,构建几何空间提升模型的空间推理能力。利用海量仿真 RGBD 数据(彩色图像和深度图),开发一套完整的数据清洗与动态重建流程,标注丰富的动作序列。
- 相机轨迹作为动作表征: 选择相机轨迹作为全局动作的表示方式,简化了动作的理解和预测。
- 扩散模型与多模态融合: 基于预训练的视频扩散模型,用合成 4D 数据进行后训练。将深度视频转换为尺度不变的归一化视差表示,将相机轨迹编码为与扩散变换器(DiTs)时空框架对齐的尺度不变射线图序列表示。
- 零样本泛化能力: 完全在虚拟数据上训练,实现对真实世界的零样本泛化,这意味着Aether可以在没有真实世界数据的情况下,迁移到真实场景中表现出色。
应用前景广阔
Aether的强大功能使其在多个领域具有广泛的应用前景:
- 机器人导航: 帮助机器人规划路径,避开动态障碍,提高机器人的自主性和适应性。
- 自动驾驶: 实时重建道路场景,预测交通动态,提升自动驾驶系统的安全性和可靠性。
- 虚拟现实: 生成沉浸式虚拟场景,增强用户体验,为虚拟现实内容创作带来新的可能性。
- 工业机器人: 优化机器人操作路径,提高生产效率,助力智能制造的发展。
- 智能监控: 分析监控视频,预测异常行为,提升社会安全保障水平。
开源共享,共建AI生态
上海AI Lab选择开源Aether,体现了其开放合作的精神。通过开源,Aether可以吸引更多的研究者和开发者参与其中,共同推动世界模型的进步和应用。
目前,Aether的项目地址已公开:
- 项目官网: https://aether-world.github.io/
- GitHub仓库: https://github.com/OpenRobotLab/Aether
- HuggingFace模型库: https://huggingface.co/AetherWorldModel/AetherV1
- arXiv技术论文: https://arxiv.org/pdf/2503.18945
- 在线体验Demo: https://huggingface.co/spaces/AmberHeart/AetherV1
未来展望
Aether的发布是人工智能领域的一个重要里程碑,它不仅展示了上海AI Lab在世界模型研究方面的领先地位,也为具身智能的发展指明了新的方向。随着技术的不断进步和应用场景的不断拓展,Aether有望在未来发挥更大的作用,为人类社会带来更多的福祉。
参考文献
- Aether项目官网:https://aether-world.github.io/
- Aether GitHub仓库:https://github.com/OpenRobotLab/Aether
- Aether HuggingFace模型库:https://huggingface.co/AetherWorldModel/AetherV1
- Aether arXiv技术论文:https://arxiv.org/pdf/2503.18945
- Aether在线体验Demo:https://huggingface.co/spaces/AmberHeart/AetherV1
Views: 0