news pappernews papper

上海,[日期] – 上海人工智能实验室(Shanghai AI Lab)近日开源了其研发的生成式世界模型Aether,这一突破性成果将为具身智能领域带来新的发展机遇。Aether模型基于合成数据训练,融合了三维时空建模与生成式建模,具备4D动态重建、动作条件视频预测和目标导向视觉规划三大核心能力。

Aether的发布,标志着AI在理解和模拟真实世界方面迈出了重要一步。该模型能够感知环境,理解物体的位置和运动关系,并在此基础上做出智能决策。更重要的是,Aether展现出了强大的零样本泛化能力,这意味着它可以在虚拟数据上训练,并高效地应用于真实世界的复杂任务。

Aether的核心功能与技术原理:

  • 4D 动态重建: Aether能够从视频中重建包含时间和空间信息的三维场景模型,精确捕捉动态变化,为理解场景提供基础。
  • 动作条件视频预测: 基于初始观察和动作轨迹,Aether可以预测未来场景的变化,这对于机器人导航和自动驾驶等应用至关重要。
  • 目标导向视觉规划: Aether能够根据起始和目标场景生成合理的路径,辅助智能系统规划行动路线,实现目标导向的任务执行。

Aether的技术原理建立在统一的多任务框架之上,将动态重建、视频预测和动作规划融合在一起进行优化。通过任务交错的特征学习,实现不同任务之间的协同优化,提升模型的稳定性和鲁棒性。此外,Aether引入了三维时空建模,构建几何空间,从而提升模型的空间推理能力。

为了训练Aether,上海AI Lab开发了一套完整的数据清洗与动态重建流程,标注了丰富的动作序列,并使用海量仿真RGBD数据(彩色图像和深度图)。模型选择相机轨迹作为全局动作的表示方式,并基于预训练的视频扩散模型,用合成4D数据进行后训练。

Aether的应用前景:

Aether的应用场景广泛,潜力巨大:

  • 机器人导航: 帮助机器人在复杂环境中规划路径,避开动态障碍。
  • 自动驾驶: 实时重建道路场景,预测交通动态,提高驾驶安全性。
  • 虚拟现实: 生成沉浸式虚拟场景,增强用户体验。
  • 工业机器人: 优化机器人操作路径,提高生产效率。
  • 智能监控: 分析监控视频,预测异常行为,提升安防水平。

开源信息:

Aether的开源将加速具身智能领域的发展。研究人员和开发者可以访问以下资源:

上海AI Lab Aether的开源,无疑为全球人工智能研究者和开发者提供了一个强大的工具,有望推动具身智能技术在各个领域的广泛应用,加速人与机器的深度融合。


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注