北京 – 人工智能领域再添新突破。近日,清华大学与重庆大学联合推出了一项创新框架——Vid2World,该框架能够将全序列、非因果的被动视频扩散模型(VDM)转化为自回归、交互式、动作条件化的世界模型。这一技术突破有望在机器人操作、游戏模拟等领域带来革命性变革,为提升世界模型的实用性和预测精度开辟了新途径。

世界模型是人工智能领域一个重要的研究方向,旨在构建能够理解和预测现实世界的模型。传统的视频扩散模型(VDM)虽然在视频生成方面表现出色,但在因果生成和动作条件化方面存在局限性。Vid2World的出现,正是为了解决这些问题,实现更智能、更具交互性的AI系统。

Vid2World的核心技术包括视频扩散因果化和因果动作引导。针对VDM的全序列生成方式不适合因果推演的问题,Vid2World通过对预训练的VDM进行修改,引入因果掩码,限制时间注意力机制只能访问过去的帧,从而实现因果性。此外,该框架还推出了混合权重转移方案,在保留预训练权重的同时,让模型适应因果卷积层。

为了让模型能够响应细粒度的动作,Vid2World引入了因果动作引导机制。每个动作都基于轻量级的多层感知机(MLP)进行编码,并添加到对应的帧中。通过在训练时独立丢弃每个动作,模型能够同时学习条件和非条件得分函数,从而在自回归生成过程中更好地响应动作输入。

Vid2World的主要功能包括:

  • 高保真视频生成: 生成与真实视频在视觉保真度和动态一致性上高度相似的预测。
  • 动作条件化: 根据输入的动作序列生成相应的视频帧,支持细粒度的动作控制。
  • 自回归生成: 用自回归的方式逐帧生成视频,每一步的生成仅依赖于过去的帧和动作。
  • 因果推理: 模型能进行因果推演,预测仅依赖于过去的信息,不会受到未来信息的影响。
  • 支持下游任务: 支持辅助机器人操作、游戏模拟等交互式任务。

Vid2World的应用前景广阔,包括:

  • 机器人操作: 生成高保真预测,辅助机器人任务规划,提高机器人的自主性和适应性。
  • 游戏模拟: 生成与真实游戏高度一致的视频,助力神经游戏引擎开发,提升游戏体验。
  • 策略评估: 模拟不同策略执行结果,助力策略优化,为决策提供支持。
  • 视频预测: 基于已有帧和动作序列预测后续帧,用在视频补全等,提升视频处理效率。
  • 虚拟环境构建: 生成响应动作的虚拟场景,提升虚拟现实交互性,创造更沉浸式的体验。

目前,Vid2World的项目地址已公开,包括项目官网(https://knightnemo.github.io/vid2world/)、HuggingFace模型库(https://huggingface.co/papers/2505.14357)和arXiv技术论文(https://arxiv.org/pdf/2505.14357),供研究人员和开发者进一步探索和应用。

Vid2World的推出,标志着中国在人工智能领域又取得了一项重要突破。该框架不仅提升了世界模型的性能,也为未来的AI交互应用打开了新的大门。随着技术的不断发展,我们有理由相信,Vid2World将在更多领域发挥重要作用,推动人工智能技术的进步。


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注