清华、重大联手：视频秒变世界模型！

北京 – 人工智能领域再添新突破。近日，清华大学与重庆大学联合推出了一项创新框架——Vid2World，该框架能够将全序列、非因果的被动视频扩散模型（VDM）转化为自回归、交互式、动作条件化的世界模型。这一技术突破有望在机器人操作、游戏模拟等领域带来革命性变革，为提升世界模型的实用性和预测精度开辟了新途径。

世界模型是人工智能领域一个重要的研究方向，旨在构建能够理解和预测现实世界的模型。传统的视频扩散模型（VDM）虽然在视频生成方面表现出色，但在因果生成和动作条件化方面存在局限性。Vid2World的出现，正是为了解决这些问题，实现更智能、更具交互性的AI系统。

Vid2World的核心技术包括视频扩散因果化和因果动作引导。针对VDM的全序列生成方式不适合因果推演的问题，Vid2World通过对预训练的VDM进行修改，引入因果掩码，限制时间注意力机制只能访问过去的帧，从而实现因果性。此外，该框架还推出了混合权重转移方案，在保留预训练权重的同时，让模型适应因果卷积层。

为了让模型能够响应细粒度的动作，Vid2World引入了因果动作引导机制。每个动作都基于轻量级的多层感知机（MLP）进行编码，并添加到对应的帧中。通过在训练时独立丢弃每个动作，模型能够同时学习条件和非条件得分函数，从而在自回归生成过程中更好地响应动作输入。

Vid2World的主要功能包括：

高保真视频生成： 生成与真实视频在视觉保真度和动态一致性上高度相似的预测。
动作条件化： 根据输入的动作序列生成相应的视频帧，支持细粒度的动作控制。
自回归生成： 用自回归的方式逐帧生成视频，每一步的生成仅依赖于过去的帧和动作。
因果推理： 模型能进行因果推演，预测仅依赖于过去的信息，不会受到未来信息的影响。
支持下游任务： 支持辅助机器人操作、游戏模拟等交互式任务。

Vid2World的应用前景广阔，包括：

机器人操作： 生成高保真预测，辅助机器人任务规划，提高机器人的自主性和适应性。
游戏模拟： 生成与真实游戏高度一致的视频，助力神经游戏引擎开发，提升游戏体验。
策略评估： 模拟不同策略执行结果，助力策略优化，为决策提供支持。
视频预测： 基于已有帧和动作序列预测后续帧，用在视频补全等，提升视频处理效率。
虚拟环境构建： 生成响应动作的虚拟场景，提升虚拟现实交互性，创造更沉浸式的体验。

目前，Vid2World的项目地址已公开，包括项目官网（https://knightnemo.github.io/vid2world/）、HuggingFace模型库（https://huggingface.co/papers/2505.14357）和arXiv技术论文（https://arxiv.org/pdf/2505.14357），供研究人员和开发者进一步探索和应用。

Vid2World的推出，标志着中国在人工智能领域又取得了一项重要突破。该框架不仅提升了世界模型的性能，也为未来的AI交互应用打开了新的大门。随着技术的不断发展，我们有理由相信，Vid2World将在更多领域发挥重要作用，推动人工智能技术的进步。

>>> Read more <<<