Meta发布V-JEPA 2模型：视频训练引领智能预测革命

摘要： Meta公司近日发布了基于视频训练的世界模型V-JEPA 2，该模型拥有12亿参数，基于联合嵌入预测架构（JEPA）构建，能够实现最先进的环境理解与预测能力，并在新环境中完成零样本规划与机器人控制。V-JEPA 2的发布标志着Meta在高级机器智能（AMI）领域迈出了重要一步，为辅助技术、混合现实、个性化教育以及机器人技术等领域带来了新的可能性。

旧金山 – Meta公司首席AI科学家Yann LeCun亲自出镜，向世界展示了其最新的AI研究成果——V-JEPA 2（Video Joint Embedding Predictive Architecture 2）。这款基于视频训练的世界模型，旨在赋予AI系统更强大的环境理解和预测能力，使其能够在未知的环境中进行自主规划和机器人控制。

LeCun强调，世界模型是现实世界的一种抽象数字孪生，AI可以参考它来理解世界并预测其行为的后果。与理解语言不同，世界模型使机器能够理解物理世界，并能够规划行动路线以完成任务，而无需进行数百万次的试验，因为它提供了对世界运行方式的基本理解。

V-JEPA 2拥有12亿参数，其核心架构是联合嵌入预测架构（JEPA）。Meta此前已证明JEPA架构在处理图像和3D点云等模态方面表现出色。此次发布的V-JEPA 2是在去年首个基于视频训练模型V-JEPA的基础上，进一步提升了动作预测和世界建模能力，使机器人能够通过与陌生物体及环境交互来完成任务。

V-JEPA 2的关键特性与创新：

环境理解与预测： V-JEPA 2能够理解视频中的动作，并预测接下来会发生什么。例如，当视频中的人跳向水面时，V-JEPA 2可以解读为“向前，1.5周空翻，无转体”，并预测下一步的动作。
自监督学习： V-JEPA 2采用自监督学习进行训练，无需人工注释，即可在视频上进行训练，降低了训练成本。
两阶段训练： V-JEPA 2的训练分为两个阶段：无动作预训练和动作条件训练。预训练阶段使用超过100万小时的视频和100万张图像，使模型深入了解世界的运作方式。动作条件训练则利用机器人数据，提升模型的规划能力。
零样本规划与控制： V-JEPA 2能够在新环境中进行零样本机器人的规划，这意味着机器人可以在未知的环境中完成任务，而无需事先进行训练。Meta展示了V-JEPA 2如何用于在新环境中进行零样本机器人的规划，这些环境中涉及的物体在训练阶段从未见过。

V-JEPA 2的应用前景：

Meta认为，能够使用世界模型进行推理和规划的AI将产生广泛影响。例如：