摘要: Meta公司近日发布了基于视频训练的世界模型V-JEPA 2,该模型拥有12亿参数,基于联合嵌入预测架构(JEPA)构建,能够实现最先进的环境理解与预测能力,并在新环境中完成零样本规划与机器人控制。V-JEPA 2的发布标志着Meta在高级机器智能(AMI)领域迈出了重要一步,为辅助技术、混合现实、个性化教育以及机器人技术等领域带来了新的可能性。
旧金山 – Meta公司首席AI科学家Yann LeCun亲自出镜,向世界展示了其最新的AI研究成果——V-JEPA 2(Video Joint Embedding Predictive Architecture 2)。这款基于视频训练的世界模型,旨在赋予AI系统更强大的环境理解和预测能力,使其能够在未知的环境中进行自主规划和机器人控制。
LeCun强调,世界模型是现实世界的一种抽象数字孪生,AI可以参考它来理解世界并预测其行为的后果。与理解语言不同,世界模型使机器能够理解物理世界,并能够规划行动路线以完成任务,而无需进行数百万次的试验,因为它提供了对世界运行方式的基本理解。
V-JEPA 2拥有12亿参数,其核心架构是联合嵌入预测架构(JEPA)。Meta此前已证明JEPA架构在处理图像和3D点云等模态方面表现出色。此次发布的V-JEPA 2是在去年首个基于视频训练模型V-JEPA的基础上,进一步提升了动作预测和世界建模能力,使机器人能够通过与陌生物体及环境交互来完成任务。
V-JEPA 2的关键特性与创新:
- 环境理解与预测: V-JEPA 2能够理解视频中的动作,并预测接下来会发生什么。例如,当视频中的人跳向水面时,V-JEPA 2可以解读为“向前,1.5周空翻,无转体”,并预测下一步的动作。
- 自监督学习: V-JEPA 2采用自监督学习进行训练,无需人工注释,即可在视频上进行训练,降低了训练成本。
- 两阶段训练: V-JEPA 2的训练分为两个阶段:无动作预训练和动作条件训练。预训练阶段使用超过100万小时的视频和100万张图像,使模型深入了解世界的运作方式。动作条件训练则利用机器人数据,提升模型的规划能力。
- 零样本规划与控制: V-JEPA 2能够在新环境中进行零样本机器人的规划,这意味着机器人可以在未知的环境中完成任务,而无需事先进行训练。Meta展示了V-JEPA 2如何用于在新环境中进行零样本机器人的规划,这些环境中涉及的物体在训练阶段从未见过。
V-JEPA 2的应用前景:
Meta认为,能够使用世界模型进行推理和规划的AI将产生广泛影响。例如:
- 辅助技术: 帮助视障人士更好地理解周围环境。
- 混合现实: 在混合现实中为复杂任务提供指导。
- 个性化教育: 使教育更加个性化,根据学生的学习进度和需求进行调整。
- 机器人技术: 使现实世界中的AI智能体能够在不需要大量机器人训练数据的情况下帮助完成家务和体力任务。
挑战与未来展望:
尽管V-JEPA 2取得了显著进展,但Meta也承认,现有模型在理解和推理物理世界的能力方面,与人类的表现仍存在显著差距。为此,Meta发布了三个新的基准测试,用于评估现有模型从视频中理解和推理物理世界的能力。
V-JEPA 2的发布,不仅是Meta在AI领域的一次重要突破,也为整个行业带来了新的思考和探索方向。随着技术的不断发展,我们有理由相信,AI世界模型将在未来发挥更大的作用,为人类社会带来更多的便利和福祉。
相关链接:
- 论文链接:https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/
- 项目链接:https://github.com/facebookresearch/vjepa2
- HuggingFace 链接:https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6
- 项目网站:https://ai.meta.com/vjepa/
Views: 0