纽约讯 – 在人工智能领域,图灵奖得主 Yann LeCun 始终是一位特立独行的人物。尽管大型语言模型(LLM)的能力日益强大,但他依然坚信 LLM 并非通往通用人工智能(AGI)的正确方向。近日,LeCun 及其团队发布了一项新研究,揭示了 AI 系统在自然视频上进行自监督预训练后,能够涌现出对物理规则的直觉理解。这一发现为世界模型(World Model)这一被 LeCun 视为 AGI 关键的研究方向,增添了新的证据。
LeCun 曾公开表示,他认为实现人类水平人工智能的关键在于世界模型,并提出了“四个放弃”:放弃生成式模型、放弃概率模型、放弃对比方法、放弃强化学习。他认为,联合嵌入架构、基于能量的模型、正则化方法与模型预测式控制才是更有希望的方向。
这项题为“Intuitive physics understanding emerges from self-supervised pretraining on natural videos”的研究,探索了 AI 如何通过观察和学习真实世界的视频,获得对物理规律的直觉。研究人员发现,经过自监督预训练的 AI 模型,能够区分符合物理定律的视频和违反物理定律的视频,其表现甚至超越了多模态大语言模型。
什么是“直觉物理理解”?
研究指出,对物理规则的直觉理解是人类认知的基础。我们期望事物按照可预测的方式运行,例如不会凭空消失或穿透障碍物。这种认知在人类婴儿、灵长类动物以及其他动物中都有所发现,是核心知识假说的证据。该假说认为,人类拥有一套与生俱来或早期进化发展的计算系统,专门用于表示和推理世界的基本属性。
然而,在追求构建高级人工智能的过程中,AI 系统在语言、编程等高级认知任务上表现出色,但在常识性物理理解方面却显得不足。这体现了莫拉维克悖论:对生物有机体来说微不足道的任务,对人工系统来说可能异常困难。
V-JEPA:联合嵌入预测架构
为了解决这一问题,LeCun 团队探索了一种名为联合嵌入预测架构(JEPA)的模型。与传统的结构化模型(依赖手工编码的物体及其关系)和基于像素的生成模型(直接重建未来的感知输入)不同,JEPA 整合了两者的特征。
JEPA 认为,对未来世界状态的预测应该在模型的学习抽象、内部表示中进行,而不是在低级的像素层面。研究人员使用视频版本的 JEPA,即 V-JEPA,通过在表示空间中重建视频的被掩蔽部分来学习表示视频帧。
研究结果:令人惊讶的零样本准确率
研究人员使用预期违反(violation-of-expectation)框架来探测物理直觉理解。通过让模型预测视频的未来,并将其预测与实际观察到的未来进行比较,可以获得一个量化的意外度量,用于检测违反直观物理概念的情况。
研究发现,在自然视频上训练的 V-JEPA 模型在 IntPhys 基准测试上达到了 98% 的零样本准确率,在 InfLevel 基准测试上达到了 62% 的零样本准确率。这意味着,该模型能够准确地区分符合物理定律的视频和违反物理定律的视频,而无需任何特定任务的训练或适应。
更令人惊讶的是,多模态大语言模型和在像素空间中进行预测的可比较视频预测方法,表现都接近随机水平。
关键因素:在表示空间中进行预测
为了理解 V-JEPA 中物理直觉理解涌现的原因,LeCun 团队对训练数据、预训练预测目标和模型大小进行了消融研究。结果表明,虽然改变这些组件都会影响性能,但所有 V-JEPA 模型都达到了显著高于随机水平的性能。即使是一个小型的 1.15 亿参数模型,或者仅在一周独特视频上训练的模型,也能表现出一定的物理直觉。
这一发现表明,在学习表示空间中进行视频预测是获得物理直觉理解的一个稳健目标。
未来展望
这项研究为世界模型的发展提供了新的思路和证据。通过让 AI 系统观察和学习真实世界的视频,并学习在抽象的表示空间中进行预测,AI 有望获得对物理世界的直觉理解,从而更好地理解和适应真实世界。
LeCun 团队的这项研究不仅展示了 AI 涌现物理直觉的可能性,也为 AGI 的发展指明了新的方向。未来,我们或许能够看到 AI 系统像人类一样,通过观察和学习,获得对世界的深刻理解。
参考文献:
- Intuitive physics understanding emerges from self-supervised pretraining on natural videos: https://arxiv.org/pdf/2502.11831v1
- 项目地址: https://github.com/facebookresearch/jepa-intuitive-physics
Views: 0