图灵奖得主新作：AI发展新方向！

旧金山 – 人工智能领域正站在一个变革的十字路口。在人类生成数据驱动了人工智能取得惊人进步之后，未来的发展方向在哪里？图灵奖得主、强化学习奠基人Richard Sutton与谷歌DeepMind强化学习副总裁David Silver近日联手发表论文《Welcome to the Era of Experience》，预言人工智能即将进入一个全新的“经验时代”，智能体将主要通过与环境互动获得的经验来学习，并最终超越人类能力。

这篇论文，未来将收录于MIT Press出版的《智能设计》（Designing an Intelligence）一书中，引发了人工智能学界和业界的广泛关注。Sutton和Silver在文中指出，人工智能的发展历程可以划分为三个阶段：模仿时代、人类数据时代和即将到来的经验时代。每个时代都涌现出相应的AI技术，并朝着超人智能不断迈进。

从人类数据到经验：范式转变

近年来，人工智能，尤其是大型语言模型（LLM），在海量人类生成的数据上进行训练，并通过专家示例和偏好进行微调，取得了显著的进步。LLM在诸如写诗、解决物理问题、诊断医疗问题和总结法律文件等各种任务中展现出了广泛的通用性。

然而，Sutton和Silver认为，仅仅模仿人类能力，虽然足以在很多方面达到胜任水平，但无法在数学、编程和科学等关键领域实现超人类智能。他们指出，高质量的数据源正在迅速耗尽，仅仅依靠从人类数据中进行监督学习的进步步伐明显放缓。更重要的是，新定理、技术或科学突破等有价值的新见解，超出了当前人类理解的边界，无法通过现有的人类数据捕获。

“要取得进一步的显著进步，需要一个新的数据来源，”Sutton和Silver在论文中写道，“这种数据的生成方式必须随着智能体变得更强而不断改进；任何静态的合成数据生成程序都会很快被超越。这可以通过让智能体从自己的经验中持续学习来实现。”

经验时代的特征

Sutton和Silver认为，经验时代将具有以下几个关键特征，从而突破以人为中心的AI系统的局限：

经验流： 智能体将生活在经验流中，而不是短暂的互动片段中。它们的行动和观察将深深扎根于环境中，而不仅仅通过人类对话进行互动。
环境奖励： 它们的奖励将基于环境中的经验，而不是来自人类的预先判断。
经验规划与推理： 它们将根据经验进行规划和/或推理，而不是仅仅以人类的方式进行推理。

AlphaProof的成功案例

Sutton和Silver在论文中引用了DeepMind的AlphaProof作为“经验时代”的早期成功案例。AlphaProof是第一个在国际数学奥林匹克竞赛中获得奖牌的程序，超越了以人为中心的方法的表现。

AlphaProof最初接触了大约十万个由人类数学家多年创建的形式化证明，随后其强化学习算法通过与形式化证明系统的持续互动又生成了一亿个证明。这种专注于互动经验的方法使AlphaProof能够探索超出现有形式化证明范围的数学可能性，从而发现解决新颖且具挑战性问题的方法。

通往超人智能的道路

Sutton和Silver相信，一旦充分利用经验学习的全部潜力，将会出现令人难以置信的新能力。他们认为，今天的技术，配合适当选择的算法，已经提供了足够强大的基础来实现这些突破。

“此外，AI社区对这一议程的追求将刺激这些方向上的新创新，迅速推动AI向真正超人类智能体的方向发展，”Sutton和Silver总结道。

未来展望

Sutton和Silver的论文为人工智能的未来发展指明了方向，引发了人们对“经验时代”的无限遐想。随着人工智能技术的不断进步，我们有理由相信，未来的智能体将能够通过与环境的持续互动，不断学习和进化，最终超越人类的认知能力，为人类社会带来更加美好的未来。

参考文献

Sutton, R. S., & Silver, D. (2024). Welcome to the Era of Experience. Retrieved from https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf
机器之心. (2024, April 16). 智能体版《苦涩的教训》，图灵奖得主Sutton、谷歌RL大佬Silver新作：超人智能靠经验. Retrieved from https://www.jiqizhixin.com/articles/2024-04-16-10

>>> Read more <<<