AI专家Yann LeCun发声：强化学习已过时，回归五十多年前

作者智能小编

8 月 26, 2024 #YannLeCun, #机器之心

Meta 的首席人工智能科学家 Yann LeCun 近日再次表达了对强化学习（RL）的批评，称相比而言，他更倾向于模型预测控制（MPC）。LeCun 认为，强化学习在解决新任务时需要大量尝试，效率低下，而 MPC 则可以在无需特定任务学习的情况下，基于良好的世界模型和任务目标解决新任务，更接近人类的学习方式。

LeCun 在过去已经多次表达过对强化学习的担忧，他曾主张“放弃强化学习”，但后来澄清，他的意思是减少强化学习的使用，主张首先通过观察和互动学习世界模型。MPC，作为一种自上世纪六七十年代起应用于多个领域的控制技术，近年来与机器学习的结合（ML-MPC）展现了在控制性能和效率上的潜力。

LeCun 的观点在 AI 社区引起了讨论。支持者认为，如果问题可以准确建模且动力学可预测，MPC 效果显著。然而，也有人指出，构建精确的 MPC 模型是一大挑战，而强化学习和 MPC 可能并行不悖，各自在特定场景中有其优势。已有研究显示，结合两者使用能够取得良好效果。

强化学习和模型预测控制各有优缺点。强化学习擅长处理复杂动态和未知模型问题，广泛应用于自动驾驶、机器人等领域，通过试错学习最佳策略。而 MPC 则依赖于准确的系统模型，适用于可预测环境中的优化控制。这两种方法的适用性和效果取决于具体的应用需求。

随着 AI 研究的深入，理论的再挖掘和不同方法的融合成为趋势。LeCun 对 MPC 的偏好提醒我们，尽管某些技术在某些领域取得了显著成就，但探索和比较多种方法对于推动人工智能的进步至关重要。

【source】https://www.jiqizhixin.com/articles/2024-08-26-15