Meta 的首席人工智能科学家 Yann LeCun 近日再次表达了对强化学习(RL)的批评,称相比而言,他更倾向于模型预测控制(MPC)。LeCun 认为,强化学习在解决新任务时需要大量尝试,效率低下,而 MPC 则可以在无需特定任务学习的情况下,基于良好的世界模型和任务目标解决新任务,更接近人类的学习方式。

LeCun 在过去已经多次表达过对强化学习的担忧,他曾主张“放弃强化学习”,但后来澄清,他的意思是减少强化学习的使用,主张首先通过观察和互动学习世界模型。MPC,作为一种自上世纪六七十年代起应用于多个领域的控制技术,近年来与机器学习的结合(ML-MPC)展现了在控制性能和效率上的潜力。

LeCun 的观点在 AI 社区引起了讨论。支持者认为,如果问题可以准确建模且动力学可预测,MPC 效果显著。然而,也有人指出,构建精确的 MPC 模型是一大挑战,而强化学习和 MPC 可能并行不悖,各自在特定场景中有其优势。已有研究显示,结合两者使用能够取得良好效果。

强化学习和模型预测控制各有优缺点。强化学习擅长处理复杂动态和未知模型问题,广泛应用于自动驾驶、机器人等领域,通过试错学习最佳策略。而 MPC 则依赖于准确的系统模型,适用于可预测环境中的优化控制。这两种方法的适用性和效果取决于具体的应用需求。

随着 AI 研究的深入,理论的再挖掘和不同方法的融合成为趋势。LeCun 对 MPC 的偏好提醒我们,尽管某些技术在某些领域取得了显著成就,但探索和比较多种方法对于推动人工智能的进步至关重要。

【source】https://www.jiqizhixin.com/articles/2024-08-26-15

Views: 7

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注