DeepMind揭秘：大模型为何“明知故犯”？

大语言模型（LLMs）的崛起，无疑是人工智能领域的一场革命。它们在文本生成、语言翻译、问答等任务中展现出的强大能力，令人惊叹。然而，当我们将LLMs应用于更复杂的决策场景，期望它们像人类一样进行推理、规划并采取行动时，却发现它们常常表现得“任性”，明明知道最优路径，却偏要“撞南墙”。

谷歌DeepMind近期的一项研究，深入剖析了LLMs在决策过程中常见的失败模式，揭示了其“任性”背后的深层原因。这项研究不仅指出了LLMs的贪婪性、频率偏差和知-行差距等问题，还提出了一种基于强化学习的微调方法，试图通过训练来改善LLMs的决策能力，弥合理论知识与实际行动之间的鸿沟。

LLM智能体的困境：理想与现实的差距

将LLMs应用于智能体，使其能够自主探索环境、解决问题，是当前AI研究的热点之一。一个关键的假设是，LLMs能够利用其强大的常识知识和思维链（Chain-of-Thought, CoT）推理能力，有效地探索环境，并高效地解决复杂领域的问题。

然而，现实往往并非如此。LLM智能体常常面临次优探索和知-行差距的问题。它们可能无法找到最佳的行动路径，或者即使知道最佳路径，也无法将其转化为实际行动。这种“理论巨人，行动矮子”的现象，严重阻碍了LLMs在决策领域的应用。

DeepMind的研究人员针对这一问题，进行了系统的研究，旨在探究LLMs在决策场景中表现次优的根本原因。他们重点关注了三种常见的失败模式：

贪婪性是LLMs在决策中常见的一种缺陷。它指的是LLMs倾向于立即选择回报最高的行动，而忽略了长远利益或潜在的风险。这种短视的行为，导致LLMs常常陷入局部最优解，而无法找到全局最优解。

例如，在一个寻路游戏中，LLM智能体可能会贪婪地选择距离目标最近的路径，而忽略了这条路径上可能存在的障碍或陷阱。最终，智能体可能会被困在陷阱中，无法到达目标。

贪婪性的根源在于LLMs的训练方式。LLMs通常通过最大化训练数据上的似然函数来进行训练，这使得它们倾向于选择在训练数据中出现频率最高的行动。然而，在复杂的决策环境中，最优行动往往不是出现频率最高的行动，而是需要综合考虑各种因素，进行长期规划才能找到的行动。

频率偏差是指LLMs更容易选择在训练数据中出现频率较高的行动，即使这些行动并非最优选择。这种偏差使得LLMs在面对新的环境或任务时，难以摆脱对训练数据的依赖，从而做出次优决策。

例如，在一个模拟交易市场中，如果训练数据中买入操作的频率高于卖出操作，那么LLM智能体可能会倾向于频繁买入，即使市场行情并不适合买入。这种频率偏差，导致智能体无法根据市场变化灵活调整策略，从而遭受损失。

频率偏差的产生，与LLMs的训练数据分布密切相关。如果训练数据存在偏差，那么LLMs也会继承这种偏差，并在决策中表现出来。因此，为了减少频率偏差，需要尽可能使用高质量、无偏差的训练数据。

知-行差距是指LLMs拥有解决问题的知识，但无法有效地将其转化为实际行动。这种差距使得LLMs在面对复杂任务时，常常表现得“纸上谈兵”，无法将理论知识应用于实践。

例如，在一个机器人控制任务中，LLM智能体可能知道如何抓取一个物体，但由于缺乏运动控制能力，无法准确地执行抓取动作。这种知-行差距，导致智能体无法完成任务。

知-行差距的根源在于LLMs缺乏与环境的交互经验。LLMs通常通过静态的文本数据进行训练，缺乏与真实世界的互动。这使得它们难以理解环境的复杂性，并将其知识应用于实际行动。

为了解决LLMs在决策中存在的贪婪性、频率偏差和知-行差距等问题，DeepMind的研究人员提出了一种基于强化学习（RL）的微调方法。该方法通过强化学习对自动生成的CoT推理过程进行微调，以缓解这些不足。

强化学习是一种通过与环境交互来学习最优策略的方法。在强化学习中，智能体通过执行动作来改变环境状态，并根据环境反馈的奖励来调整其策略。通过不断地学习和调整，智能体最终可以找到最优的行动策略。

DeepMind的研究人员将强化学习应用于LLMs的CoT推理过程，旨在通过训练来改善LLMs的决策能力。具体来说，他们首先使用LLMs生成CoT推理过程，然后使用强化学习算法对这些推理过程进行微调。通过强化学习，LLMs可以学习到更加合理的推理步骤，从而做出更优的决策。

实验结果表明，RL微调能够有效提升LLMs的决策能力，既增强了智能体的探索性行为，又缩小了知-行差距。经过RL微调的LLM智能体，在各种决策任务中都表现出了显著的性能提升。

增强探索性： 强化学习鼓励智能体探索未知的行动空间，从而避免陷入局部最优解。通过强化学习微调，LLMs可以学习到更加多样化的行动策略，从而增强其探索性行为。
弥合知-行差距： 强化学习通过与环境交互来学习最优策略，从而弥合了理论知识与实际行动之间的鸿沟。通过强化学习微调，LLMs可以学习到如何将知识应用于实际行动，从而缩小知-行差距。
适应性强： 强化学习可以根据环境变化动态调整策略，从而适应不同的任务和环境。通过强化学习微调，LLMs可以学习到适应不同环境的策略，从而提高其适应性。

DeepMind的这项研究，为解决LLMs在决策中存在的缺陷提供了一种新的思路。通过强化学习微调，我们可以有效地改善LLMs的决策能力，使其能够更好地应用于各种智能体任务。

然而，这项研究也存在一些局限性。例如，强化学习的训练过程需要大量的计算资源和时间，这限制了其在更大规模LLMs上的应用。此外，如何设计合适的奖励函数，也是强化学习面临的一个挑战。

未来，我们可以进一步研究以下几个方向：

随着人工智能技术的不断发展，我们相信，未来的LLM智能体将能够克服当前的局限性，展现出更加强大的决策能力，为人类带来更多的便利和价值。