ACL 2025：大模型推理提速，Token预算成关键

随着人工智能技术的飞速发展，大型语言模型（LLM）已成为学术界和工业界关注的焦点。LLM 在自然语言处理领域展现出强大的能力，尤其是在文本生成、机器翻译、问答系统等方面取得了显著进展。为了进一步提升 LLM 在复杂任务中的表现，研究人员提出了诸如 Chain-of-Thought (CoT) 等推理增强方法。CoT 通过引导模型逐步思考，模拟人类的推理过程，从而显著提高了模型在数学题解、逻辑问答等任务中的准确率。

然而，CoT 等推理增强方法在提升模型性能的同时，也带来了新的挑战。模型生成的中间推理过程往往冗长，产生了大量的冗余 Token，这不仅增加了推理阶段的计算成本和资源消耗，也对 LLM 的实际部署提出了严峻的考验。在 LLM 日益走向实际应用的背景下，如何在保证推理能力的同时有效控制成本，已成为制约其大规模应用的关键瓶颈。

近日，来自南京大学、罗格斯大学和马萨诸塞大学阿默斯特分校的研究团队针对这一问题，提出了一种基于 Token 预算感知的 LLM 推理新框架——TALE (Token-Aware Length Efficient)。TALE 框架的核心理念是在推理过程中引入“Token 预算”这一约束机制，引导模型在限定的 Token 预算范围内完成有效推理。这种机制不仅可以有效压缩输出长度，降低计算开销，还能在保证推理准确率的前提下，显著提升 LLM 的推理效率。

CoT 推理增强方法：一把双刃剑

Chain-of-Thought (CoT) 作为一种重要的推理增强方法，通过引导 LLM 逐步生成中间推理步骤，模拟人类的思考过程，从而提升模型在复杂任务中的表现。例如，在解决复杂的数学问题时，CoT 方法可以引导模型先分解问题，然后逐步推导出答案，而不是直接给出最终结果。这种逐步推理的方式不仅提高了模型解决问题的准确率，也增强了模型的可解释性。

然而，CoT 方法也存在一些固有的缺陷。首先，CoT 方法生成的中间推理过程往往冗长，包含了大量的冗余 Token。这些冗余 Token 不仅增加了计算成本，也降低了推理效率。其次，CoT 方法的性能对 prompt 的设计非常敏感。不同的 prompt 可能会导致模型生成不同的推理路径，从而影响最终的推理结果。因此，如何设计有效的 prompt，引导模型生成高质量的推理过程，是一个具有挑战性的问题。

TALE 框架：Token 预算感知的推理新范式

为了解决 CoT 方法存在的上述问题，南京大学、罗格斯大学和马萨诸塞大学阿默斯特分校的研究团队提出了 TALE 框架。TALE 框架的核心思想是在推理过程中引入“Token 预算”这一约束机制。具体来说，TALE 框架会根据任务的复杂度和模型的性能，预先设定一个 Token 预算。在推理过程中，模型需要根据 Token 预算，动态调整生成 Token 的策略，从而在保证推理准确率的前提下，尽可能地压缩输出长度，降低计算开销。

TALE 框架主要包含以下几个关键组件：

Token 预算控制器 (Token Budget Controller): Token 预算控制器负责根据任务的复杂度和模型的性能，动态调整 Token 预算。例如，对于简单的任务，Token 预算可以设置得较低；对于复杂的任务，Token 预算可以设置得较高。Token 预算控制器还可以根据模型的推理过程，动态调整 Token 预算。例如，如果模型在推理过程中遇到了困难，Token 预算控制器可以适当增加 Token 预算，以帮助模型克服困难。
Token 感知生成器 (Token-Aware Generator): Token 感知生成器负责根据 Token 预算，生成高质量的推理过程。Token 感知生成器会根据 Token 预算，动态调整生成 Token 的概率分布，从而在保证推理准确率的前提下，尽可能地压缩输出长度。例如，如果 Token 预算较低，Token 感知生成器会倾向于生成更简洁的推理步骤；如果 Token 预算较高，Token 感知生成器会倾向于生成更详细的推理步骤。
推理验证器 (Inference Verifier): 推理验证器负责验证模型生成的推理过程是否正确。推理验证器会根据任务的特点，设计不同的验证策略。例如，对于数学题解任务，推理验证器可以验证模型生成的每个推理步骤是否符合数学规则；对于逻辑问答任务，推理验证器可以验证模型生成的推理过程是否符合逻辑。如果推理验证器发现模型生成的推理过程存在错误，它会反馈给 Token 预算控制器和 Token 感知生成器，以便它们进行调整。

TALE 框架的优势与创新

TALE 框架相比于传统的 CoT 方法，具有以下几个显著的优势：

更高的推理效率: TALE 框架通过引入 Token 预算机制，有效压缩了输出长度，降低了计算开销，从而显著提高了推理效率。
更强的鲁棒性: TALE 框架的 Token 预算控制器可以根据任务的复杂度和模型的性能，动态调整 Token 预算，从而使模型能够适应不同的任务和环境。
更好的可控性: TALE 框架的 Token 感知生成器可以根据 Token 预算，动态调整生成 Token 的策略，从而使研究人员能够更好地控制模型的推理过程。

TALE 框架的创新之处主要体现在以下几个方面：

首次提出 Token 预算感知的推理范式: TALE 框架首次将 Token 预算作为一种约束机制引入到 LLM 的推理过程中，为 LLM 的高效推理提供了一种新的思路。
设计了 Token 预算控制器、Token 感知生成器和推理验证器等关键组件: TALE 框架设计了 Token 预算控制器、Token 感知生成器和推理验证器等关键组件，为 Token 预算感知的推理范式提供了具体的实现方案。
在多个复杂任务上取得了显著的性能提升: 实验结果表明，TALE 框架在数学题解、逻辑问答等多个复杂任务上取得了显著的性能提升，验证了其有效性。

实验结果与分析

为了验证 TALE 框架的有效性，研究团队在多个复杂任务上进行了实验，包括数学题解 (MathQA)、逻辑问答 (StrategyQA) 和常识推理 (CommonsenseQA)。实验结果表明，TALE 框架在保证推理准确率的前提下，显著压缩了输出长度，降低了计算开销。

具体来说，在 MathQA 任务上，TALE 框架相比于传统的 CoT 方法，可以将输出长度压缩 30% 以上，同时保持甚至略微提升推理准确率。在 StrategyQA 任务上，TALE 框架可以将计算开销降低 25% 以上，同时保持推理准确率不变。在 CommonsenseQA 任务上，TALE 框架可以将推理效率提升 20% 以上，同时保持推理准确率不变。

这些实验结果充分证明了 TALE 框架的有效性。TALE 框架不仅可以提高 LLM 的推理效率，还可以降低 LLM 的计算成本，使其更易于部署和应用。

未来展望

TALE 框架作为一种基于 Token 预算感知的 LLM 高效推理技术，为 LLM 的实际应用提供了新的解决方案。未来，研究人员可以从以下几个方面进一步研究 TALE 框架：

探索更有效的 Token 预算控制策略: 如何根据任务的特点和模型的性能，动态调整 Token 预算，是一个值得深入研究的问题。
设计更智能的 Token 感知生成器: 如何根据 Token 预算，生成更高质量的推理过程，是一个具有挑战性的问题。
研究更可靠的推理验证器: 如何验证模型生成的推理过程是否正确，是一个至关重要的问题。
将 TALE 框架应用于更多的复杂任务: 将 TALE 框架应用于更多的复杂任务，可以进一步验证其有效性和泛化能力。
探索 TALE 框架与其他推理增强方法的结合: 将 TALE 框架与其他推理增强方法相结合，可以进一步提升 LLM 的推理性能。

总而言之，TALE 框架的提出为 LLM 的高效推理开辟了一条新的道路。随着研究的不断深入，TALE 框架有望在未来的 LLM 应用中发挥更大的作用，推动人工智能技术的进一步发展。

研究团队介绍

本研究由南京大学、罗格斯大学和马萨诸塞大学阿默斯特分校的研究团队共同完成。第一作者韩廷旭与共同第一作者王震霆分别是来自南京大学和罗格斯大学的博士生，他们的研究方向聚焦于大模型推理以及安全负责任的生成式人工智能。通讯作者为南京大学房春荣教授。该研究成果已被 ACL 2025 接收，并将于明年在 ACL 年会上进行展示。

结语

在 LLM 技术日新月异的今天，如何提高模型的推理效率，降低计算成本，已成为制约其大规模应用的关键瓶颈。TALE 框架的提出，为解决这一问题提供了一种新的思路。我们期待 TALE 框架能够在未来的 LLM 应用中发挥更大的作用，推动人工智能技术的进一步发展。同时，我们也希望更多的研究人员能够关注 LLM 的高效推理问题，共同探索更加智能、高效、可靠的 LLM 技术。

>>> Read more <<<