AI纠错新突破：大模型边推理边纠错，系统方法引关注

9 月 8, 2024 #机器之心, #模型

导语：即便是最强大的语言模型（LLM）仍会偶尔出现推理错误。本文报道了来自Meta FAIR、CMU和MBZUAI的研究团队在arXiv上发表的最新论文《语言模型物理学 Part 2.2：如何从错误中学习》，他们通过可控实验探索了让模型“边推理边纠错”的可能性，并深入探讨了相关技术细节。

正文：

随着人工智能技术的不断发展，语言模型（LLM）在自然语言处理领域取得了显著成果。然而，即便是最强大的LLM，仍会偶尔出现推理错误。为了解决这一问题，除了通过提示词让模型进行不太可靠的多轮自我纠错外，是否有更系统的方法呢？

来自Meta FAIR、CMU和MBZUAI的叶添、徐子诚、李远志、朱泽园团队在最新的arXiv论文中，通过可控实验，探索了让模型“边推理边纠错”的可能性。他们在预训练中加入大量“错误的推理”和“错误的纠正”，展示了这类数据可以提高语言模型的推理准确性（无需提示词，无需多轮对话）。

以下是文章中探讨的一些关键细节：

与beam search的区别：beam search是一种搜索算法，用于从多个可能的结果中选择最佳结果。本文提出的方法与beam search的区别在于，它不依赖于搜索算法，而是通过预训练数据中的错误和纠正来提高模型推理准确性。
准备错误和纠正数据：作者通过将解题步骤中靠后的步骤挪到前面作为错误，然后用原本的步骤作为纠正，来生成错误和纠正数据。
是否需要对错误进行掩码：作者发现，在合理范围内，预训练数据中的错误越多越好，因此不需要对错误进行掩码。
所需的错误数量：作者在实验中发现，预训练数据中包含50%的步骤包含错误时，模型在测试阶段并不会刻意犯错，且推理正确率有所提高。
错误和纠正数据是否可用于微调：作者尝试了多种LoRA参数，发现最多只能将推理正确率从78%提高到83%，说明“纠正错误”是一个高级能力，需要大量参数变化才能实现。

结论：

本文提出的方法通过在预训练数据中加入错误和纠正，提高了LLM的推理准确性。尽管这种方法在实际应用中仍存在一些挑战，但为未来LLM的发展提供了新的思路。让模型“边推理边纠错”，而不是通过额外的提示词被动纠错，或许是一个新的发展方向。

作者团队表示，未来将继续研究如何在实际应用中制备优质的“错误和纠正”数据，并探索LLM在更多领域的应用潜力。