导语:即便是最强大的语言模型(LLM)仍会偶尔出现推理错误。本文报道了来自Meta FAIR、CMU和MBZUAI的研究团队在arXiv上发表的最新论文《语言模型物理学 Part 2.2:如何从错误中学习》,他们通过可控实验探索了让模型“边推理边纠错”的可能性,并深入探讨了相关技术细节。
正文:
随着人工智能技术的不断发展,语言模型(LLM)在自然语言处理领域取得了显著成果。然而,即便是最强大的LLM,仍会偶尔出现推理错误。为了解决这一问题,除了通过提示词让模型进行不太可靠的多轮自我纠错外,是否有更系统的方法呢?
来自Meta FAIR、CMU和MBZUAI的叶添、徐子诚、李远志、朱泽园团队在最新的arXiv论文中,通过可控实验,探索了让模型“边推理边纠错”的可能性。他们在预训练中加入大量“错误的推理”和“错误的纠正”,展示了这类数据可以提高语言模型的推理准确性(无需提示词,无需多轮对话)。
以下是文章中探讨的一些关键细节:
-
与beam search的区别:beam search是一种搜索算法,用于从多个可能的结果中选择最佳结果。本文提出的方法与beam search的区别在于,它不依赖于搜索算法,而是通过预训练数据中的错误和纠正来提高模型推理准确性。
-
准备错误和纠正数据:作者通过将解题步骤中靠后的步骤挪到前面作为错误,然后用原本的步骤作为纠正,来生成错误和纠正数据。
-
是否需要对错误进行掩码:作者发现,在合理范围内,预训练数据中的错误越多越好,因此不需要对错误进行掩码。
-
所需的错误数量:作者在实验中发现,预训练数据中包含50%的步骤包含错误时,模型在测试阶段并不会刻意犯错,且推理正确率有所提高。
-
错误和纠正数据是否可用于微调:作者尝试了多种LoRA参数,发现最多只能将推理正确率从78%提高到83%,说明“纠正错误”是一个高级能力,需要大量参数变化才能实现。
结论:
本文提出的方法通过在预训练数据中加入错误和纠正,提高了LLM的推理准确性。尽管这种方法在实际应用中仍存在一些挑战,但为未来LLM的发展提供了新的思路。让模型“边推理边纠错”,而不是通过额外的提示词被动纠错,或许是一个新的发展方向。
作者团队表示,未来将继续研究如何在实际应用中制备优质的“错误和纠正”数据,并探索LLM在更多领域的应用潜力。
Views: 1