机器之心 报道
人工智能领域正面临着一个关键的瓶颈:如何更有效地利用现有数据和计算资源来训练大型语言模型(LLM),以应对日益复杂的任务。随着高质量训练数据逐渐耗尽,以及预训练扩展定律趋于稳定,优化测试时计算成为了提升模型部署效率和节省计算资源的关键一环。英伟达CEO黄仁勋甚至在CES 2025的演讲中将测试时Scaling形容为大模型发展的三条曲线之一,足见其重要性。
目前,主流的LLM改进策略主要依赖于使用更多高质量数据进行监督微调(SFT)或强化学习(RL)。然而,这种“数据越多越好”的策略似乎难以为继。有报告预测,到2028年,用于训练的高质量文本数据可能会耗尽,尤其是在解决推理问题等更困难的任务上,可能需要将当前数据扩展约100倍才能看到显著改进。
面对这一挑战,卡内基梅隆大学的研究人员提出了一种新的思路:通过改变LLM的训练目标,重用现有数据,并利用更多的测试时计算来训练模型,从而在数据效率方面取得突破。
跳出“模仿学习”的陷阱:学习“如何回答”而非“什么答案”
传统的LLM训练范式,无论是监督微调还是强化学习,本质上都是在训练模型模仿学习,即为给定的输入产生特定的输出。这种方法在解决分布内的一组类似查询时有效,但难以泛化到分布外的查询。
研究人员认为,更理想的模型应该能够通过尝试多种方法并在不同程度上寻求信息,或者在无法完全解决问题时表达不确定性,从而推广到新的、未见过的问题。
为了实现这一目标,他们提出了一种新的训练思路:允许模型在测试时使用计算资源来寻找“元(meta)”策略或算法,这些策略或算法可以帮助它们理解“如何”得出一个好的答案。换句话说,模型不再是简单地输出答案,而是学习如何系统性地运行程序,从而在测试时外推和泛化到不同复杂度的输入查询。
元强化学习:将“如何做”形式化为一个目标
具体来说,对于每个问题x,研究人员假设存在一个奖励函数r(x,⋅),可以针对任何输出token流y进行查询。例如,对于数学推理问题x,其token输出流为y,奖励r(x,y)可以是检查某个token子序列是否包含正确答案的函数。
目标是在事先未知的测试问题分布Ptest上获得高奖励。对于未知的测试问题分布Ptest和有限的测试时计算预算C,可以从训练问题数据集Dtrain中学习一个算法A∈AC(Dtrain),这个算法属于推理计算受限的测试时算法类AC。这个类中的每个算法都以问题x∼P_test作为输入,并输出一个token流。
关键在于,研究人员希望使用更多的token来学习一个通用但可泛化的程序,而不是去猜测问题x的解决方案。他们的学习目标是学习由自回归大语言模型参数化的A_θ(x)。
将问题转化为元强化学习问题
那么,如何解决由语言模型参数化的、在计算受限算法类Ac上的优化问题呢?研究人员将这一问题形式化为一个元强化学习问题,并试图通过优化算法Aθ(x)来解决它。
这种方法的核心在于,它允许模型在测试时根据具体问题和计算资源,动态地调整推理策略,从而更有效地利用计算资源,并提高解决复杂问题的能力。
未来展望:数据效率与智能涌现
这种基于元强化学习的测试时计算优化方法,有望打破当前LLM发展的数据瓶颈,并为模型的智能涌现提供新的可能性。通过学习“如何思考”,而非简单地记忆答案,LLM有望在更广泛的任务中展现出更强大的泛化能力和适应性。
当然,这种方法仍然处于探索阶段,其具体实现和效果还需要进一步的研究和验证。但它无疑为LLM的未来发展提供了一个新的方向,也为我们重新审视LLM的训练范式带来了启发。
参考文献:
Views: 0
