上海—— 在人工智能领域,人们普遍认为“更大即更强”,尤其是在被视为AI终极挑战的数学推理方面。然而,上海交通大学的一项最新研究却打破了这一固有认知,他们发现,仅需817条精心设计的样本,就能让模型在数学竞赛级别的题目上超越许多最先进的模型。这一突破性的发现不仅挑战了传统观念,更揭示了一个可能被我们忽视的事实:大模型的数学能力或许一直都在,关键在于如何唤醒它。

这项名为“LIMO: Less is More for Reasoning”的研究,由上海交通大学的研究团队完成,相关论文已发布在arXiv预印本平台上,代码、数据集和模型也已开源。

从规模竞赛到范式创新

近年来,OpenAI、DeepSeek等公司纷纷推出更强大的模型,引发了AI推理能力竞赛。各大机构普遍采用的策略是,使用更庞大的数据集,结合更复杂的强化学习(RL)算法,试图“教会”模型如何推理。这种方法就像是不断训练一位天赋异禀的学生,直到他能解出各种复杂的数学题。

然而,上海交通大学的研究团队却提出了一个发人深省的问题:如果这位“学生”在预训练阶段已经掌握了所有必要的知识,我们真的需要庞大数据集来重新训练他吗?还是只需精妙的引导,就能激活他的潜在能力?

LIMO的研究给出了令人震撼的答案:仅用817条精心设计的训练样本,借助简单的监督微调,LIMO就全面超越了使用十万量级数据训练的主流模型,包括o1-preview和QwQ等顶级选手。

在竞赛级别的美国数学竞赛邀请赛(AIME)测试中,LIMO的准确率从6.5%飙升至57.1%。更令人惊讶的是LIMO的泛化能力:在10个不同的基准测试上,它实现了40.5%的绝对性能提升,超越了使用100倍数据训练的模型。

“少即是多”的背后逻辑

自2023年LIMA(Less Is More for Alignment)提出以来,业界逐渐意识到,在对齐(alignment)任务上,“少即是多”并非一句空话。LIMA仅用1000条高质量数据,就让大语言模型学会了如何生成符合人类偏好的对话。

LIMO的研究则进一步证明了,这一原则同样适用于数学推理领域。研究人员认为,实现这一突破有两个核心前提:

  1. 知识基础革命: 近年来,大模型在预训练阶段已纳入海量数学知识。Llama 3仅在数学推理上的训练数据就高达3.7万亿token,这意味着现代LLM早已“知道”大量数学知识,关键是如何“唤醒”它们。
  2. 推理计算革命: 最新研究表明,推理链(chain-of-thought, CoT)的长度,与模型的推理能力密切相关。与其在训练阶段硬灌大规模监督数据,不如在推理阶段提供更优质的问题和示范,让模型自主展开深入思考。

基于这两点,LIMO团队提出了一个全新的理论视角:大模型的推理能力本质上是“潜伏”的而非“缺失”的。传统的RL Scaling方法在尝试“训练”模型获得新能力,而LIMO则专注于如何有效地“激活”模型本就具备的能力。

对AI发展方向的启示

LIMO的研究成果无疑为AI的发展方向带来了新的思考。在追求更高性能的道路上,我们是否应该重新审视“数据越多越好”的传统观念?是否应该更加注重数据的质量和利用方式,以及如何更好地激发模型自身的潜力?

这一研究也为未来的AI研究提供了新的方向。或许,未来的研究重点将不再是无休止地扩大数据集规模,而是如何设计更有效的训练方法,如何更好地利用模型已有的知识,以及如何让AI在推理过程中更加自主和深入地思考。

LIMO的研究团队表示,他们将继续深入探索“少即是多”的原则在AI领域的应用,并希望能够为AI的发展带来更多的创新和突破。他们的研究成果,无疑将引发业界对AI发展范式的深刻反思,并可能引领AI研究进入一个新的时代。


>>> Read more <<<

Views: 2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注