上交大突破！817样本撬动AI推理7倍提升

上海—— 在人工智能领域，人们普遍认为“更大即更强”，尤其是在被视为AI终极挑战的数学推理方面。然而，上海交通大学的一项最新研究却打破了这一固有认知，他们发现，仅需817条精心设计的样本，就能让模型在数学竞赛级别的题目上超越许多最先进的模型。这一突破性的发现不仅挑战了传统观念，更揭示了一个可能被我们忽视的事实：大模型的数学能力或许一直都在，关键在于如何唤醒它。

这项名为“LIMO: Less is More for Reasoning”的研究，由上海交通大学的研究团队完成，相关论文已发布在arXiv预印本平台上，代码、数据集和模型也已开源。

论文地址： https://arxiv.org/pdf/2502.03387
代码地址： https://github.com/GAIR-NLP/LIMO
数据集地址： https://huggingface.co/datasets/GAIR/LIMO
模型地址： https://huggingface.co/GAIR/LIMO

从规模竞赛到范式创新

近年来，OpenAI、DeepSeek等公司纷纷推出更强大的模型，引发了AI推理能力竞赛。各大机构普遍采用的策略是，使用更庞大的数据集，结合更复杂的强化学习（RL）算法，试图“教会”模型如何推理。这种方法就像是不断训练一位天赋异禀的学生，直到他能解出各种复杂的数学题。

然而，上海交通大学的研究团队却提出了一个发人深省的问题：如果这位“学生”在预训练阶段已经掌握了所有必要的知识，我们真的需要庞大数据集来重新训练他吗？还是只需精妙的引导，就能激活他的潜在能力？

LIMO的研究给出了令人震撼的答案：仅用817条精心设计的训练样本，借助简单的监督微调，LIMO就全面超越了使用十万量级数据训练的主流模型，包括o1-preview和QwQ等顶级选手。

在竞赛级别的美国数学竞赛邀请赛（AIME）测试中，LIMO的准确率从6.5%飙升至57.1%。更令人惊讶的是LIMO的泛化能力：在10个不同的基准测试上，它实现了40.5%的绝对性能提升，超越了使用100倍数据训练的模型。

“少即是多”的背后逻辑

自2023年LIMA（Less Is More for Alignment）提出以来，业界逐渐意识到，在对齐（alignment）任务上，“少即是多”并非一句空话。LIMA仅用1000条高质量数据，就让大语言模型学会了如何生成符合人类偏好的对话。

LIMO的研究则进一步证明了，这一原则同样适用于数学推理领域。研究人员认为，实现这一突破有两个核心前提：

知识基础革命： 近年来，大模型在预训练阶段已纳入海量数学知识。Llama 3仅在数学推理上的训练数据就高达3.7万亿token，这意味着现代LLM早已“知道”大量数学知识，关键是如何“唤醒”它们。
推理计算革命： 最新研究表明，推理链（chain-of-thought, CoT）的长度，与模型的推理能力密切相关。与其在训练阶段硬灌大规模监督数据，不如在推理阶段提供更优质的问题和示范，让模型自主展开深入思考。

基于这两点，LIMO团队提出了一个全新的理论视角：大模型的推理能力本质上是“潜伏”的而非“缺失”的。传统的RL Scaling方法在尝试“训练”模型获得新能力，而LIMO则专注于如何有效地“激活”模型本就具备的能力。

对AI发展方向的启示

LIMO的研究成果无疑为AI的发展方向带来了新的思考。在追求更高性能的道路上，我们是否应该重新审视“数据越多越好”的传统观念？是否应该更加注重数据的质量和利用方式，以及如何更好地激发模型自身的潜力？

这一研究也为未来的AI研究提供了新的方向。或许，未来的研究重点将不再是无休止地扩大数据集规模，而是如何设计更有效的训练方法，如何更好地利用模型已有的知识，以及如何让AI在推理过程中更加自主和深入地思考。

LIMO的研究团队表示，他们将继续深入探索“少即是多”的原则在AI领域的应用，并希望能够为AI的发展带来更多的创新和突破。他们的研究成果，无疑将引发业界对AI发展范式的深刻反思，并可能引领AI研究进入一个新的时代。

>>> Read more <<<

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

上交大突破！817样本撬动AI推理7倍提升

作者智能小编

从规模竞赛到范式创新

“少即是多”的背后逻辑

对AI发展方向的启示

相关文章

SpaceX崛起史：一切，为了去火星-实地探访星舰基地与总部

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

发表回复取消回复

为您推荐

SpaceX崛起史：一切，为了去火星-实地探访星舰基地与总部

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

作者智能小编

从规模竞赛到范式创新

“少即是多”的背后逻辑

对AI发展方向的启示

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复