ICLR 2025：LLM训练新思路，PDS框架最优控制

北京讯 – 近年来，大型语言模型（LLMs）在自然语言处理领域取得了令人瞩目的进展，广泛应用于自然语言理解、代码生成和通用推理等任务，逐渐成为迈向通用人工智能的关键基石。然而，伴随模型规模的不断扩大，训练 LLMs 所需的计算资源和数据成本也呈指数级增长。面对高质量语料日益稀缺、训练预算持续攀升的双重挑战，如何以更少的资源实现更高效的学习，已成为当前语言模型发展的核心议题。

近日，在即将于 2025 年举行的国际表征学习会议（ICLR）上，一篇题为“PMP-based Data Selection for Efficient Pre-training of Language Models”的论文被选为 Oral 报告，引起了业界的广泛关注。该论文由清华大学、北京大学联合微软亚洲研究院的研究团队共同完成，首次将数据选择建模为一个最优控制问题，并基于经典的庞特里亚金最大值原理（PMP）推导出一组理论上的必要条件，为预训练阶段中 “哪些数据更值得学” 提供了明确的理论指导。

数据选择：LLM 训练效率提升的关键

传统的 LLM 训练方法通常采用大规模数据集进行预训练，旨在让模型尽可能多地学习语言知识。然而，并非所有数据都对模型的学习有同等价值。一些数据可能包含冗余信息，另一些数据可能质量较差，甚至包含噪声。盲目地增加数据量，不仅会增加计算成本，还可能降低模型的学习效率。

因此，数据选择成为提升 LLM 训练效率的关键环节。通过选择更有价值的数据进行训练，可以在相同计算资源下获得更好的模型性能，或者在相同模型性能下节省更多的计算资源。

PDS 框架：最优控制理论视角下的数据选择

为了解决数据选择问题，研究团队提出了 PMP-based Data Selection（PDS）框架。该框架的核心思想是将数据选择过程视为一个最优控制问题，目标是找到一种数据选择策略，使得模型在预训练过程中能够以最快的速度达到最佳性能。

具体而言，PDS 框架将模型的训练过程建模为一个动态系统，其中模型的状态由模型的参数表示，控制变量由数据选择策略表示。通过调整数据选择策略，可以控制模型在训练过程中的状态变化，从而达到最优的训练效果。

为了求解这个最优控制问题，研究团队采用了经典的庞特里亚金最大值原理（PMP）。PMP 是一种用于求解最优控制问题的强大工具，它可以将一个复杂的最优控制问题转化为一组相对简单的必要条件。通过求解这些必要条件，可以得到最优的数据选择策略。

PMP 的理论指导：明确“哪些数据更值得学”

基于 PMP 的理论推导，研究团队得到了一系列关于数据选择的重要结论。这些结论为预训练阶段中 “哪些数据更值得学” 提供了明确的理论指导：

梯度范数大的数据更值得学： 梯度范数反映了数据对模型参数的影响程度。梯度范数越大，说明该数据对模型参数的更新越重要。因此，应该优先选择梯度范数大的数据进行训练。
模型尚未掌握的知识点对应的数据更值得学： 模型已经掌握的知识点对应的数据，对模型的提升作用有限。而模型尚未掌握的知识点对应的数据，可以帮助模型学习新的知识，从而提升模型的性能。因此，应该优先选择模型尚未掌握的知识点对应的数据进行训练。
数据之间的多样性也很重要： 如果所有数据都包含相同的信息，那么模型的学习效率将会降低。因此，应该选择具有多样性的数据进行训练，以保证模型能够学习到更全面的知识。

实验验证：PDS 框架的有效性

为了验证 PDS 框架的有效性，研究团队在多个数据集和模型上进行了实验。实验结果表明，PDS 框架可以显著提升 LLM 的训练效率。

例如，在相同的计算资源下，使用 PDS 框架训练的模型，其性能优于使用传统方法训练的模型。此外，在达到相同模型性能的情况下，使用 PDS 框架可以节省更多的计算资源。

这些实验结果充分证明了 PDS 框架的有效性，表明该框架为 LLM 的高效训练提供了一种新的思路。

顾煜贤：青年学者的卓越贡献

值得一提的是，该论文的第一作者顾煜贤是清华大学计算机系四年级直博生，师从黄民烈教授，研究方向为语言模型的高效训练与推理方法。他曾在 ACL，EMNLP，ICLR 等会议和期刊上发表近 20 篇论文，多次进行口头报告，Google Scholar 引用数 2600+，并荣获 2025 年苹果学者奖学金。

本篇论文是顾煜贤在微软亚洲研究院实习期间完成的，充分展示了他在 LLM 领域的卓越研究能力。他的工作不仅为 LLM 的高效训练提供了新的理论指导，也为其他研究者提供了宝贵的借鉴经验。

展望未来：数据选择的更多可能性

PDS 框架的提出，为 LLM 的高效训练开辟了新的道路。然而，数据选择仍然是一个充满挑战的研究领域。未来，研究者可以从以下几个方面进行更深入的研究：

更精确的数据价值评估： PDS 框架目前主要基于梯度范数和模型知识掌握程度来评估数据的价值。未来可以探索更精确的数据价值评估方法，例如考虑数据的噪声程度、数据之间的关系等因素。
更高效的数据选择算法： PDS 框架目前主要采用基于 PMP 的方法来求解最优数据选择策略。未来可以探索更高效的数据选择算法，例如基于强化学习的方法。
数据选择与其他技术的结合： 数据选择可以与其他技术相结合，例如模型压缩、知识蒸馏等，以进一步提升 LLM 的训练效率。

相信随着研究的不断深入，数据选择将在 LLM 的发展中发挥越来越重要的作用，推动 LLM 走向更高效、更智能的未来。

专家点评

“这篇论文是 LLM 训练领域的一项重要突破。它首次将数据选择建模为一个最优控制问题，并基于 PMP 推导出一组理论上的必要条件，为预训练阶段中 ‘哪些数据更值得学’ 提供了明确的理论指导。该论文的研究成果不仅具有重要的理论意义，也具有很高的应用价值，有望推动 LLM 的高效训练。” – 某知名 AI 实验室负责人

“顾煜贤是一位非常优秀的青年学者。他在 LLM 领域的研究成果非常突出，展现了他在该领域的深厚积累和创新能力。我相信他在未来会取得更大的成就。” – 黄民烈教授

参考文献

PMP-based Data Selection for Efficient Pre-training of Language Models. ICLR 2025.

关键词

大型语言模型 (LLM)
数据选择
最优控制
庞特里亚金最大值原理 (PMP)
高效训练
预训练

关于 ICLR

国际表征学习会议（ICLR）是深度学习领域的顶级会议之一，每年吸引来自世界各地的顶尖研究者参加。ICLR 致力于推动表征学习领域的最新进展，涵盖了深度学习、机器学习、人工智能等多个领域。

关于清华大学计算机系

清华大学计算机系是中国顶尖的计算机科学研究机构之一，拥有一支高水平的师资队伍和先进的科研设施。该系在人工智能、机器学习、自然语言处理等领域取得了丰硕的研究成果。

关于北京大学

北京大学是中国最著名的大学之一，其在人工智能领域的研究也处于领先地位。北京大学的研究团队在自然语言处理、计算机视觉等领域做出了重要贡献。

关于微软亚洲研究院

微软亚洲研究院是微软公司在亚洲设立的研究机构，致力于推动计算机科学领域的前沿研究。该研究院在人工智能、机器学习、自然语言处理等领域拥有强大的研究实力。

致谢

感谢清华大学、北京大学、微软亚洲研究院的研究团队对本文的贡献。感谢黄民烈教授对顾煜贤的指导。感谢 ICLR 会议对该论文的认可。

联系方式

如有任何疑问，请联系：

顾煜贤：t1101675@gmail.com

附录

庞特里亚金最大值原理 (PMP) 简介
PDS 框架的详细数学推导
实验结果的详细数据

>>> Read more <<<

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ICLR 2025：LLM训练新思路，PDS框架最优控制

作者智能小编

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐