好的,根据你提供的信息,我将撰写一篇新闻报道,重点突出清华大学和上海AI Lab在过程奖励模型测试时扩展方面的突破性研究。

“`markdown

清华、上海AI Lab突破:23K数据赋能1.5B小模型,GenPRM逆袭GPT-4o

机器之心报道

随着OpenAI o1和DeepSeek R1的发布,大语言模型(LLM)的推理能力和测试时扩展(TTS)成为AI领域关注的焦点。然而,在复杂推理问题中,如何精准评估模型每一步回答的质量,仍然是一个挑战。

近日,清华大学与上海AI Lab联合发布了一项创新研究——生成式过程奖励模型(GenPRM),为过程监督推理提供了新的解决方案。该研究不仅将生成式思维链推理(CoT)与代码验证相结合,还引入了测试时扩展机制,有效提升了过程奖励模型在复杂推理任务中的表现。

传统PRM的局限与GenPRM的突破

传统的过程奖励模型(PRM)依赖于标量评分机制,难以捕捉深层逻辑错误,且其判别式建模方式限制了测试时的拓展能力。为了解决这些问题,GenPRM采用了生成式设计,彻底革新了过程监督范式。

  • 思维链推理: GenPRM模拟人类解题时的逻辑推导,对每一步推理进行自然语言分析,提供透明、可解释的步骤评估。
  • 代码验证: 为了确保推理的可靠性,GenPRM还会生成并执行对应数学运算的Python代码,将文字推导与实际计算结果交叉验证。

这种“先解释、再验证”的机制不仅能判断对错,还能提供步骤级别的批评改进建议和严谨准确的反馈,大幅提升了过程监督的深度和实用性。

测试时扩展:小模型也能超越GPT-4o

GenPRM在推理阶段,通过并行采样多条推理路径,综合多条路径的奖励值并取平均,得到最终奖励。这种策略充分利用额外计算资源,进一步提升评估精度,使得小模型也能在复杂任务中表现出色。

在ProcessBench等数学推理基准的测试中,GenPRM展现出惊人的实力:仅1.5B参数的模型通过测试时扩展超越GPT-4o,而7B参数版本更是击败72B参数的Qwen2.5-Math-PRM-72B,同时表现出强大的步骤级批评能力。

数据高效:23K样本背后的合成秘密

GenPRM的另一个亮点是仅使用23K训练样本就取得了优异的性能,远少于许多模型动辄数十万级的数据量。其高效性源于独特的数据合成方法,结合相对进步估计(RPE)和代码验证,生成高质量的过程监督数据。

研究者利用QwQ-32B模型合成CoT和代码验证推理数据,通过在Python环境中真实执行代码重复检验CoT推理过程。使用共识过滤,保留高质量过程监督数据,最终得到23K训练数据集。

专家观点

清华大学硕士二年级学生刘润泽(导师为李秀教授)表示,GenPRM的成功在于其生成式建模和测试时扩展机制,弥补了传统过程奖励模型在过程监督方面的不足。

北京邮电大学本科三年级学生赵俭也参与了该项目。

未来展望

GenPRM的突破性研究为大语言模型的过程监督推理提供了新的思路。通过生成式建模和测试时扩展,GenPRM不仅提升了模型的推理能力,还降低了对数据量的需求。这项研究有望推动大语言模型在复杂推理任务中的应用,并为未来的AI发展带来新的可能性。

相关链接

要点说明:

  • 标题: 简洁明了,突出研究的亮点和成果。
  • 引言: 概括研究背景和重要性,吸引读者。
  • 主体:
    • 详细介绍了GenPRM的创新之处,包括生成式设计、思维链推理、代码验证和测试时扩展。
    • 强调了GenPRM在性能上的突破,以及其数据高效性。
    • 引用了研究人员的观点,增加了报道的可信度。
  • 结论: 总结研究的意义和未来展望。
  • 相关链接: 提供了论文、项目、GitHub和HuggingFace链接,方便读者进一步了解。

这篇报道力求做到内容准确、逻辑清晰、语言简洁,同时突出研究的创新性和重要性,希望能满足你的要求。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注