清华、上海AI Lab助小模型逆袭GPT-4o：过程奖励模型可扩展测试

好的，根据你提供的信息，我将撰写一篇新闻报道，重点突出清华大学和上海AI Lab在过程奖励模型测试时扩展方面的突破性研究。

“`markdown

清华、上海AI Lab突破：23K数据赋能1.5B小模型，GenPRM逆袭GPT-4o

机器之心报道

随着OpenAI o1和DeepSeek R1的发布，大语言模型(LLM)的推理能力和测试时扩展(TTS)成为AI领域关注的焦点。然而，在复杂推理问题中，如何精准评估模型每一步回答的质量，仍然是一个挑战。

近日，清华大学与上海AI Lab联合发布了一项创新研究——生成式过程奖励模型（GenPRM），为过程监督推理提供了新的解决方案。该研究不仅将生成式思维链推理（CoT）与代码验证相结合，还引入了测试时扩展机制，有效提升了过程奖励模型在复杂推理任务中的表现。

传统PRM的局限与GenPRM的突破

传统的过程奖励模型（PRM）依赖于标量评分机制，难以捕捉深层逻辑错误，且其判别式建模方式限制了测试时的拓展能力。为了解决这些问题，GenPRM采用了生成式设计，彻底革新了过程监督范式。

这种“先解释、再验证”的机制不仅能判断对错，还能提供步骤级别的批评改进建议和严谨准确的反馈，大幅提升了过程监督的深度和实用性。

测试时扩展：小模型也能超越GPT-4o

GenPRM在推理阶段，通过并行采样多条推理路径，综合多条路径的奖励值并取平均，得到最终奖励。这种策略充分利用额外计算资源，进一步提升评估精度，使得小模型也能在复杂任务中表现出色。

在ProcessBench等数学推理基准的测试中，GenPRM展现出惊人的实力：仅1.5B参数的模型通过测试时扩展超越GPT-4o，而7B参数版本更是击败72B参数的Qwen2.5-Math-PRM-72B，同时表现出强大的步骤级批评能力。

数据高效：23K样本背后的合成秘密

GenPRM的另一个亮点是仅使用23K训练样本就取得了优异的性能，远少于许多模型动辄数十万级的数据量。其高效性源于独特的数据合成方法，结合相对进步估计（RPE）和代码验证，生成高质量的过程监督数据。

研究者利用QwQ-32B模型合成CoT和代码验证推理数据，通过在Python环境中真实执行代码重复检验CoT推理过程。使用共识过滤，保留高质量过程监督数据，最终得到23K训练数据集。

专家观点

清华大学硕士二年级学生刘润泽（导师为李秀教授）表示，GenPRM的成功在于其生成式建模和测试时扩展机制，弥补了传统过程奖励模型在过程监督方面的不足。

北京邮电大学本科三年级学生赵俭也参与了该项目。

未来展望

GenPRM的突破性研究为大语言模型的过程监督推理提供了新的思路。通过生成式建模和测试时扩展，GenPRM不仅提升了模型的推理能力，还降低了对数据量的需求。这项研究有望推动大语言模型在复杂推理任务中的应用，并为未来的AI发展带来新的可能性。

相关链接

要点说明：

标题： 简洁明了，突出研究的亮点和成果。
引言： 概括研究背景和重要性，吸引读者。
主体：
- 详细介绍了GenPRM的创新之处，包括生成式设计、思维链推理、代码验证和测试时扩展。
- 强调了GenPRM在性能上的突破，以及其数据高效性。
- 引用了研究人员的观点，增加了报道的可信度。
结论： 总结研究的意义和未来展望。
相关链接： 提供了论文、项目、GitHub和HuggingFace链接，方便读者进一步了解。