Kunlun Wanwei Unleashes Skywork-Reward-V2 Tops Leaderboards

Introduction:
在人工智能（AI）技术飞速发展的今天，如何让机器更好地理解和满足人类偏好，一直是学术界和工业界关注的焦点。近日，昆仑万维集团再次推出其第二代奖励模型——Skywork-Reward-V2系列，在七大主流奖励模型评测榜单中全面夺魁，展现了其在强化学习从人类反馈中（RLHF）的领先地位。此次发布的模型系列包含8个不同规模的奖励模型，参数规模从6亿到80亿不等，进一步推动了AI技术的前沿发展。

Body:

1. Skywork-Reward-V2系列模型发布，全面领先主流评测榜单

2024年9月，昆仑万维首次发布了其Skywork-Reward系列模型及相关数据集。在过去的九个月中，这一系列模型和数据集被广泛应用于开源社区的研究与实践中，在HuggingFace平台上的累计下载量已超过75万次。这些模型不仅助力了多个前沿模型的研发，还在权威评测中取得了优异成绩。

2025年7月4日，昆仑万维继续发布了第二代奖励模型——Skywork-Reward-V2系列，包含8个基于不同基座模型和不同大小的奖励模型，参数规模从6亿到80亿不等。这一系列模型在七大主流奖励模型评测榜单中全面夺魁，展现了其卓越的性能和广泛的适用性。

2. 技术创新：Skywork-SynPref-40M数据集与人机协同流程

奖励模型在强化学习从人类反馈中（RLHF）过程中起着至关重要的作用。为了打造这一新一代奖励模型，昆仑万维构建了一个包含4000万对偏好对比的混合数据集——Skywork-SynPref-40M。这一数据集的构建采用了人机协同的两阶段流程，将人工标注的高质量与模型的规模化处理能力相结合。

在这一流程中，人类提供经过严格验证的高质量标注，大型语言模型（LLMs）则根据人工指导进行自动整理和扩充。这种方法不仅提高了数据筛选和过滤的效率，还确保了数据的质量和多样性。

3. 模型性能：多维度能力表现出色

基于优质的混合偏好数据，Skywork-Reward-V2系列模型展现了广泛的适用性，并在多个能力维度上表现出色。这些维度包括：

对人类偏好的通用对齐：模型能够更好地理解和满足人类偏好。
客观正确性：模型在处理信息时表现出高度的准确性。
安全性：模型在应用过程中能够有效避免安全风险。
风格偏差的抵抗能力：模型能够抵抗各种风格偏差，确保结果的公正性。
best-of-N扩展能力：模型具备优秀的扩展能力，能够处理更大规模的数据和任务。

经实验验证，Skywork-Reward-V2系列模型在七个主流奖励模型评测基准上均获得最佳表现，进一步巩固了昆仑万维在这一领域的领先地位。

4. 应用前景：推动AI技术发展的新引擎

Skywork-Reward-V2系列模型的发布，不仅代表了昆仑万维在AI技术研究上的又一重要里程碑，也为整个行业带来了新的机遇和挑战。未来，随着技术的不断迭代和优化，奖励模型将在更多领域和应用中发挥重要作用，推动AI技术的发展和普及。

Conclusion:

昆仑万维发布的第二代奖励模型——Skywork-Reward-V2系列，凭借其在七大主流奖励模型评测榜单中的全面夺魁，再次展示了其在AI技术研究上的领先地位。通过构建包含4000万对偏好对比的混合数据集——Skywork-SynPref-40M，并采用人机协同的两阶段流程，昆仑万维成功打造了这一新一代奖励模型，展现了广泛的适用性和多维度能力。未来，随着技术的不断发展和应用，Skywork-Reward-V2系列模型必将为AI技术的发展带来新的动力和机遇。

References:

昆仑万维集团. (2025). 昆仑万维再次开源奖励模型！Skywork-Reward-V2在七大

>>> Read more <<<

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Kunlun Wanwei Unleashes Skywork-Reward-V2 Tops Leaderboards

作者智能小编

1. Skywork-Reward-V2系列模型发布，全面领先主流评测榜单

2. 技术创新：Skywork-SynPref-40M数据集与人机协同流程

3. 模型性能：多维度能力表现出色

4. 应用前景：推动AI技术发展的新引擎

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

国之重器，芯之所向：新周期与大国博弈下的中芯国际(688981.SH)价值重估

作者智能小编

1. Skywork-Reward-V2系列模型发布，全面领先主流评测榜单

2. 技术创新：Skywork-SynPref-40M数据集与人机协同流程

3. 模型性能：多维度能力表现出色

4. 应用前景：推动AI技术发展的新引擎

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复