北京—— 在人工智能领域,逻辑推理能力一直是大型语言模型(LLM)的一大挑战。近日,中国科技公司昆仑万维推出了Skywork-OR1(Open Reasoner 1)系列开源高性能推理模型,旨在突破这一瓶颈,为AI在数学、编程等复杂任务中的应用提供更强大的支持。
Skywork-OR1系列包含三款模型:Skywork-OR1-Math-7B专注于数学推理,Skywork-OR1-7B-Preview是兼顾数学和代码能力的通用模型,而Skywork-OR1-32B-Preview则是旗舰版本,专为处理复杂度更高的任务而设计。
性能卓越,多项基准测试领先
Skywork-OR1系列在多个基准测试中表现出色。其中,Skywork-OR1-Math-7B在AIME24和AIME25数学数据集上分别取得了69.8%和52.3%的高分,远超同等规模的主流模型。在竞赛编程任务中,Skywork-OR1-32B-Preview在LiveCodeBench数据集上的表现甚至接近拥有6710亿参数的DeepSeek-R1,展现了卓越的性价比。
技术解析:高质量数据集与创新训练策略
Skywork-OR1的卓越性能离不开其背后的技术支撑。据了解,该系列模型基于高质量的数学数据集NuminaMath-1.5(约89.6万题)进行训练,并从中筛选出AIME、Olympiads等高难度子集,总计约11万道数学题目。在代码方面,则以LeetCode和TACO数据为主,经过严格筛选和去重,保留单元测试完整、验证通过的问题,最终获得1.37万条高质量代码问题。
在训练策略上,Skywork-OR1基于GRPO(Generalized Policy Optimization)进行模型训练,采用多阶段训练逐步增加上下文窗口长度,提升模型的长链思维能力。此外,在训练前和训练过程中分别进行离线和在线过滤,动态剔除无效样本,确保训练数据的有效性和挑战性。
昆仑万维还在强化学习采样时采用了高采样温度(τ=1.0),并基于自适应熵控制机制,增强模型的探索能力,避免过早陷入局部最优。在损失函数优化方面,移除了KL损失项,让模型充分地探索和优化推理能力。
应用前景广阔,赋能多领域
Skywork-OR1系列模型的开源,无疑将为AI研究和应用带来新的机遇。其应用场景包括:
- 数学教育: 辅助学生解题,提供思路与步骤,助力教师备课。
- 科研辅助: 帮助研究人员探索复杂模型,验证猜想,推导公式。
- 编程开发: 生成代码框架,优化代码,辅助调试,提升开发效率。
- 数据分析: 支持金融、商业等领域决策,预测趋势,评估风险。
- AI研究: 作为研究平台,推动推理模型架构和算法的改进。
开源地址与项目信息
- 项目官网:https://capricious-hydrogen-41c.notion.site/Skywork-Open-Reasoner
- GitHub仓库:https://github.com/SkyworkAI/Skywork-OR1
- HuggingFace模型库:https://huggingface.co/collections/Skywork/skywork-or1
结语
Skywork-OR1的发布,标志着国产AI模型在逻辑推理能力上取得了重要突破。其开源策略将加速AI技术在各行业的应用,并推动AI领域的创新发展。未来,我们期待Skywork-OR1能够在更多领域发挥作用,为人类社会带来更大的价值。
Views: 0
