北京 — 2024年4月13日,中国科技公司昆仑万维宣布推出其最新研发的 Skywork-OR1 (Open Reasoner 1) 系列大型语言模型。这一系列模型不仅在逻辑推理性能上实现了业界领先水平,更以全面开放、免费使用和完全开源的方式,为全球人工智能开发者社区注入了新的活力。
Skywork-OR1 系列是基于昆仑万维天工团队首款中文逻辑推理大模型 Skywork-o1 迭代优化而来。该系列模型的发布,标志着国产大模型在逻辑理解和复杂任务求解能力上取得了显著突破,有望加速人工智能技术在各行业的应用。
开源策略:前所未有,助力社区发展
昆仑万维此次发布的 Skywork-OR1 系列,采用了业界最高透明度的开源策略,包括:
- 全面开源模型权重: 开发者可以自由获取并使用模型的完整参数。
- 开源训练数据集: 允许开发者了解模型训练所使用的数据,并进行二次开发。
- 开源完整训练代码: 提供模型训练的完整代码,方便开发者复现和改进。
所有资源均已上传至 GitHub (https://github.com/SkyworkAI/Skywork-OR1) 和 Huggingface (https://huggingface.co/Skywork) 平台。此外,昆仑万维还在 Notion 平台发布了详细的技术博客,阐述了数据处理流程、训练方法和关键技术发现,为社区提供了完全可复现的实践参考。
三款高性能模型,满足不同需求
Skywork-OR1 系列首批开源了三款高性能模型:
- Skywork-OR1-Math-7B: 专注于数学领域的专项模型,同时具备较强的代码能力。该模型在 AIME24 和 AIME25 数据集上分别取得了 69.8 和 52.3 的高分,远超当前主流 7B 级别模型,验证了其在高阶数学推理任务中的专业优势。
- Skywork-OR1-7B-Preview: 融合数学与代码能力,兼具通用性与专业性的通用模型。
- Skywork-OR1-32B-Preview: 面向更高复杂度任务,具备更强推理能力的旗舰版本。该模型在多个 benchmark 上均实现了对 QwQ-32B 的超越,并在更难的 AIME25 上基本与 R1 持平。
昆仑万维官方表示,Skywork-OR1-7B 和 Skywork-OR1-32B 的能力还在持续提升,预计在两周内发布两个模型的正式版本,并推出更为系统详尽的技术报告。
评估指标创新:avg@k,更精准衡量推理能力
Skywork-OR1 系列模型引入了 avg@k 作为核心评估指标,用于衡量模型在进行 k 次尝试时成功解决问题的平均表现。相较于传统的 pass@k 指标仅关注是否“至少一次成功”,avg@k 能更细致地捕捉模型在多轮生成过程中的稳定性与整体推理能力,从而更全面反映其真实性能水平与实用价值。
性能卓越,性价比突出
在数学推理任务中,通用模型 Skywork-OR1-7B-Preview 和 Skywork-OR1-32B-Preview 在 AIME24 与 AIME25 数据集上均实现了同参数规模下的最优表现。在竞赛编程任务中,Skywork-OR1-7B-Preview 与 Skywork-OR1-32B-Preview 在 LiveCodeBench 数据集上均取得了同等参数规模下的最优性能。
Skywork-OR1-32B-Preview 表现尤为突出,其代码生成与问题求解能力已接近 DeepSeek-R1(参数规模高达 671B),在大幅压缩模型体量的同时实现了卓越的性价比,充分展现出天工团队训练策略的先进性。
意义深远,推动 AI 发展
昆仑万维此次开源 Skywork-OR1 系列模型,不仅为开发者提供了强大的工具,也为大模型领域的研究和应用带来了新的机遇。通过开放模型权重、训练数据集和完整训练代码,昆仑万维希望能够促进社区合作,共同推动人工智能技术的进步。
参考文献:
- 昆仑万维推出 Skywork-OR1 系列模型:全面开放、免费使用、完全开源. IT之家. https://www.ithome.com/0/825/389.htm
未来展望:
随着 Skywork-OR1 系列模型的不断完善和开源社区的积极参与,我们有理由相信,这一系列模型将在推动人工智能技术发展、赋能各行业数字化转型方面发挥越来越重要的作用。昆仑万维的这一举措,也为中国人工智能产业的开放创新树立了新的标杆。
Views: 0