在上海浦东滨江公园观赏外滩建筑群-20240824在上海浦东滨江公园观赏外滩建筑群-20240824

北京—— 在人工智能领域,逻辑推理能力一直是大型语言模型(LLM)的一大挑战。近日,中国科技公司昆仑万维推出了Skywork-OR1(Open Reasoner 1)系列开源高性能推理模型,旨在突破这一瓶颈,为AI在数学、编程等复杂任务中的应用提供更强大的支持。

Skywork-OR1系列包含三款模型:Skywork-OR1-Math-7B专注于数学推理,Skywork-OR1-7B-Preview是兼顾数学和代码能力的通用模型,而Skywork-OR1-32B-Preview则是旗舰版本,专为处理复杂度更高的任务而设计。

性能卓越,多项基准测试领先

Skywork-OR1系列在多个基准测试中表现出色。其中,Skywork-OR1-Math-7B在AIME24和AIME25数学数据集上分别取得了69.8%和52.3%的高分,远超同等规模的主流模型。在竞赛编程任务中,Skywork-OR1-32B-Preview在LiveCodeBench数据集上的表现甚至接近拥有6710亿参数的DeepSeek-R1,展现了卓越的性价比。

技术解析:高质量数据集与创新训练策略

Skywork-OR1的卓越性能离不开其背后的技术支撑。据了解,该系列模型基于高质量的数学数据集NuminaMath-1.5(约89.6万题)进行训练,并从中筛选出AIME、Olympiads等高难度子集,总计约11万道数学题目。在代码方面,则以LeetCode和TACO数据为主,经过严格筛选和去重,保留单元测试完整、验证通过的问题,最终获得1.37万条高质量代码问题。

在训练策略上,Skywork-OR1基于GRPO(Generalized Policy Optimization)进行模型训练,采用多阶段训练逐步增加上下文窗口长度,提升模型的长链思维能力。此外,在训练前和训练过程中分别进行离线和在线过滤,动态剔除无效样本,确保训练数据的有效性和挑战性。

昆仑万维还在强化学习采样时采用了高采样温度(τ=1.0),并基于自适应熵控制机制,增强模型的探索能力,避免过早陷入局部最优。在损失函数优化方面,移除了KL损失项,让模型充分地探索和优化推理能力。

应用前景广阔,赋能多领域

Skywork-OR1系列模型的开源,无疑将为AI研究和应用带来新的机遇。其应用场景包括:

  • 数学教育: 辅助学生解题,提供思路与步骤,助力教师备课。
  • 科研辅助: 帮助研究人员探索复杂模型,验证猜想,推导公式。
  • 编程开发: 生成代码框架,优化代码,辅助调试,提升开发效率。
  • 数据分析: 支持金融、商业等领域决策,预测趋势,评估风险。
  • AI研究: 作为研究平台,推动推理模型架构和算法的改进。

开源地址与项目信息

结语

Skywork-OR1的发布,标志着国产AI模型在逻辑推理能力上取得了重要突破。其开源策略将加速AI技术在各行业的应用,并推动AI领域的创新发展。未来,我们期待Skywork-OR1能够在更多领域发挥作用,为人类社会带来更大的价值。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注