“`markdown
字节跳动发布 Seed-Thinking-v1.5 推理模型:200B 参数力压 DeepSeek-R1
北京 – 字节跳动旗下豆包团队今日发布了其最新推理模型 Seed-Thinking-v1.5 的技术报告,引发业界广泛关注。该模型以其卓越的性能,在多个基准测试中超越了拥有 671B 参数的 DeepSeek-R1,再次证明了模型架构创新和训练策略优化的巨大潜力。
Seed-Thinking-v1.5:小参数,大能量
根据技术报告,Seed-Thinking-v1.5 是一款总参数量为 200B 的混合专家模型 (MoE)。MoE 架构的精妙之处在于,每次推理任务仅激活其中的 20B 参数,从而在保证性能的同时,显著降低了计算成本和资源消耗。这种高效的设计理念,使得 Seed-Thinking-v1.5 在同等性能水平上,拥有更紧凑的模型规模。
基准测试:实力彰显
Seed-Thinking-v1.5 在多个权威基准测试中表现出色,充分证明了其在 STEM(科学、技术、工程和数学)领域以及编程方面的卓越推理能力:
- AIME 2024: 获得 86.7 分
- Codeforces: 达到 55.0 分
- GPQA: 达到 77.3 分
此外,在非推理任务中,Seed-Thinking-v1.5 的胜率也比 DeepSeek R1 高出 8%,显示出其更广泛的应用潜力。
技术创新:数据、算法与基础设施
豆包团队在数据、强化学习算法和基础设施三个方面都进行了创新,为 Seed-Thinking-v1.5 的成功奠定了基础:
- 数据: 团队发现,过多的非思维链 (CoT) 数据会削弱模型探索能力。因此,他们精心整合了 STEM 问题、代码任务、逻辑推理和非推理数据,并构建了一个新的高级数学基准 BeyondAIME,以提升模型的推理能力和泛化能力。
- 强化学习算法: 针对推理模型强化学习训练中常见的不稳定性问题,团队进行了深入研究和优化,提升了训练的稳定性和效率。
- 基础设施: 强大的基础设施是模型训练的基石。字节跳动强大的算力资源为 Seed-Thinking-v1.5 的训练提供了有力保障。
未来展望:或将亮相火山引擎 Force Link AI 创新巡展
字节跳动近期官宣的「2025 火山引擎 Force Link AI 创新巡展」活动推文中提到,4 月 17 日首发站杭州站时,豆包全新模型将重磅亮相。业界普遍猜测,届时发布的很可能就是 Seed-Thinking-v1.5 的正式版本。
开放评估:促进社区发展
为了全面评估模型的泛化推理能力,豆包团队还开发了 BeyondAIME 和 Codeforces 两个内部基准测试,并计划向公众开放,以促进相关领域的未来研究与发展。
结语
Seed-Thinking-v1.5 的发布,不仅是字节跳动在人工智能领域取得的又一重要突破,也为整个行业带来了新的启示。通过模型架构创新、训练策略优化和数据质量提升,即使是相对较小规模的模型,也能在特定任务上超越大型模型。随着人工智能技术的不断发展,我们有理由期待更多高效、智能的推理模型涌现,为各行各业带来更强大的赋能。
参考文献
- Seed-Thinking-v1.5 技术报告: https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf
- Seed-Thinking-v1.5 项目地址: https://github.com/ByteDance-Seed/Seed-Thinking-v1.5
“`
Views: 1