字节跳动发布Seed-Thinking-v1.5思考模型

北京 – 字节跳动近日正式推出其最新的推理智能模型 Seed-Thinking-v1.5。这款模型采用了先进的混合专家（MoE）架构，拥有高达2000亿的总参数量，每次激活200亿参数，旨在突破现有AI在推理能力上的瓶颈，并在多个关键基准测试中展现出卓越的性能。该模型将于4月17日通过火山引擎开放接口，供用户体验。

Seed-Thinking-v1.5 的发布，标志着字节跳动在人工智能领域，尤其是在大模型和推理能力方面的持续投入和技术积累。

性能卓越，多项基准测试领先

Seed-Thinking-v1.5 在多个权威基准测试中表现抢眼。在AIME 2024 测试中，该模型获得了86.7分，与OpenAI 的 o3-mini-high 持平。在编程能力方面，其在 Codeforces 评测中 pass@8 指标达到 55.0 分，超越了 DeepSeek-R1。在科学问答方面，GPQA 测试中准确率达 77.3%，接近顶尖模型水平。

更值得关注的是，Seed-Thinking-v1.5 在非推理任务中也展现出强大的泛化能力，胜率比 DeepSeek R1 高出 8%。这表明该模型不仅擅长逻辑推理，在处理复杂用户场景方面也具备显著优势。

技术创新：混合专家模型与强化学习框架

Seed-Thinking-v1.5 的核心技术在于其混合专家模型（MoE）架构。这种架构允许模型在保持高性能的同时，显著减少计算资源的消耗，提高效率。

此外，为了解决强化学习训练中的不稳定性问题，字节跳动团队还提出了 VAPO（面向 Actor-Critic）和 DAPO（面向 Policy Gradient）两大框架。这两种方法能够提供稳健的训练轨迹，有效优化推理模型。

在奖励建模方面，团队设计了 Seed-Verifier 和 Seed-Thinking-Verifier 两种方案。Seed-Thinking-Verifier 通过详细的推理过程，解决了奖励欺骗、预测不确定性和边界情况处理失败等问题，提升了模型的可靠性。

数据驱动：可验证与非可验证问题的平衡

Seed-Thinking-v1.5 的训练数据涵盖了可验证问题（如数学、编程和逻辑谜题）和非可验证问题（如创意写作和对话）。对于可验证问题，团队通过严格筛选与增强，确保模型学习到真实的推理能力。对于非可验证问题，则通过动态过滤低方差样本，避免模型陷入局部优化。

同时，团队还采用了数据增强策略，例如用模型生成候选答案，结合人工验证修正错误参考答案，提升数据可靠性。

高效基础设施：支持大规模训练

为了支持 Seed-Thinking-v1.5 的大规模训练，字节跳动采用了 HybridFlow 编程模型和流式推理系统（SRS），通过三层并行架构（张量/专家/序列并行）优化了训练效率。流式生成系统（SRS）通过异步处理和动态资源调度，将长文本生成的效率提升 3 倍，解决了传统同步框架的“拖尾问题”。自动调优系统则根据实时负载动态选择最优计算配置，平衡内存与计算资源。

应用前景广阔：教育、科研、内容创作多点开花

Seed-Thinking-v1.5 的卓越性能和广泛的泛化能力使其在多个领域具有广阔的应用前景：