北京 – 在人工智能领域,深度思考大模型正展现出解决复杂问题的强大潜力,但同时也面临着“过度思考”的问题,导致推理成本飙升。近日,快手Kwaipilot团队宣布开源其最新研发的KwaiCoder-AutoThink-preview自动思考大模型,旨在通过模仿人类的“智能刹车”机制,根据问题难度自动调节思考深度,从而在性能和成本之间找到最佳平衡点。

这一创新性成果源于快手Kwaipilot团队对深度思考大模型在实际应用中遇到的挑战的深刻洞察。正如团队在官方技术博客中所述,虽然深度思考模型在解决复杂编程任务上表现出色,但过长的思考过程导致推理成本过高,难以在大流量的C端业务中落地。因此,团队希望开发一种能够“智能”选择思考模式的模型,即在复杂问题上进行深度探索,而在简单问题上直接给出答案,避免不必要的推理成本浪费。

KwaiCoder-AutoThink-preview模型的核心在于其全新的自动思考模型训练范式,该范式融合了“思考”和“非思考”能力,使模型能够根据问题难度自动切换思考形态。为了实现这一目标,团队采用了两步式训练方法:

  1. Cold Start: 通过Agentic方法构造长短思考的冷启动数据,让模型在进行思考之前先进行一个“pre-think”,判断问题的难度,从而学会如何思考并决定如何回答。
  2. Reasoning RL: 基于传统强化学习算法(GRPO),创新性地提出了带有过程监督的强化学习方法Step-SRPO(SSRPO),以进一步提升模型对各种任务难度判断的准确性。Step-SRPO通过对不同的token根据未来期望收益使用不同的优势计算函数,实现了对模型思考过程的精细化控制。

值得一提的是,为了提高训练效率,团队还采用了动态调整context length的方式,并利用大的batchsize和rollout个数,以及off-policy的更新策略来进一步提升模型的训练效率。

经过专项训练,KwaiCoder-AutoThink-preview模型在多个“思考”和“非思考”评测榜单上均实现了性能提升。在部分代码和数学类的任务上,开启自动思考模式下的模型得分提升高达20分左右。更令人惊喜的是,在部分榜单中,即使模型没有开启思考模式,受益于更优的推理形态,性能也有小幅上涨。

快手Kwaipilot团队选择将相关模型权重的preview版本开源,并计划在未来发布完整的技术报告,以供业界参考和学习。

专家点评:

“快手开源的Auto Think大模型,是解决深度思考模型‘过度思考’问题的一次重要尝试。”一位匿名人工智能专家表示,“通过融合‘思考’和‘非思考’能力,并引入强化学习方法进行训练,该模型有望在性能和成本之间找到更好的平衡,从而推动深度思考模型在实际业务场景中的应用。”

未来展望:

KwaiCoder-AutoThink-preview模型的开源,不仅为AI领域带来了一种新的思考模式,也为未来的研究方向提供了新的思路。随着技术的不断发展,我们有理由相信,未来的AI模型将更加智能、高效,能够更好地服务于人类社会。

参考文献:


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注