快手开源Auto Think大模型：思考深度自适应

北京 – 在人工智能领域，深度思考大模型正展现出解决复杂问题的强大潜力，但同时也面临着“过度思考”的问题，导致推理成本飙升。近日，快手Kwaipilot团队宣布开源其最新研发的KwaiCoder-AutoThink-preview自动思考大模型，旨在通过模仿人类的“智能刹车”机制，根据问题难度自动调节思考深度，从而在性能和成本之间找到最佳平衡点。

这一创新性成果源于快手Kwaipilot团队对深度思考大模型在实际应用中遇到的挑战的深刻洞察。正如团队在官方技术博客中所述，虽然深度思考模型在解决复杂编程任务上表现出色，但过长的思考过程导致推理成本过高，难以在大流量的C端业务中落地。因此，团队希望开发一种能够“智能”选择思考模式的模型，即在复杂问题上进行深度探索，而在简单问题上直接给出答案，避免不必要的推理成本浪费。

KwaiCoder-AutoThink-preview模型的核心在于其全新的自动思考模型训练范式，该范式融合了“思考”和“非思考”能力，使模型能够根据问题难度自动切换思考形态。为了实现这一目标，团队采用了两步式训练方法：

Cold Start： 通过Agentic方法构造长短思考的冷启动数据，让模型在进行思考之前先进行一个“pre-think”，判断问题的难度，从而学会如何思考并决定如何回答。
Reasoning RL： 基于传统强化学习算法（GRPO），创新性地提出了带有过程监督的强化学习方法Step-SRPO（SSRPO），以进一步提升模型对各种任务难度判断的准确性。Step-SRPO通过对不同的token根据未来期望收益使用不同的优势计算函数，实现了对模型思考过程的精细化控制。

值得一提的是，为了提高训练效率，团队还采用了动态调整context length的方式，并利用大的batchsize和rollout个数，以及off-policy的更新策略来进一步提升模型的训练效率。

经过专项训练，KwaiCoder-AutoThink-preview模型在多个“思考”和“非思考”评测榜单上均实现了性能提升。在部分代码和数学类的任务上，开启自动思考模式下的模型得分提升高达20分左右。更令人惊喜的是，在部分榜单中，即使模型没有开启思考模式，受益于更优的推理形态，性能也有小幅上涨。

快手Kwaipilot团队选择将相关模型权重的preview版本开源，并计划在未来发布完整的技术报告，以供业界参考和学习。

专家点评：

“快手开源的Auto Think大模型，是解决深度思考模型‘过度思考’问题的一次重要尝试。”一位匿名人工智能专家表示，“通过融合‘思考’和‘非思考’能力，并引入强化学习方法进行训练，该模型有望在性能和成本之间找到更好的平衡，从而推动深度思考模型在实际业务场景中的应用。”

未来展望：

KwaiCoder-AutoThink-preview模型的开源，不仅为AI领域带来了一种新的思考模式，也为未来的研究方向提供了新的思路。随着技术的不断发展，我们有理由相信，未来的AI模型将更加智能、高效，能够更好地服务于人类社会。

参考文献：

快手技术博客: https://huggingface.co/Kwaipilot/KwaiCoder-AutoThink-preview
GRPO 强化学习算法 (请补充相关论文链接)
Step-SRPO 强化学习算法 (请补充相关论文链接，如尚未发表，可注明“待发表”)

>>> Read more <<<

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

快手开源Auto Think大模型：思考深度自适应

作者智能小编

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐