好的,根据你提供的信息,我将撰写一篇新闻稿,力求专业、深入且引人入胜。
快手开源 AutoThink 大模型 KAT-V1:AI 自主思考能力跃升,或终结“过度思考”难题
北京 – 在人工智能领域,大语言模型(LLM)的“思考”能力一直是提升智能水平的关键。然而,随着模型复杂度的增加,“过度思考”的问题日益凸显,即模型在面对简单问题时也会进行冗长的推理,导致响应迟缓、资源浪费。近日,快手技术团队发布并开源了 AutoThink 大模型 KAT-V1,旨在解决这一难题,让 AI 学会根据任务复杂度自主选择思考模式。
KAT-V1 模型包含 40B 和 200B 两个版本。其中,40B 版本在自动思考模式下,性能可追平今年 5 月发布的新版 DeepSeek-R1(参数量为 6850 亿)。更令人瞩目的是,200B 版本在多项基准测试中超越了 Qwen、DeepSeek 和 Llama 等开源模型家族的旗舰模型。此外,在以严苛著称的 LiveCodeBench Pro 实时基准测试中,KAT-V1 的 40B 版本成功跻身闭源模型之列,超越众多思考/非思考开源模型。
这一突破性成果源于快手 Kwaipilot 团队在技术上的创新。他们提出了一种全新的长短思考混合模型训练范式,并基于传统强化学习算法(GRPO),提出了带有新型强化学习方法 Step-SRPO,进一步提升了模型输出 token 的思考密度以及对是否应该开启思考模式的判断力。
“过度思考”的困境与解决方案
自 OpenAI 推出 GPT 系列模型以来,通过工程设计和后训练技术,让模型在回答问题前进行更深入的思考、推理和规划,已经成为智能水平提升的重要路径。然而,在实际应用中,推理模型“凡事都要先思考”的运行模式,演变成了“过度思考”的问题:模型机械地展开冗长的推理链,缺乏灵活的判断能力。
“过度思考”不仅显著拉长了响应时间,降低用户满意度,还会增加推理所需的计算资源和能源消耗,导致运算成本上升。此外,模型为了“显得在思考”,还可能在中间步骤生成不准确或逻辑矛盾的内容,增加错误决策的风险。
为了解决这一问题,快手 Kwaipilot 团队提出了 KAT-V1 模型。该模型通过以下关键技术实现了 AI 的自主思考能力:
- 长短思考混合训练范式: 通过构造大量的思考/非思考数据,让模型学会区分不同类型的任务,并选择合适的思考模式。
- 新型强化学习方法 Step-SRPO: 基于传统强化学习算法 GRPO,进一步提升模型输出 token 的思考密度以及对是否应该开启思考模式的判断力。
- 异构蒸馏框架: 通过通用 Logits 蒸馏损失(ULD Loss)和多 Token 预测(MTP)两大模块,高效地将教师模型的知识传递给学生模型,以 1/30 的成本完成了模型的冷启动初始化。
技术细节与未来展望
KAT-V1 模型由 Qwen2.5-32B 扩展而来,通过分层定向扩展的策略,将模型参数量有选择地扩展到 40B,减少了无效的参数增长,实现规模与计算效率的平衡。
在预训练阶段,Kwaipilot 团队构造了大量的思考/非思考数据。对于非思考数据,他们从预先收集的 5TB tokens 预训练数据中,抽取出部分带有推理特征、具有一定难度的多领域数据。思考数据则使用一个 Agentic 框架来合成,该框架由解答者(solver)、思考者(thinker)和评论者(critic)组成,以保证逻辑一致性和输出质量。
目前,KAT-V1 模型家族的 40B 版本已在开源模型托管平台 Hugging Face 上线。技术报告透露,200B 版本的 MoE 模型仍在训练过程中。同时,用户也可在快手打造的 AI 研发助手 Kwaipilot 中体验到这一模型。
快手 AutoThink 大模型 KAT-V1 的开源,有望推动 AI 领域在自主思考能力方面的进一步发展,并为解决“过度思考”难题提供新的思路。随着 200B 版本的发布以及更多技术细节的披露,我们有理由期待 KAT-V1 在未来带来更多惊喜。
参考文献:
- 快手技术. (n.d.). 快手 AutoThink 大模型 KAT-V1 正式开源,40B 性能逼近 R1-0528,200B 性能飞跃. Retrieved from 快手技术
- Kwaipilot Team. (2024). KAT-V1: AutoThink Technical Report. arXiv. Retrieved from https://arxiv.org/pdf/2507.08297
模型开源地址:
注: 由于是新闻稿,此处参考文献主要列出直接引用的来源,更全面的学术论文引用格式会包含更多信息。
希望这篇新闻稿符合你的要求!
Views: 0
