Kimi推出k1.5：多模态思考模型重磅来袭

北京 – 人工智能领域再掀波澜，中国AI公司月之暗面（Moonshot AI）近日发布了其最新的多模态思考模型k1.5。这款模型凭借强大的推理和多模态处理能力，在多个关键指标上超越了包括OpenAI的GPT-4o和Claude 3.5 Sonnet在内的全球领先模型，引发了业界广泛关注。

k1.5：多模态推理的突破

根据月之暗面官方发布的信息，k1.5模型在短链思维（short-CoT）模式下，数学、代码、视觉多模态和通用能力大幅领先于全球同类模型，领先幅度高达550%。更令人瞩目的是，在长链思维（long-CoT）模式下，k1.5的性能已达到OpenAI o1正式版的水平，成为全球首个达到这一水平的多模态模型。

“k1.5的发布，标志着我们在多模态推理领域取得了重大突破，”月之暗面一位不愿透露姓名的工程师表示，“我们致力于打造更智能、更高效的AI模型，为用户提供更强大的问题解决能力。”

技术解析：四大关键要素

k1.5的成功并非偶然，其背后是四大关键技术要素的支撑：

长上下文扩展： k1.5将上下文窗口扩展至128k，显著提升了模型的推理能力。这一技术借鉴了强化学习的部分回滚（Partial Rollout）策略，通过重用先前的轨迹片段来生成新的轨迹，避免了从头生成完整轨迹的高计算成本。
改进的策略优化： 模型采用了基于长链思维（Long-CoT）的强化学习公式，并结合在线镜像下降法（Online Mirror Descent）的变体进行策略优化。通过有效的采样策略、长度惩罚和数据配方优化，进一步提升了算法的性能。
简洁的框架： k1.5的设计摒弃了复杂的蒙特卡洛树搜索、价值函数和过程奖励模型等技术，而是通过扩展上下文长度和优化策略，实现了强大的推理能力。这使得模型在长上下文推理中表现出色，同时具备规划、反思和修正的能力。
多模态联合训练： 模型在文本和视觉数据上进行了联合训练，能同时处理文本和视觉信息，具备跨模态推理的能力。此外，k1.5还提出了一种将长链思维模型的推理能力迁移到短链思维模型的方法，即Long2Short技术，包括模型融合、最短拒绝采样、DPO（成对偏好优化）和Long2Short RL（强化学习）。

应用场景：赋能各行各业

k1.5的强大性能使其在多个领域具有广泛的应用前景：