通义千问Qwen2.5-1M：百万Token上下文震撼发布

北京 – 阿里巴巴通义千问团队近日正式开源其最新力作——Qwen2.5-1M，一款支持高达100万Tokens上下文长度的语言模型。这一突破性进展不仅显著提升了模型在长文本处理方面的能力，更在多个数据集上超越了GPT-4o-mini，为AI应用开辟了更广阔的空间。

Qwen2.5-1M：长文本处理的革新者

Qwen2.5-1M系列模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M两个版本。其核心优势在于能够处理超长上下文，远超此前128K版本的上限。这意味着模型可以一次性处理更长的文档、对话或代码，从而更好地理解上下文信息，生成更准确、更连贯的输出。

在实际应用中，Qwen2.5-1M展现出强大的能力。例如，它可以：

技术解析：百万Token背后的秘密

Qwen2.5-1M的成功并非偶然，其背后是通义千问团队在技术上的不断创新和突破。主要技术原理包括：

长上下文训练： 采用逐步扩展长度的方法，将上下文长度从4K扩展到256K，并使用Adjusted Base Frequency方案优化RoPE基础频率。
稀疏注意力机制： 引入基于MInference的稀疏注意力优化，包括分块预填充、集成长度外推方案和稀疏性优化等，加速预填充阶段，提升推理效率和长序列任务的准确性。
长度外推： 采用Dual Chunk Attention（DCA）方法，将模型的上下文长度从256K扩展到1M，解决了长上下文任务中的性能下降问题。

性能评估：超越GPT-4o-mini

Qwen2.5-14B-Instruct-1M模型在多个数据集上稳定超越GPT-4o-mini，证明了其卓越的性能。同时，Qwen2.5-1M系列模型在短文本任务上的表现与其128K版本相当，确保了基本能力没有因为增加了长序列处理能力而受到影响。

开源共享：推动AI生态发展

阿里巴巴通义千问团队选择开源Qwen2.5-1M，体现了其推动AI技术发展的决心。通过开源，更多的开发者和研究人员可以参与到模型的改进和应用中来，共同推动AI技术的进步。

项目地址：