阿里通义千问再突破：百万Token上下文模型开源

引言：

在人工智能领域，模型处理长文本的能力一直是衡量其智能水平的关键指标。近日，阿里巴巴通义千问团队再次推出重磅开源模型——Qwen2.5-1M，以其惊人的100万Token上下文处理能力，刷新了人们对大型语言模型潜力的认知。这一突破不仅标志着通义千问在长文本处理技术上的重大进展，也为AI在更广泛领域的应用打开了新的大门。

主体：

一、百万Token上下文：长文本处理能力的新标杆

Qwen2.5-1M模型，顾名思义，其核心亮点在于支持高达100万Token的上下文长度。这远超此前通义千问128K版本的上限，也超越了目前市场上大多数同类模型。这意味着Qwen2.5-1M能够一次性处理相当于10本长篇小说、多篇学术论文或大量文档的数据量，并从中提取关键信息、进行深入分析。

通义千问团队此次开源了两个版本的Qwen2.5-1M模型：Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M。其中，Qwen2.5-14B-Instruct-1M模型在多项基准测试中表现出色，不仅超越了通义千问此前的Qwen2.5-Turbo模型，还在多个数据集上稳定超越了GPT-4o-mini，展现出强大的性能优势。

二、技术原理：多重优化铸就卓越性能

Qwen2.5-1M的卓越性能并非偶然，其背后是通义千问团队在长文本训练、稀疏注意力机制和长度外推等多个方面的技术突破：

长上下文训练： 模型采用逐步扩展长度的方法，从4K到256K，并使用Adjusted Base Frequency方案，将RoPE基础频率从10,000提高到10,000,000。训练过程分为预训练、监督微调和强化学习三个阶段，确保模型在长文本处理和短文本任务上都能保持优异表现。
稀疏注意力机制： 为了加速预填充阶段，Qwen2.5-1M引入了基于MInference的稀疏注意力优化，包括分块预填充、集成长度外推方案和稀疏性优化等一系列改进，有效降低了显存需求，提升了推理效率和长序列任务的准确性。
长度外推： 为了将模型的上下文长度从256K扩展到1M，Qwen2.5-1M采用了Dual Chunk Attention（DCA）方法，将过大的相对位置重新映射为较小的值，解决了长上下文任务中的性能下降问题。

三、应用场景：赋能多领域创新

Qwen2.5-1M的强大长文本处理能力，使其在多个领域拥有广阔的应用前景：