北大LIFT：突破大模型长文本瓶颈

北京—— 近日，北京大学人工智能研究院联合北京通用人工智能研究院的研究团队，提出了一种名为“LIFT”（Long Input Fine-Tuning）的全新框架，旨在通过将长输入文本训练进模型参数中，使任意短上下文窗口模型获得长文本能力，从而有效提升大模型在长文本任务中的表现。这一研究成果有望突破现有大模型在处理长文本时面临的计算复杂度高、长程依赖难以捕捉等瓶颈。

长文本任务是当前大模型研究的热点。在实际应用中，存在大量长序列数据，例如长篇文档、长时间语音记录、长视频等，有些甚至长达百万级 tokens。提升模型处理长文本的能力，不仅意味着可以容纳更长的上下文窗口，更重要的是能够更好地建模文本段落间的长程依赖关系，从而增强对长文本的阅读理解和推理能力。

然而，现有大模型在解决长文本任务时面临诸多挑战。传统的点积注意力机制（dot-product attention）计算复杂度随输入长度呈平方增长，且存储 KV cache 的开销也随之增加，导致时间和空间开销都较高。此外，模型难以真正理解散落在长文本各处信息间的长程依赖。

目前，主流的长文本解决方法包括检索增强生成（Retrieval-Augmented Generation，RAG）和长上下文适应（long-context adaption）等。RAG 通过从长文本中抽取与问题相关的信息放入上下文窗口进行推理，但其效果依赖于准确的检索方法，且大量的噪声和无关信息可能导致模型产生幻觉。Long-context adaption 通过在大量长文本的数据集上进行后训练来扩展模型的上下文窗口，但其推理复杂度随文本长度平方增长，显存占用高，且上下文窗口仍然有限。

为了应对这些挑战，北京大学张牧涵团队提出了 LIFT 框架。该框架的核心思想是将长输入文本训练进模型参数中，而不是依赖外部数据库或上下文窗口。研究团队认为，无限地扩充上下文窗口无法真正解决长文本、长历史的挑战，只有将上下文持续地转变成参数化知识，才能实现无限地学习。

LIFT 框架具有以下几个关键优势：

动态高效的长输入训练： LIFT 能够通过调整模型参数，动态适应新的长输入文本，将其作为新的知识源，无需进行资源密集型的 long-context adaptation。
平衡模型参数知识和原有能力： LIFT 采用了一种专门的参数高效微调模块——门控记忆适配器（Gated Memory Adapter），它能平衡原始模型的 In-Context Learning（ICL）能力和 LIFT 训练后对长输入的记忆理解能力，避免了全参数微调可能导致的过拟合风险。
在流行长上下文任务上取得显著提升： 在 LooGLE、Longbench 等多个广泛认可的长上下文基准集上的评估表明，不同 LLM 始终能通过 LIFT 在常见的长/短依赖问答和摘要等通用任务上受益。例如，在极具挑战性的 LooGLE 长依赖问答上，LIFT 过后的 Llama 3 8B 的正确率从 15.44% 提升至 29.97%。

LIFT 框架的长文本切段训练方法受 LLM 预训练的启发，将“记忆长文本”的任务建模为语言建模（Language Modeling）任务。为了避免在整篇长文本上进行语言建模训练开销过大，LIFT 将长文本切分为固定长度的片段，并要求相邻片段有一定重叠，以保证模型能够记忆片段间的正确顺序，从而更好地理解长文本中的长程依赖。

该研究团队表示，LIFT 框架的提出，为大模型处理长文本任务提供了一种全新的思路。通过将长文本知识内化到模型参数中，LIFT 有望突破现有技术的瓶颈，为大模型在实际应用中更好地处理长文本数据奠定基础。

参考文献：

[1] Retrieval-Augmented Generation (RAG)
[2] Long-context adaption
[3] LooGLE
[4] Longbench
LIFT: Improving Long Context Understanding of Large Language Models through Long Input Fine-Tuning. https://arxiv.org/abs/2502.14644

>>> Read more <<<