清华联手腾讯，重磅发布APB长上下文推理框架

北京 – 在人工智能领域，处理长文本一直是挑战。近日，清华大学联合腾讯等机构推出了一款名为APB（Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs）的分布式长上下文推理框架，旨在突破大模型在处理长文本时的效率瓶颈。该框架通过稀疏注意力机制和序列并行推理方式，实现了在128K文本上推理速度比Flash Attention快约10倍，比英伟达的Star Attention快1.6倍的显著提升，且性能优异。

APB是什么？

APB是一种旨在加速分布式环境中长上下文推理的创新框架。它通过在多个GPU之间传递压缩的上下文块，显著提升了处理长文本的效率。该框架采用更小的Anchor block和Passing block，并结合查询感知的上下文压缩技术，在减少计算开销的同时，精准传递关键信息，实现长距离语义依赖的高效处理。

技术原理与优势

APB的核心技术在于其稀疏注意力机制和序列并行推理。具体来说，它通过以下几个关键步骤实现高效推理：

上下文分割： 将输入序列均匀分配到多个主机上，并在每个主机的本地上下文块前附加一个锚点块（Anchor Block），保留对输入序列初始部分的可见性。
块压缩： 在每个主机上，使用Locret的保留头（Retaining Heads）对KV缓存进行压缩，减少通信和计算开销。
通信机制： 通过AllGather通信机制，将压缩后的上下文块发送到所有主机，并构建传递块（Passing Block），以传递前序主机的重要KV缓存单元。
计算： 在每个主机上，结合锚点块、传递块和本地上下文块进行注意力计算。传递块在注意力计算后被丢弃，不参与后续计算。

这些技术手段使得APB在加速长上下文推理方面表现出色。与Flash Attention、Ring Attention和Star Attention相比，APB分别实现了高达9.2倍、4.2倍和1.6倍的速度提升。更重要的是，APB在保持甚至提升任务性能的同时，大幅减少了计算量和通信开销。

应用场景广泛

APB的卓越性能使其在多个领域具有广泛的应用前景：