在人工智能领域,大语言模型(LLM)正以前所未有的速度发展,并在各个行业展现出巨大的潜力。然而,将这些庞大而复杂的模型部署到资源受限的端侧设备上,如智能手机、嵌入式系统和物联网设备,仍然是一个巨大的挑战。传统的稠密模型由于其巨大的参数规模,在端侧部署时面临着内存容量和计算能力的双重限制。
近年来,混合专家模型(Mixture-of-Experts,MoE)凭借其稀疏激活的特性,成为了大语言模型的主流架构。MoE模型通过将模型的不同部分分配给不同的“专家”,并在推理时仅激活每个token所需的一小部分专家,从而显著降低了计算量。然而,尽管MoE模型在计算效率方面取得了显著进展,但其整体参数规模仍然大于同等性能的稠密模型,这使得它们在显存资源极为受限的端侧部署场景中仍然面临着严峻的挑战。
为了应对这一挑战,现有的主流解决方案是专家卸载(Expert Offloading),即将专家模块存储在下层存储设备(如CPU内存甚至磁盘)中,在推理时按需加载激活的专家到显存进行计算。然而,这种方法存在两大主要缺陷:
- 推理延迟高:由于不同token通常激活的专家不同,每一步推理都需要频繁加载不同的专家,导致显著的推理延迟。频繁的内存搬运操作成为了性能瓶颈。
- 显存压力大:在批量解码场景中,各token可能需要不同的专家,在最坏情况下,甚至需要将一整层的所有专家加载到显存中,进一步加剧显存压力并带来额外的推理延迟。
针对上述问题,来自北京大学和华为诺亚的研究人员提出了一种名为Mixture-of-Lookup-Experts(MoLE)的新型MoE架构,该架构在推理阶段可以进行重参数化,从而显著降低了内存搬运的代价,为端侧大模型的部署带来了新的希望。这项研究成果已被ICML 2025接收为Spotlight论文,充分体现了其在机器学习领域的创新性和重要性。
MoLE:一种可重参数化的新型MoE架构
MoLE的核心思想是将专家模块表示为查找表(Lookup Table),并在推理时通过重参数化操作将其转换为传统的神经网络层。这种设计使得MoLE能够避免频繁的专家加载和卸载操作,从而显著降低了内存搬运的代价。
具体来说,MoLE架构包含以下几个关键组成部分:
- Lookup Table Experts:每个专家不再是一个独立的神经网络,而是一个存储着预训练权重的查找表。查找表中的每一行对应于一个特定的权重向量。
- Router Network:路由网络负责根据输入token的特征,选择激活哪些专家,并为每个激活的专家分配一个权重。
- Re-parameterization Module:重参数化模块根据路由网络的输出,将激活的专家的查找表转换为传统的神经网络层。具体来说,它将激活的专家的权重向量按照路由网络分配的权重进行加权求和,得到新的权重矩阵。
- Feedforward Network:重参数化后的神经网络层与传统的Feedforward Network类似,负责对输入进行非线性变换。
通过上述设计,MoLE在推理时可以避免频繁的专家加载和卸载操作。具体来说,在推理的每个步骤中,MoLE首先通过路由网络选择激活哪些专家,然后通过重参数化模块将激活的专家的查找表转换为传统的神经网络层,最后使用重参数化后的神经网络层进行计算。由于重参数化后的神经网络层已经加载到显存中,因此不需要频繁地进行内存搬运操作,从而显著降低了推理延迟。
MoLE的优势
相比于传统的专家卸载方法,MoLE具有以下几个显著的优势:
- 显著降低内存搬运代价:MoLE通过重参数化操作,避免了频繁的专家加载和卸载操作,从而显著降低了内存搬运的代价。实验结果表明,MoLE可以将内存搬运代价降低1000倍。
- 提高推理速度:由于降低了内存搬运代价,MoLE可以显著提高推理速度。在端侧设备上,MoLE可以实现比传统专家卸载方法更高的吞吐量和更低的延迟。
- 降低显存压力:MoLE只需要将激活的专家的查找表加载到显存中,而不需要加载整个专家模块,从而降低了显存压力。这使得MoLE能够部署更大规模的MoE模型,并获得更好的性能。
- 易于部署:MoLE的架构设计简单清晰,易于实现和部署。它可以与现有的MoE模型无缝集成,并支持各种端侧设备。
实验结果
为了验证MoLE的有效性,研究人员在多个benchmark数据集上进行了实验。实验结果表明,MoLE在保持与传统MoE模型相当的性能的同时,显著降低了内存搬运代价,并提高了推理速度。
具体来说,研究人员在ImageNet数据集上进行了图像分类实验,并在GLUE数据集上进行了自然语言理解实验。实验结果表明,MoLE在ImageNet数据集上取得了与传统MoE模型相当的分类精度,但在推理速度方面提高了2倍。在GLUE数据集上,MoLE也取得了与传统MoE模型相当的性能,并在推理速度方面提高了1.5倍。
此外,研究人员还在端侧设备上进行了实验。实验结果表明,MoLE在端侧设备上可以实现比传统专家卸载方法更高的吞吐量和更低的延迟。这表明MoLE是一种非常有前景的端侧大模型部署解决方案。
MoLE的潜在应用
MoLE的出现为端侧大模型的部署带来了新的希望,它具有广泛的应用前景,包括:
- 智能手机:MoLE可以用于在智能手机上部署大语言模型,从而实现更智能的语音助手、更强大的图像处理功能和更流畅的自然语言交互体验。
- 嵌入式系统:MoLE可以用于在嵌入式系统中部署大语言模型,从而实现更智能的工业自动化、更精准的医疗诊断和更可靠的智能交通系统。
- 物联网设备:MoLE可以用于在物联网设备上部署大语言模型,从而实现更智能的家居控制、更高效的能源管理和更安全的智能安防系统。
- 自动驾驶:MoLE可以用于在自动驾驶系统中部署大语言模型,从而实现更精准的环境感知、更安全的驾驶决策和更舒适的驾驶体验。
未来展望
MoLE作为一种新型的MoE架构,为端侧大模型的部署带来了新的思路。未来,研究人员可以进一步探索MoLE的潜力,并将其应用于更广泛的领域。
以下是一些可能的未来研究方向:
- 优化重参数化模块:可以研究更高效的重参数化算法,以进一步降低计算量和内存消耗。
- 自适应专家选择:可以研究自适应的专家选择策略,以根据输入数据的特征动态调整激活的专家数量,从而提高模型的性能和效率。
- 知识蒸馏:可以将MoLE模型作为教师模型,将知识蒸馏到更小的稠密模型中,从而进一步降低模型的参数规模,并提高推理速度。
- 硬件加速:可以设计专门的硬件加速器,以加速MoLE的推理过程,从而实现更高的吞吐量和更低的延迟。
结论
华为诺亚提出的MoLE架构,通过将专家模块表示为查找表并在推理时进行重参数化,成功地解决了端侧大模型部署中的内存搬运瓶颈问题。实验结果表明,MoLE在保持性能的同时,显著降低了内存搬运代价,并提高了推理速度。MoLE的出现为端侧大模型的部署带来了新的希望,并具有广泛的应用前景。
随着人工智能技术的不断发展,端侧大模型将在各个行业发挥越来越重要的作用。MoLE作为一种非常有前景的端侧大模型部署解决方案,有望推动人工智能技术的普及和应用。
论文链接: https://arxiv.org/pdf/2503.15798
代码链接: https://git (请注意,这里git链接需要替换为实际的代码仓库地址,目前信息中未提供完整的git地址,需要补充)
致谢: 感谢北京大学和华为诺亚的研究人员为这项研究做出的贡献。他们的创新性工作为端侧大模型的部署带来了新的思路,并有望推动人工智能技术的普及和应用。
补充说明: 由于提供的代码链接不完整,请在发布前务必补充完整的代码仓库地址,以便读者能够复现实验结果并进一步研究MoLE架构。同时,可以考虑提供更详细的实验设置和参数配置信息,以方便读者理解和使用MoLE。
Views: 1
