MiniCPM 4.0：端侧大模型效率突破，面壁智能开源！

北京 – 面壁智能近日正式开源发布MiniCPM 4.0，一款专为端侧设备设计的极致高效大模型。该模型以其卓越的性能、极低的资源消耗和强大的多平台适配能力，有望加速人工智能在边缘计算领域的应用落地。

MiniCPM 4.0 提供两种参数规模版本：8B（80亿参数）和0.5B（5亿参数）。其中，8B闪电稀疏版采用创新稀疏架构，能够高效处理长文本任务，而0.5B版本则以低计算资源消耗和高性能著称。

核心亮点：

极致推理速度： 面壁智能自研的CPM.cu推理框架，在极限场景下可实现最高220倍的提速，常规情况下也能达到5倍的速度提升。这一突破性的速度提升，使得MiniCPM 4.0能够在资源受限的端侧设备上流畅运行复杂的AI任务。
模型瘦身与高效部署： MiniCPM 4.0采用创新的稀疏架构和极致低位宽量化技术，实现了模型体积缩小90%，同时保持卓越性能。此外，该模型还支持在vLLM、SGLang、LlamaFactory等开源框架部署，方便开发者快速集成。
多平台适配： MiniCPM 4.0已适配Intel、高通、MTK、华为昇腾等主流芯片，可在多种端侧设备上流畅运行，极大地拓展了其应用范围。
高效双频换挡机制： MiniCPM 4.0-8B版本具备根据任务特征自动切换注意力模式的能力。处理长文本时启用稀疏注意力，降低计算复杂度；处理短文本时切换至稠密注意力，确保精度。
BitCPM极致量化： 通过应用极值三进制量化技术，BitCPM可以将模型参数压缩为三进制值，实现高达90%的位宽减少，进一步提升了模型在资源受限环境下的性能。

技术原理：

MiniCPM 4.0 的高效性能得益于多项创新技术：

稀疏注意力机制： MiniCPM 4.0-8B 采用创新的可训练稀疏注意力机制（InfLLM v2），在处理长文本时，每个词元（token）仅需与不到 5% 的其他词元进行相关性计算，极大地降低了长文本处理的计算开销。
模型风洞 2.0： 引入先进的下游任务 Scaling 预测方法，能更精准地搜索并确定最佳的模型训练配置。
高效训练工程： 全面采用 FP8 低精度计算技术，结合多词元预测（Multi-token Prediction）训练策略，进一步提升训练效率。

应用场景：

MiniCPM 4.0 的高效性能和多平台适配性使其在众多领域具有广阔的应用前景：