面壁智能发布MiniCPM 4.0：端侧大模型引领AI工具新变革

北京 – 在人工智能领域，模型效率与部署便捷性一直是开发者关注的焦点。近日，面壁智能正式开源了其最新力作——MiniCPM 4.0，一款极致高效的端侧大模型，旨在解决大模型在移动设备和边缘计算上的部署难题。该模型不仅拥有8B和0.5B两种参数规模，更在推理速度上实现了惊人的突破，最高可达220倍的提速。

MiniCPM 4.0：小身材，大能量

MiniCPM 4.0的核心亮点在于其高效性。针对不同应用场景，面壁智能推出了两种参数规模的模型：

MiniCPM4-8B： 作为旗舰模型，拥有80亿参数，在8T tokens上训练，适用于对性能有较高要求的场景。
MiniCPM4-0.5B： 拥有0.5亿参数，在1T tokens上训练，以低计算资源消耗和高性能著称，更适合资源受限的端侧设备。

为了进一步提升推理速度，MiniCPM 4.0采用了多项创新技术：

创新稀疏架构： 8B版本采用闪电稀疏架构，能高效处理长文本任务，降低计算复杂度。
自研CPM.cu推理框架： 在极限场景下可实现最高220倍提速，常规情况下也能达到5倍的速度提升。
极致低位宽量化技术： 通过三值量化技术BitCPM，将模型参数的位宽压缩超过90%，在大幅“瘦身”的同时保持了卓越性能。

技术原理：多管齐下，性能飞跃

MiniCPM 4.0的卓越性能并非偶然，而是多项技术创新共同作用的结果：

稀疏注意力机制： MiniCPM 4.0-8B 采用创新的可训练稀疏注意力机制（InfLLM v2），在处理长文本时，每个词元（token）仅需与不到 5% 的其他词元进行相关性计算，极大地降低了长文本处理的计算开销。
高效双频换挡： 模型可根据任务特征自动切换注意力模式。处理长文本时启用稀疏注意力以降低计算复杂度，处理短文本时切换至稠密注意力以确保精度。
模型风洞 2.0： 引入先进的下游任务 Scaling 预测方法，能更精准地搜索并确定最佳的模型训练配置。
高效训练工程： 全面采用 FP8 低精度计算技术，结合多词元预测（Multi-token Prediction）训练策略，进一步提升训练效率。

广泛的应用场景

凭借其高效性和灵活性，MiniCPM 4.0在多个领域展现出巨大的应用潜力：