机器之心报道 2025年4月12日,苹果公司的研究人员联合法国索邦大学,发布了一项关于原生多模态模型(NMM)Scaling Laws的重磅研究。该研究深入探讨了不同架构和训练方式对多模态模型性能的影响,为人工智能领域探索更有效的多模态学习路径提供了重要参考。
多模态融合:原生 vs. 组合式
近年来,让大模型具备感知世界的能力,实现多模态理解一直是AI领域的研究热点。目前,许多多模态应用采用“组合式”方法,即集成预训练的视觉编码器和大型语言模型(LLM),再进行多模态训练。然而,谷歌Gemin 2.0的推出,让“原生多模态模型”(NMM)的概念备受关注,即从零开始训练的多模态大模型。
那么,原生多模态模型是否真的优于组合式模型?为了解答这个问题,研究人员进行了大规模的实验,涵盖了457个不同架构和训练方式的模型,旨在揭示原生多模态模型的Scaling Laws。
早融合 vs. 后融合:性能相当,各有千秋
研究结果表明,与后融合架构相比,不依赖图像编码器的早融合架构并没有绝对的性能优势。
- 早融合: 在较低参数规模下表现更强,训练效率更高,更易于部署。
- 后融合: 需要更多参数,计算最优的后融合模型需要更高的参数与数据比。
换句话说,在计算资源有限的情况下,早融合模型可能更具优势。但随着计算预算的增加,早融合和后融合的性能会趋于相似。
MoE的潜力:稀疏性与模态特定权重
受早融合架构性能的启发,研究人员进一步探索了混合专家(MoE)模型在多模态学习中的应用。实验表明,结合MoE可以使模型学习特定于模态的权重,从而显著提升性能。
- 稀疏NMM: 在相同的推理成本下,稀疏NMM与密集NMM相比表现出显著的改进。
- 模态无关路由: 使用模态无关路由训练稀疏混合专家模型,其性能始终优于使用模态感知路由的模型。
这些发现表明,MoE模型通过稀疏性和模态特定权重,能够更有效地处理多模态数据,提升模型性能。
NMM的Scaling Laws:与LLM相似
研究还发现,原生多模态模型的Scaling Law与纯文本LLM类似,scaling指数根据目标数据类型和训练组合略有不同。
- 计算量与性能: 损失与计算量之间存在幂律关系,表明随着计算量的增加,性能会持续提升。
- 模型参数与训练数据: 计算优化模型更多地依赖于训练token数量的扩展,而不是活动参数的数量。
这些发现为多模态模型的训练和优化提供了重要的指导,有助于研究人员在给定计算预算的情况下,确定最佳的模型和数据集大小。
研究意义与未来展望
这项研究揭示了原生多模态模型Scaling Laws的关键规律,为多模态学习领域提供了宝贵的 insights。研究表明,早融合和后融合架构各有优劣,MoE模型具有巨大的潜力,NMM的Scaling Laws与LLM相似。
未来,研究人员可以进一步探索MoE模型在多模态学习中的应用,优化早融合和后融合架构,并深入研究NMM的Scaling Laws,从而推动多模态人工智能的发展。
参考文献:
- Scaling Laws for Native Multimodal Models: https://arxiv.org/abs/2504.07951
Views: 0