Meta Llama 4：开源多模态AI，王者归来！

摘要： Meta公司近日发布了其最新的开源多模态AI模型Llama 4，该模型凭借其混合专家（MoE）架构、强大的语言和图像理解能力，以及高效的推理性能，重新确立了Meta在开源AI领域的领先地位。Llama 4不仅支持多种语言，还具备处理长文本和复杂代码库的能力，为开发者和研究人员提供了强大的工具。

引言： 在人工智能领域，开源模型扮演着至关重要的角色，它们加速了技术创新，降低了开发门槛。Meta公司一直致力于开源AI的发展，而Llama系列模型正是其重要的贡献。随着Llama 4的发布，Meta再次向世界展示了其在AI技术上的实力，并为开源社区注入了新的活力。

Llama 4：技术细节与创新

Llama 4是Meta首个采用混合专家（MoE）架构的Llama系列模型。MoE架构将模型划分为多个“专家”子模型，每个子模型专注于特定的任务。在处理用户查询时，模型会选择激活相关的专家子模型，从而提高推理效率，降低计算成本。

Llama 4目前有两个主要版本：Scout和Maverick。

Scout： 拥有170亿个活跃参数和1090亿个总参数，支持高达1000万tokens的上下文窗口，这意味着它可以处理超过20小时的视频内容。Scout在单个H100 GPU上即可运行，性能超越了Gemma 3等模型，适用于总结长文档和基于大型代码库推理等任务。
Maverick： 同样拥有170亿个活跃参数，但总参数高达4000亿。Maverick在图像精准理解和创意写作方面表现突出，适合通用助手和聊天类应用。在大型模型LMSYS排行榜上，Maverick位居第二。
Llama 4 Behemoth: 预览版本，还在训练中，拥有2万亿参数在 STEM 基准测试中表现优异。

Llama 4的技术亮点还包括：

原生多模态设计： Llama 4采用早期融合技术，能将文本和视觉token无缝整合到一个统一的模型框架里，实现对文本、图像和视频数据的综合处理。
模型超参数优化： Meta开发了MetaP新训练方法，能更靠谱地设置关键的模型超参数，如每层的学习率和初始化规模，这些超参数在不同的批大小、模型宽度、深度和训练 token 量上都能很好地适配。
高效的模型训练： 采用FP8精度，既不牺牲质量，又能保证模型的高 FLOPs 利用率。训练数据包含超过 30 万亿个 token，涵盖文本、图片和视频数据集。
后训练流程优化： 训练流程为轻量级监督微调（SFT）> 在线强化学习（RL）> 轻量级直接偏好优化（DPO）。

Llama 4的应用场景

Llama 4强大的功能使其在多个领域具有广泛的应用前景：