news studionews studio

好的,根据你提供的信息,我将以一名资深新闻记者和编辑的身份,撰写一篇关于Meta开源Llama 4的新闻报道。

Meta深夜开源Llama 4:首次采用MoE架构,千万Token上下文,竞技场超越DeepSeek

旧金山 — 人工智能领域再掀波澜!Meta公司于本周末深夜发布了其最新AI模型系列——Llama 4,再次展现了其在开源AI领域的雄心。此次发布的Llama 4系列包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth三款模型,不仅在技术架构上实现了重大突破,更在性能上超越了众多竞争对手,引发业界广泛关注。

技术创新:MoE架构与超长上下文

Llama 4系列最引人注目的创新之一是首次采用了混合专家(Mixture of Experts, MoE)架构。在MoE模型中,每个token仅激活总参数的一部分,从而在训练和推理时实现了更高的计算效率。以Llama 4 Maverick为例,该模型拥有170亿激活参数和4000亿总参数,通过交替的密集层和MoE层,实现了推理效率的显著提升。Meta表示,MoE架构在固定训练FLOPs预算下,相比密集模型能够提供更高的质量。

此外,Llama 4 Scout更是提供了业界领先的1000万token上下文窗口,为记忆、个性化和多模态应用解锁了新的可能性。这一超长上下文能力,使其在处理复杂任务时能够更好地理解和利用信息,从而提升性能。

性能卓越:竞技场排名超越DeepSeek

Llama 4系列的卓越性能也得到了市场的认可。在大模型竞技场(Arena)中,Llama 4 Maverick的总排名位居第二,成为第四个突破1400分的大模型。更令人瞩目的是,在开放模型中,Llama 4 Maverick排名第一,超越了DeepSeek。在困难提示词、编程、数学、创意写作等任务中,Llama 4 Maverick均名列前茅,甚至大幅超越了自家Llama 3 405B。

谷歌CEO劈查伊也对Llama 4的发布表示祝贺,并感叹“人工智能世界永远不无聊”。

多模态能力与语言支持

Llama 4系列模型采用原生多模态设计,通过早期融合将文本和视觉token无缝整合到统一的模型骨干中。这种设计使得模型能够使用大量未标记的文本、图像和视频数据进行联合预训练,从而具备更强的视觉理解能力。Llama 4在图像 grounding 方面也表现出色,能够将用户提示与相关的视觉概念对齐,并将模型响应锚定到图像中的区域。

此外,Llama 4还经过预训练和微调,能够理解12种语言的文本,为全球开发和部署提供了便利。

模型详解:Scout、Maverick与Behemoth

  • Llama 4 Scout: 拥有170亿激活参数和16个专家,是同类中全球最佳的多模态模型,且能适配单个NVIDIA H100 GPU。
  • Llama 4 Maverick: 拥有170亿个激活参数和128位专家,在广泛报道的基准测试中击败了GPT-4o和Gemini 2.0 Flash,同时在推理和编程方面取得了与新DeepSeek v3相当的结果。
  • Llama 4 Behemoth: Meta目前最强大的模型之一,在多项科学、技术、工程和数学(STEM)基准测试中,表现优于GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Pro。目前仍在训练中,后续Meta会放出更多内容。

开源战略:Meta的长期承诺

Meta GenAI负责人Ahmad Al-Dahle表示,Llama 4展示了Meta对开源AI、整个开源AI社区的长期承诺以及坚定不移的信念——开放系统将产出最好的小型、中型和即将出现的前沿大模型。

目前,用户可以在llama.com和Hugging Face上下载Llama 4 Scout和Llama 4 Maverick最新模型。

未来展望

Llama 4的发布,无疑将进一步推动人工智能技术的发展和应用。其创新的MoE架构、超长上下文能力以及卓越的性能,为开发者和研究人员提供了强大的工具。随着Llama 4 Behemoth的后续发布,我们有理由期待Meta在人工智能领域取得更大的突破。

参考文献

[完]


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注