硅谷消息 – Meta 在周日发布了其最新的 Llama 4 系列模型,再次震撼了开源 AI 领域。这一系列模型基于混合专家(MoE)架构,旨在提供卓越的性能和效率,挑战现有领先模型,并为多模态 AI 创新开辟新纪元。
此次发布包括 Llama 4 Scout 和 Llama 4 Maverick 两款模型,以及预告中的 Llama 4 Behemoth。Meta 毫不掩饰其雄心壮志,称前两者是“我们迄今为止最先进的型号,也是同类产品中最好的多模态型号”。
Llama 4 系列亮点:
- Llama 4 Scout: 拥有 170 亿激活参数,由 16 位专家组成的多模态模型,可在单个 H100 GPU 上运行,并提供 100 万上下文窗口。
- Llama 4 Maverick: 同样拥有 170 亿激活参数,但由 128 位专家组成的多模态模型,性能超越 GPT-4o 和 Gemini 2.0 Flash,代码能力与 DeepSeek-V3 相当,但参数量减半,可在单个 H100 主机上运行。
- Llama 4 Behemoth: 拥有高达 2 万亿参数的超大模型,由前两者蒸馏而来,目前仍在训练中,但在多个基准测试中超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
Meta 官方推特称,Llama 4 模型标志着 Llama 生态系统新时代的开始,是原生多模态 AI 创新的起点。
性能卓越,登顶开源模型榜首
Llama 4 Maverick 在大模型竞技场排名中表现出色,在困难提示、编码、数学和创意写作方面并列第一,得分 1417,超越了 Meta 之前的 Llama-3-405B(提升 149 分),成为史上第四个突破 1400 分的模型。更重要的是,其跑分超越了 DeepSeek-V3,直接登顶开源模型榜首。
谷歌 CEO Sundar Pichai 第一时间发来祝贺,称“AI 世界,从不平淡!恭喜呀!前进吧,Llama 4 团队!”
中杯和大杯:Llama 4 Scout 和 Llama 4 Maverick
目前,Llama 4 Scout 和 Llama 4 Maverick 已经可以在 Llama 官网和 Hugging Face 上下载。
- MoE 架构: Llama 4 系列是 Llama 系列中首批使用 MoE 架构构建的模型。Llama 4 Scout 拥有 16 个专家模型,而 Llama 4 Maverick 拥有 128 个专家模型。
- 超长上下文: Llama 4 系列具有超长的上下文窗口。Llama 4 Scout 提供行业领先的 100 万上下文窗口,经过预训练和后训练,长度为 256K,使其具有高级长度泛化能力。
- 原生多模态设计: Llama 4 系列开启了 Llama 的原生多模态时代。用户可以上传图片,并直接在对话框中提问关于图片的问题。
- 语言天赋: Llama 4 经过预训练和微调,掌握全球 12 种语言,方便全球开发者部署。
价格优势,挑战市场格局
Meta 在模型 API 价格方面也采取了积极策略,Llama 4 Maverick 不仅超越了同类型号的其他模型,价格也极具竞争力,甚至比 DeepSeek 更具优势。
训练细节:
Meta 对 Llama 系列进行了彻底的重新设计。Llama 4 系列首次使用混合专家 MoE 架构,在 MoE 架构中,单个 token 仅激活总参数的一小部分,从而提高了计算效率。
Meta 还开发了一种新的训练技术 MetaP,可以设置关键模型超参数,并在 200 种语言上进行预训练,实现了开源微调工作。
未来展望
Llama 4 系列的发布,无疑将加速开源 AI 的发展,并为开发者提供更强大、更高效、更经济的模型选择。随着 Llama 4 Behemoth 的发布,以及 Meta 在多模态 AI 领域的持续投入,我们有理由期待 Llama 系列在未来能够带来更多惊喜。
参考文献
- Meta AI Blog: https://ai.meta.com/blog/
- Hugging Face: https://huggingface.co/
- Llama Official Website: (假设存在,请补充)
作者注: 本文力求信息准确、客观,所有数据均来自公开信息。欢迎读者提出宝贵意见和建议。
Views: 1