AI21 Labs 开源首个基于Mamba 架构的大模型 Jamba,性能超越同类模型
以色列人工智能公司 AI21 Labs近日宣布开源首个基于 Mamba 架构的大语言模型 Jamba,该模型结合了 Mamba 结构化状态空间模型 (SSM) 和传统 Transformer 架构,在性能和效率方面展现出显著优势。
Jamba 的发布标志着大模型架构的一次重要革新。目前,大多数主流大模型,如 GPT、Gemini 和 Llama,都基于 Transformer 结构。而 Jamba 则将 Mamba SSM 与 Transformer 架构相结合,创造了一种全新的混合架构,兼具高质量输出、高吞吐量和低内存占用的优点。
Jamba 的主要特点包括:
- SSM-Transformer 混合架构: Jamba 是首个采用 Mamba SSM 与 Transformer 架构相结合的生产级模型。这种混合架构旨在提升模型的性能和效率,使其能够更有效地处理复杂的任务。
- 大容量上下文窗口: Jamba 提供了 256K 的上下文窗口,能够处理更长的文本序列,适用于更复杂的自然语言处理任务,例如摘要、问答和代码生成。
- 高吞吐量: 与同等规模的 Mixtral 8x7B 模型相比,Jamba 在处理长上下文时实现了 3 倍的吞吐量提升,可以更高效地处理大量数据。
- 单 GPU 大容量处理: Jamba能够在单个 GPU 上处理高达 140K 的上下文,显著提高了模型的可访问性和部署的灵活性。
- 开放权重许可: Jamba 的权重以 Apache 2.0 许可发布,为研究者和开发者提供了自由使用、修改和优化模型的权限,促进了技术的共享和创新。
- NVIDIA API 集成: Jamba 将作为 NVIDIA NIM 推理微服务在 NVIDIA API 目录中提供,使得企业开发者可以利用 NVIDIA AI Enterprise 软件平台轻松部署 Jamba 模型。
- 优化的 MoE 层:Jamba 利用混合结构中的 MoE (混合专家) 层,在推理时只激活部分参数,提高了模型的运行效率和性能。
Jamba 的性能对比:
根据 AI21 Labs 的报告,Jamba 模型在各种基准测试中展示了优秀的结果,在广泛的任务测试中与同尺寸类别中最先进的模型相当甚至超越,例如 Llama2 13B、Llama2 70B、Gemma 7B、Mixtral 8×7B。
Jamba 的技术架构:
Jamba 架构采用块和层方法,使 Jamba 能够成功集成 Mamba SSM 和 Transformer 两种架构。每个 Jamba 块包含一个注意力层或一个 Mamba 层,后跟一个多层感知器 (MLP),从而产生每八层中一个 Transformer 层的总体比例。
此外,Jamba 利用 MoE 来增加模型参数的总数,同时简化推理中使用的活动参数的数量,从而在计算需求没有相应增加的情况下获得更高的模型容量。为了最大限度地提高单个 80GB GPU 上的模型质量和吞吐量,AI21 Labs 优化了所使用的 MoE 层和专家的数量,为常见推理工作负载留下了足够的可用内存。
Jamba 的发布对于大模型领域具有重要的意义。 它不仅为研究者和开发者提供了一个新的、更强大的工具,也为大模型的应用开辟了新的可能性。随着 Jamba 的不断发展和完善,我们有理由相信它将在未来发挥更加重要的作用,推动人工智能技术的进步。
Jamba 的官方资源:
- 官方项目主页:https://www.ai21.com/jamba
- 官方博客介绍:https://www.ai21.com/blog/announcing-jamba
- Hugging Face 地址:https://huggingface.co/ai21labs/Jamba-v0.1
【source】https://ai-bot.cn/ai21-jamba/
Views: 3