AI21开源首个Mamba架构大模型：Jamba问世

AI21 Labs 开源首个基于Mamba 架构的大模型 Jamba，性能超越同类模型

以色列人工智能公司 AI21 Labs近日宣布开源首个基于 Mamba 架构的大语言模型 Jamba，该模型结合了 Mamba 结构化状态空间模型 (SSM) 和传统 Transformer 架构，在性能和效率方面展现出显著优势。

Jamba 的发布标志着大模型架构的一次重要革新。目前，大多数主流大模型，如 GPT、Gemini 和 Llama，都基于 Transformer 结构。而 Jamba 则将 Mamba SSM 与 Transformer 架构相结合，创造了一种全新的混合架构，兼具高质量输出、高吞吐量和低内存占用的优点。

Jamba 的主要特点包括：

SSM-Transformer 混合架构： Jamba 是首个采用 Mamba SSM 与 Transformer 架构相结合的生产级模型。这种混合架构旨在提升模型的性能和效率，使其能够更有效地处理复杂的任务。
大容量上下文窗口： Jamba 提供了 256K 的上下文窗口，能够处理更长的文本序列，适用于更复杂的自然语言处理任务，例如摘要、问答和代码生成。
高吞吐量： 与同等规模的 Mixtral 8x7B 模型相比，Jamba 在处理长上下文时实现了 3 倍的吞吐量提升，可以更高效地处理大量数据。
单 GPU 大容量处理： Jamba能够在单个 GPU 上处理高达 140K 的上下文，显著提高了模型的可访问性和部署的灵活性。
开放权重许可： Jamba 的权重以 Apache 2.0 许可发布，为研究者和开发者提供了自由使用、修改和优化模型的权限，促进了技术的共享和创新。
NVIDIA API 集成： Jamba 将作为 NVIDIA NIM 推理微服务在 NVIDIA API 目录中提供，使得企业开发者可以利用 NVIDIA AI Enterprise 软件平台轻松部署 Jamba 模型。
优化的 MoE 层：Jamba 利用混合结构中的 MoE (混合专家) 层，在推理时只激活部分参数，提高了模型的运行效率和性能。

Jamba 的性能对比：

根据 AI21 Labs 的报告，Jamba 模型在各种基准测试中展示了优秀的结果，在广泛的任务测试中与同尺寸类别中最先进的模型相当甚至超越，例如 Llama2 13B、Llama2 70B、Gemma 7B、Mixtral 8×7B。

Jamba 的技术架构：

Jamba 架构采用块和层方法，使 Jamba 能够成功集成 Mamba SSM 和 Transformer 两种架构。每个 Jamba 块包含一个注意力层或一个 Mamba 层，后跟一个多层感知器 (MLP)，从而产生每八层中一个 Transformer 层的总体比例。

此外，Jamba 利用 MoE 来增加模型参数的总数，同时简化推理中使用的活动参数的数量，从而在计算需求没有相应增加的情况下获得更高的模型容量。为了最大限度地提高单个 80GB GPU 上的模型质量和吞吐量，AI21 Labs 优化了所使用的 MoE 层和专家的数量，为常见推理工作负载留下了足够的可用内存。

Jamba 的发布对于大模型领域具有重要的意义。 它不仅为研究者和开发者提供了一个新的、更强大的工具，也为大模型的应用开辟了新的可能性。随着 Jamba 的不断发展和完善，我们有理由相信它将在未来发挥更加重要的作用，推动人工智能技术的进步。

Jamba 的官方资源：

官方项目主页：https://www.ai21.com/jamba
官方博客介绍：https://www.ai21.com/blog/announcing-jamba
Hugging Face 地址：https://huggingface.co/ai21labs/Jamba-v0.1

【source】https://ai-bot.cn/ai21-jamba/

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

AI21开源首个Mamba架构大模型：Jamba问世

作者智能小编

AI21 Labs 开源首个基于Mamba 架构的大模型 Jamba，性能超越同类模型

相关文章

SpaceX崛起史：一切，为了去火星-实地探访星舰基地与总部

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

发表回复取消回复

为您推荐

SpaceX崛起史：一切，为了去火星-实地探访星舰基地与总部

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

作者智能小编

AI21 Labs 开源首个基于Mamba 架构的大模型 Jamba，性能超越同类模型

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复