扩散模型作者创业：商业级扩散LLM震撼登场！

摘要： 扩散模型（diffusion model）的先驱者之一 Stefano Ermon 创立的 Inception Labs 公司，发布了首个商业级扩散大型语言模型（dLLM）Mercury。该模型在速度和效率上表现卓越，或将对当前以自回归模型为主导的LLM格局产生重大影响。

北京 – 人工智能领域正经历着快速的变革，Transformer 和扩散模型作为两种最热门的模型架构，吸引了众多研究团队的目光。然而，此前将二者融合的研究成果大多停留在探索阶段，未能实现大规模商业应用。近日，由扩散模型的重要贡献者 Stefano Ermon 联合创立的 Inception Labs 公司，发布了首个商业级扩散大型语言模型（dLLM）Mercury，为这一领域带来了新的突破。

Mercury 模型在英伟达 H100 上的运行速度超过每秒 1000 个 token，且性能不逊于经过速度优化的现有 LLM。官方展示的对比示例显示，在编写 LLM 推理函数的任务中，Mercury 仅需 14 次迭代即可完成，而传统的自回归模型则需要 75 次，速度优势显著。

Inception Labs 的创始人之一 Stefano Ermon 不仅是扩散模型的发明者之一，也是 FlashAttention 原始论文的作者之一。该公司推出的 Mercury 系列模型，借鉴了 MidJourney 和 Sora 等图像、视频生成系统的灵感，引入了一种新的语言生成方法。据 Inception Labs 联合创始人 Volodymyr Kuleshov 介绍，这种方法具有更高的运行效率和更低的推理成本，有望将推理成本降低 10 倍。

Mercury 系列中的编程模型 Mercury Coder 在性能上可与 Claude Haiku 和 GPT4o-mini 等针对速度指标优化过的模型相媲美。更重要的是，Mercury Coder 的硬件效率更高，因为它利用 GPU 的并行生成机制，从而实现更快的速度和更低的成本。目前，Mercury Coder 已上线，供公众试用，Inception Labs 还为企业用户提供代码和通用模型的 API 和内部部署服务。

著名 AI 研究科学家 Andrej Karpathy 对 Mercury 的发布表示赞赏，他指出，与传统的自回归 LLM 从左到右预测 token 的方式不同，扩散模型能够一次性向所有方向进行预测，从噪声开始，逐步去噪成 token 流。尽管之前的研究表明文本可能更适合自回归范式，而扩散模型更适合图像和视频，但 Mercury 的出现证明了扩散模型在文本模态上也具有极大的潜力。

Inception Labs 认为，当前的 LLM 主要依赖于自回归模型，其生成过程本质上是顺序式的，每个 token 的生成都需要评估一个包含数十亿参数的神经网络。为了提高模型的推理和纠错能力，需要进行范式转变，而扩散模型恰好提供了这样的机会。

扩散模型的生成过程是“从粗到细”，从纯噪声开始，通过一系列“去噪”步骤逐步细化。由于不受限于仅考虑之前输出的限制，扩散模型在推理和结构化响应方面表现更好，并且能够纠正错误和幻觉。

Mercury Coder 作为 Inception Labs 向公众开放的首个 dLLM，其性能表现出色，在标准编码基准测试中超越了 GPT-4o Mini 和 Claude 3.5 Haiku 等自回归模型，同时速度提高了多达 10 倍。即使是经过速度优化的自回归模型，最多也只能达到每秒 200 个 token，而 Mercury Coder 在商用 NVIDIA 硬件上可以达到每秒 1000 多个 token。

结论：

Inception Labs 发布的 Mercury dLLM，凭借其卓越的速度、效率和创新性的生成方式，为 LLM 领域带来了新的可能性。如果 Mercury 能够持续发展并得到广泛应用，或将对当前以自回归模型为主导的 LLM 格局产生重大影响，推动人工智能技术的进一步发展。

参考文献：