上海枫泾古镇正门_20240824上海枫泾古镇正门_20240824

摘要: 扩散模型(diffusion model)的先驱者之一 Stefano Ermon 创立的 Inception Labs 公司,发布了首个商业级扩散大型语言模型(dLLM)Mercury。该模型在速度和效率上表现卓越,或将对当前以自回归模型为主导的LLM格局产生重大影响。

北京 – 人工智能领域正经历着快速的变革,Transformer 和扩散模型作为两种最热门的模型架构,吸引了众多研究团队的目光。然而,此前将二者融合的研究成果大多停留在探索阶段,未能实现大规模商业应用。近日,由扩散模型的重要贡献者 Stefano Ermon 联合创立的 Inception Labs 公司,发布了首个商业级扩散大型语言模型(dLLM)Mercury,为这一领域带来了新的突破。

Mercury 模型在英伟达 H100 上的运行速度超过每秒 1000 个 token,且性能不逊于经过速度优化的现有 LLM。官方展示的对比示例显示,在编写 LLM 推理函数的任务中,Mercury 仅需 14 次迭代即可完成,而传统的自回归模型则需要 75 次,速度优势显著。

Inception Labs 的创始人之一 Stefano Ermon 不仅是扩散模型的发明者之一,也是 FlashAttention 原始论文的作者之一。该公司推出的 Mercury 系列模型,借鉴了 MidJourney 和 Sora 等图像、视频生成系统的灵感,引入了一种新的语言生成方法。据 Inception Labs 联合创始人 Volodymyr Kuleshov 介绍,这种方法具有更高的运行效率和更低的推理成本,有望将推理成本降低 10 倍。

Mercury 系列中的编程模型 Mercury Coder 在性能上可与 Claude Haiku 和 GPT4o-mini 等针对速度指标优化过的模型相媲美。更重要的是,Mercury Coder 的硬件效率更高,因为它利用 GPU 的并行生成机制,从而实现更快的速度和更低的成本。目前,Mercury Coder 已上线,供公众试用,Inception Labs 还为企业用户提供代码和通用模型的 API 和内部部署服务。

著名 AI 研究科学家 Andrej Karpathy 对 Mercury 的发布表示赞赏,他指出,与传统的自回归 LLM 从左到右预测 token 的方式不同,扩散模型能够一次性向所有方向进行预测,从噪声开始,逐步去噪成 token 流。尽管之前的研究表明文本可能更适合自回归范式,而扩散模型更适合图像和视频,但 Mercury 的出现证明了扩散模型在文本模态上也具有极大的潜力。

Inception Labs 认为,当前的 LLM 主要依赖于自回归模型,其生成过程本质上是顺序式的,每个 token 的生成都需要评估一个包含数十亿参数的神经网络。为了提高模型的推理和纠错能力,需要进行范式转变,而扩散模型恰好提供了这样的机会。

扩散模型的生成过程是“从粗到细”,从纯噪声开始,通过一系列“去噪”步骤逐步细化。由于不受限于仅考虑之前输出的限制,扩散模型在推理和结构化响应方面表现更好,并且能够纠正错误和幻觉。

Mercury Coder 作为 Inception Labs 向公众开放的首个 dLLM,其性能表现出色,在标准编码基准测试中超越了 GPT-4o Mini 和 Claude 3.5 Haiku 等自回归模型,同时速度提高了多达 10 倍。即使是经过速度优化的自回归模型,最多也只能达到每秒 200 个 token,而 Mercury Coder 在商用 NVIDIA 硬件上可以达到每秒 1000 多个 token。

结论:

Inception Labs 发布的 Mercury dLLM,凭借其卓越的速度、效率和创新性的生成方式,为 LLM 领域带来了新的可能性。如果 Mercury 能够持续发展并得到广泛应用,或将对当前以自回归模型为主导的 LLM 格局产生重大影响,推动人工智能技术的进一步发展。

参考文献:


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注