上海的陆家嘴

“`markdown

DeepSeek 开源通用矩阵乘法库 DeepGEMM:300 行代码加速 AI 模型,R2 大模型或提前至五月发布

北京 – 中国人工智能公司 DeepSeek 近日开源了一款名为 DeepGEMM 的通用矩阵乘法(GEMM)库,该库仅用 300 行代码,即可显著加速 V3 和 R1 模型的训练与推理。与此同时,有消息称 DeepSeek 正在加速研发下一代 R2 大模型,预计将在五月之前发布。

DeepGEMM 是一款支持密集型和专家混合(MoE)GEMM 的 FP8 GEMM 库,专为 V3/R1 的训练和推理提供支持。据官方数据,在英伟达 Hopper GPU 上,DeepGEMM 可以达到 1350+ FP8 TFLOPS 的计算性能。

DeepGEMM:简洁高效的 FP8 解决方案

DeepGEMM 的核心优势在于其简洁性和高效性。该库采用了 DeepSeek-V3 中提出的细粒度 scaling 技术,支持普通 GEMM 以及专家混合(MoE)分组 GEMM。DeepGEMM 使用 CUDA 编写,并通过 Just-In-Time(JIT)模块在运行时编译内核,无需编译过程。

为了解决 FP8 张量核心累加不精确的问题,DeepGEMM 采用了 CUDA 核心的两级累加机制。尽管借鉴了 CUTLASS 和 CuTe 的一些概念,但 DeepGEMM 避免了对其模板或代数的重度依赖,仅包含一个核心内核函数,代码量仅为 300 行。

DeepSeek 官方表示,DeepGEMM 在各种矩阵形状上的性能与专家调优的库相当,甚至在某些情况下更优。

性能测试与配置要求

DeepSeek 在 H800 上使用 NVCC 12.8 测试了 DeepSeek-V3/R1 推理中可能使用的所有形状,最高可以实现 2.7 倍加速。所有加速指标均基于内部精心优化的 CUTLASS 3.6 实现。

要使用 DeepGEMM,需要满足以下配置要求:

  • Hopper 架构的 GPU (sm_90a)
  • Python 3.8 或更高版本
  • CUDA 12.3 或更高版本(推荐 12.8 或更高版本)
  • PyTorch 2.1 或更高版本
  • CUTLASS 3.6 或更高版本

R2 大模型或提前发布

在 DeepSeek 开源 DeepGEMM 的同时,路透社报道称,DeepSeek 可能会在五月之前发布下一代 R2 模型。据知情人士透露,DeepSeek 正在加速推出 R1 强推理大模型的后续版本,并希望新模型拥有更强大的代码生成能力,并能够推理除英语以外的语言。

DeepSeek 的技术实力与企业文化

DeepSeek 在北京开设的办公室距离清华、北大很近。据两名前员工称,DeepSeek 创始人梁文锋经常会与工程师们深入研究技术细节,并乐于与实习生、应届毕业生一起工作。

结论

DeepSeek 开源 DeepGEMM,展示了其在 AI 基础设施领域的实力。DeepGEMM 以其简洁高效的设计,为 AI 模型的加速提供了新的解决方案。R2 大模型的提前发布,也预示着 DeepSeek 在大模型领域的持续发力。

参考文献


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注