“`markdown
DeepSeek 开源通用矩阵乘法库 DeepGEMM:300 行代码加速 AI 模型,R2 大模型或提前至五月发布
北京 – 中国人工智能公司 DeepSeek 近日开源了一款名为 DeepGEMM 的通用矩阵乘法(GEMM)库,该库仅用 300 行代码,即可显著加速 V3 和 R1 模型的训练与推理。与此同时,有消息称 DeepSeek 正在加速研发下一代 R2 大模型,预计将在五月之前发布。
DeepGEMM 是一款支持密集型和专家混合(MoE)GEMM 的 FP8 GEMM 库,专为 V3/R1 的训练和推理提供支持。据官方数据,在英伟达 Hopper GPU 上,DeepGEMM 可以达到 1350+ FP8 TFLOPS 的计算性能。
DeepGEMM:简洁高效的 FP8 解决方案
DeepGEMM 的核心优势在于其简洁性和高效性。该库采用了 DeepSeek-V3 中提出的细粒度 scaling 技术,支持普通 GEMM 以及专家混合(MoE)分组 GEMM。DeepGEMM 使用 CUDA 编写,并通过 Just-In-Time(JIT)模块在运行时编译内核,无需编译过程。
为了解决 FP8 张量核心累加不精确的问题,DeepGEMM 采用了 CUDA 核心的两级累加机制。尽管借鉴了 CUTLASS 和 CuTe 的一些概念,但 DeepGEMM 避免了对其模板或代数的重度依赖,仅包含一个核心内核函数,代码量仅为 300 行。
DeepSeek 官方表示,DeepGEMM 在各种矩阵形状上的性能与专家调优的库相当,甚至在某些情况下更优。
性能测试与配置要求
DeepSeek 在 H800 上使用 NVCC 12.8 测试了 DeepSeek-V3/R1 推理中可能使用的所有形状,最高可以实现 2.7 倍加速。所有加速指标均基于内部精心优化的 CUTLASS 3.6 实现。
要使用 DeepGEMM,需要满足以下配置要求:
- Hopper 架构的 GPU (sm_90a)
- Python 3.8 或更高版本
- CUDA 12.3 或更高版本(推荐 12.8 或更高版本)
- PyTorch 2.1 或更高版本
- CUTLASS 3.6 或更高版本
R2 大模型或提前发布
在 DeepSeek 开源 DeepGEMM 的同时,路透社报道称,DeepSeek 可能会在五月之前发布下一代 R2 模型。据知情人士透露,DeepSeek 正在加速推出 R1 强推理大模型的后续版本,并希望新模型拥有更强大的代码生成能力,并能够推理除英语以外的语言。
DeepSeek 的技术实力与企业文化
DeepSeek 在北京开设的办公室距离清华、北大很近。据两名前员工称,DeepSeek 创始人梁文锋经常会与工程师们深入研究技术细节,并乐于与实习生、应届毕业生一起工作。
结论
DeepSeek 开源 DeepGEMM,展示了其在 AI 基础设施领域的实力。DeepGEMM 以其简洁高效的设计,为 AI 模型的加速提供了新的解决方案。R2 大模型的提前发布,也预示着 DeepSeek 在大模型领域的持续发力。
参考文献
- DeepSeek 开源 DeepGEMM 项目:https://github.com/deepseek-ai/DeepGEMM
- 机器之心相关报道:DeepSeek开源通用矩阵乘法库,300行代码加速V3、R1,R2被曝五月前问世
- 路透社相关报道:(请自行搜索相关路透社报道)
“`
Views: 0
