DeepSeek开源矩阵乘法库，加速AI模型！

作者智能小编

2 月 27, 2025 #DeepSeek, #机器之心, #矩阵

上海的陆家嘴

“`markdown

DeepSeek 开源通用矩阵乘法库 DeepGEMM：300 行代码加速 AI 模型，R2 大模型或提前至五月发布

北京 – 中国人工智能公司 DeepSeek 近日开源了一款名为 DeepGEMM 的通用矩阵乘法（GEMM）库，该库仅用 300 行代码，即可显著加速 V3 和 R1 模型的训练与推理。与此同时，有消息称 DeepSeek 正在加速研发下一代 R2 大模型，预计将在五月之前发布。

DeepGEMM 是一款支持密集型和专家混合（MoE）GEMM 的 FP8 GEMM 库，专为 V3/R1 的训练和推理提供支持。据官方数据，在英伟达 Hopper GPU 上，DeepGEMM 可以达到 1350+ FP8 TFLOPS 的计算性能。

DeepGEMM：简洁高效的 FP8 解决方案

DeepGEMM 的核心优势在于其简洁性和高效性。该库采用了 DeepSeek-V3 中提出的细粒度 scaling 技术，支持普通 GEMM 以及专家混合（MoE）分组 GEMM。DeepGEMM 使用 CUDA 编写，并通过 Just-In-Time（JIT）模块在运行时编译内核，无需编译过程。

为了解决 FP8 张量核心累加不精确的问题，DeepGEMM 采用了 CUDA 核心的两级累加机制。尽管借鉴了 CUTLASS 和 CuTe 的一些概念，但 DeepGEMM 避免了对其模板或代数的重度依赖，仅包含一个核心内核函数，代码量仅为 300 行。

DeepSeek 官方表示，DeepGEMM 在各种矩阵形状上的性能与专家调优的库相当，甚至在某些情况下更优。

性能测试与配置要求

DeepSeek 在 H800 上使用 NVCC 12.8 测试了 DeepSeek-V3/R1 推理中可能使用的所有形状，最高可以实现 2.7 倍加速。所有加速指标均基于内部精心优化的 CUTLASS 3.6 实现。

要使用 DeepGEMM，需要满足以下配置要求：

Hopper 架构的 GPU (sm_90a)
Python 3.8 或更高版本
CUDA 12.3 或更高版本（推荐 12.8 或更高版本）
PyTorch 2.1 或更高版本
CUTLASS 3.6 或更高版本

R2 大模型或提前发布

在 DeepSeek 开源 DeepGEMM 的同时，路透社报道称，DeepSeek 可能会在五月之前发布下一代 R2 模型。据知情人士透露，DeepSeek 正在加速推出 R1 强推理大模型的后续版本，并希望新模型拥有更强大的代码生成能力，并能够推理除英语以外的语言。

DeepSeek 的技术实力与企业文化

DeepSeek 在北京开设的办公室距离清华、北大很近。据两名前员工称，DeepSeek 创始人梁文锋经常会与工程师们深入研究技术细节，并乐于与实习生、应届毕业生一起工作。

结论

DeepSeek 开源 DeepGEMM，展示了其在 AI 基础设施领域的实力。DeepGEMM 以其简洁高效的设计，为 AI 模型的加速提供了新的解决方案。R2 大模型的提前发布，也预示着 DeepSeek 在大模型领域的持续发力。

参考文献

DeepSeek 开源 DeepGEMM 项目：https://github.com/deepseek-ai/DeepGEMM
机器之心相关报道：DeepSeek开源通用矩阵乘法库，300行代码加速V3、R1，R2被曝五月前问世
路透社相关报道：(请自行搜索相关路透社报道)
“`

>>> Read more <<<

AI AI生成 NEWS 智能新闻

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

DeepSeek开源矩阵乘法库，加速AI模型！

作者智能小编

DeepSeek 开源通用矩阵乘法库 DeepGEMM：300 行代码加速 AI 模型，R2 大模型或提前至五月发布

DeepGEMM：简洁高效的 FP8 解决方案

性能测试与配置要求

R2 大模型或提前发布

DeepSeek 的技术实力与企业文化

结论

参考文献

相关文章

当“建工爷叔”网红流量撞上金矿与机器人传闻，周期困境中的上海建工（600170.SH）能否迎来价值重估？

超越包裹：解构顺丰控股（002352.SZ）向综合物流巨头的转型估值与长期价值

华域汽车 (600741.SH): 传统巨擘的电动化转身——深度估值与战略剖析

发表回复取消回复

为您推荐

英维克 (002837.SZ): AI浪潮下的液冷巨擘，高速增长与运营挑战并存

阳光电源（300274.SZ）：储能开启第二成长曲线，价值重估在即的全球光储巨擘

上海电气（601727.SH）：绿色转型催化剂——在周期性巨擘中探寻新质生产力价值

宁德时代（300750.SZ）：储能与全球化驱动下的价值重估

作者智能小编

DeepSeek 开源通用矩阵乘法库 DeepGEMM：300 行代码加速 AI 模型，R2 大模型或提前至五月发布

DeepGEMM：简洁高效的 FP8 解决方案

性能测试与配置要求

R2 大模型或提前发布

DeepSeek 的技术实力与企业文化

结论

参考文献

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复