AMAZINGINDEX.COM 每日 AI 简报
58.2
VOL. 2026.04
2026.04.19
← 返回 2026.04.19 日报
日报快照 · Daily Snapshot
NO. 001

DeepSeek开源JIT高性能推理内核

#REPO GitHub Trending 2026.04.19
值得看指数 93.0 NO. 001 · 2026.04.19
Stars6,485

DeepGEMM是DeepSeek开源的CUDA内核库,统一支持FP8/FP4 GEMM、融合MoE等LLM核心计算,采用JIT运行时编译无需预编译安装。相比CUTLASS的模板复杂度,它以极简代码实现极致性能,适合需要定制CUDA算子的推理团队快速迭代。

DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling

做LLM推理优化的团队之前要么忍受CUTLASS繁重的模板元编程,要么手写CUDA内核维护成本极高。DeepGEMM用轻量级JIT方案绕过了CUTLASS的编译时复杂度,同时保持接近手写CUDA的性能,且原生支持FP8/FP4等新精度。

如果你正在做MoE模型的推理部署或需要定制GEMM算子适配新硬件,这个库比直接啃CUTLASS门槛低得多,建议先看Mega MoE和FP8 GEMM的实现对比自家栈的差距。

Star History
查看原文 →