块扩散模型加速大模型推理

#REPO GitHub Trending 2026.05.08

推荐指数 77.0 NO. 003 · 2026.05.08

Stars3,417

为什么值得看

DFlash 是一个轻量级块扩散模型，专为投机解码（speculative decoding）设计，通过并行起草实现高效高质量的 token 生成。已支持 Gemma-4、Qwen3.6、MiniMax 等主流模型，对部署大模型推理服务的团队有直接降本价值。

DFlash: Block Diffusion for Flash Speculative Decoding

媒体预览

编辑判断

投机解码的瓶颈一直在于 draft 模型的质量与速度权衡——Medusa、Eagle 这类方法虽然有效，但训练成本高或依赖特定架构。DFlash 用块扩散的思路把并行度拉起来，关键是它做到了"轻量"，从支持模型列表看已经覆盖了 MoE 和 dense 两种主流架构。

如果你在用 vLLM 或 SGLang 做推理服务部署，可以重点测一下 DFlash 的 acceptance rate 对比 Eagle-2 的表现，特别是在长序列场景下扩散模型的优势会更明显。目前 3.4k star 且刚上 Trending，说明社区关注度在快速爬升。

Star History

生态分析

Experimental

块扩散投机解码早期探索者，填补大模型推理加速的空白细分赛道

独特价值：首个专为投机解码设计的块扩散模型，并行起草降低推理成本