块扩散模型加速大模型推理
值得看指数 77.0 NO. 003 · 2026.05.08
Stars3,417
为什么值得看
DFlash 是一个轻量级块扩散模型,专为投机解码(speculative decoding)设计,通过并行起草实现高效高质量的 token 生成。已支持 Gemma-4、Qwen3.6、MiniMax 等主流模型,对部署大模型推理服务的团队有直接降本价值。
DFlash: Block Diffusion for Flash Speculative Decoding
媒体预览
编辑判断
投机解码的瓶颈一直在于 draft 模型的质量与速度权衡——Medusa、Eagle 这类方法虽然有效,但训练成本高或依赖特定架构。DFlash 用块扩散的思路把并行度拉起来,关键是它做到了"轻量",从支持模型列表看已经覆盖了 MoE 和 dense 两种主流架构。
如果你在用 vLLM 或 SGLang 做推理服务部署,可以重点测一下 DFlash 的 acceptance rate 对比 Eagle-2 的表现,特别是在长序列场景下扩散模型的优势会更明显。目前 3.4k star 且刚上 Trending,说明社区关注度在快速爬升。
Star History
生态分析
Experimental
块扩散投机解码早期探索者,填补大模型推理加速的空白细分赛道
独特价值:首个专为投机解码设计的块扩散模型,并行起草降低推理成本