AMAZINGINDEX.COM 每日 AI 简报
59.1
VOL. 2026.05
2026.05.08
← 返回 2026.05.08 日报
日报快照 · Daily Snapshot
NO. 003

块扩散模型加速大模型推理

#REPO GitHub Trending 2026.05.08
值得看指数 77.0 NO. 003 · 2026.05.08
Stars3,417

DFlash 是一个轻量级块扩散模型,专为投机解码(speculative decoding)设计,通过并行起草实现高效高质量的 token 生成。已支持 Gemma-4、Qwen3.6、MiniMax 等主流模型,对部署大模型推理服务的团队有直接降本价值。

DFlash: Block Diffusion for Flash Speculative Decoding

块扩散模型加速大模型推理

投机解码的瓶颈一直在于 draft 模型的质量与速度权衡——Medusa、Eagle 这类方法虽然有效,但训练成本高或依赖特定架构。DFlash 用块扩散的思路把并行度拉起来,关键是它做到了"轻量",从支持模型列表看已经覆盖了 MoE 和 dense 两种主流架构。

如果你在用 vLLM 或 SGLang 做推理服务部署,可以重点测一下 DFlash 的 acceptance rate 对比 Eagle-2 的表现,特别是在长序列场景下扩散模型的优势会更明显。目前 3.4k star 且刚上 Trending,说明社区关注度在快速爬升。

Star History
Experimental

块扩散投机解码早期探索者,填补大模型推理加速的空白细分赛道

独特价值:首个专为投机解码设计的块扩散模型,并行起草降低推理成本

查看原文 →