扩散模型4倍速无损生成文本

#REPO GitHub Search 2026.05.17

推荐指数 78.0 NO. 002 · 2026.05.17

Stars196创建2 天前Forks4Issues4

为什么值得看

Orthrus 用双视图扩散架构让 LLM 像扩散模型一样并行生成 token，在 Qwen3 上实现 4.25 倍加速且保证严格无损。这对推理成本敏感的 AI 产品团队是实质性利好，可能改变自回归生成的工程范式。

Fast, lossless LLM inference via dual-view diffusion decoding.

媒体预览

编辑判断

自回归生成的串行依赖一直是 LLM 推理的瓶颈，之前的主流解法是用 Medusa、Lookahead 这类投机采样做 draft-then-verify，但草稿模型本身有额外开销且加速比不稳定。Orthrus 的核心差异是把扩散的并行去噪直接嫁接到 AR 模型的隐空间，不需要草稿模型，也不需要修改训练目标就能保证输出和原模型 bit-level 一致。

目前 1.7B 和 4B 的模型已经放出，但更大的模型能不能保持这个加速比、以及和 vLLM/SGLang 这些生产级推理引擎的兼容性如何，还需要实测验证。如果你在跑高并发文本生成服务，建议先用 Qwen3-1.7B 的 checkpoint 跑个 latency-throughput 的对比 benchmark。

Star History

生态分析

Experimental

首个将扩散并行解码引入LLM推理的先锋项目，探索自回归范式替代方案

独特价值：双视图扩散实现严格无损加速，突破自回归串行生成瓶颈

查看原文 →