扩散模型4倍速无损生成文本
Orthrus 用双视图扩散架构让 LLM 像扩散模型一样并行生成 token,在 Qwen3 上实现 4.25 倍加速且保证严格无损。这对推理成本敏感的 AI 产品团队是实质性利好,可能改变自回归生成的工程范式。
Orthrus 用双视图扩散架构让 LLM 像扩散模型一样并行生成 token,在 Qwen3 上实现 4.25 倍加速且保证严格无损。这对推理成本敏感的 AI 产品团队是实质性利好,可能改变自回归生成的工程范式。
Fast, lossless LLM inference via dual-view diffusion decoding.
自回归生成的串行依赖一直是 LLM 推理的瓶颈,之前的主流解法是用 Medusa、Lookahead 这类投机采样做 draft-then-verify,但草稿模型本身有额外开销且加速比不稳定。Orthrus 的核心差异是把扩散的并行去噪直接嫁接到 AR 模型的隐空间,不需要草稿模型,也不需要修改训练目标就能保证输出和原模型 bit-level 一致。
目前 1.7B 和 4B 的模型已经放出,但更大的模型能不能保持这个加速比、以及和 vLLM/SGLang 这些生产级推理引擎的兼容性如何,还需要实测验证。如果你在跑高并发文本生成服务,建议先用 Qwen3-1.7B 的 checkpoint 跑个 latency-throughput 的对比 benchmark。
首个将扩散并行解码引入LLM推理的先锋项目,探索自回归范式替代方案
独特价值:双视图扩散实现严格无损加速,突破自回归串行生成瓶颈