扩散模型4倍速无损生成文本
Orthrus 用双视图扩散架构让 LLM 像扩散模型一样并行生成 token,在 Qwen3 上实现 4.25 倍加速且保证严格无损。这对推理成本敏感的 AI 产品团队是实质性利好,可能改变自回归生成的工程范式。
Accelerate 是 Haskell 嵌入式 DSL,通过 CUDA/OpenCL 后端将数组计算编译到 GPU 执行。对函数式编程团队来说,这是少有的能直接生成高性能 GPU 代码的静态类型方案,避免了手写 CUDA 的繁琐和 Python 动态类型的运行时开销。
这个项目 2009 年启动、2010 年代活跃,近年维护放缓,但最近社区有重新活跃的苗头。Haskell 生态做数值计算的团队此前要么用 repa(纯 CPU)、要么用 awkward 的 FFI 调 CUDA,Accelerate 是唯一能把 fusion optimization 和 GPU codegen 串起来的完整方案。
跟 Julia 的 CUDA.jl 或 Python 的 Numba 比,Accelerate 的优势在编译期优化更激进(Haskell 的 lazy evaluation 适合做 fusion),劣势是生态极小、调试困难。如果你在做量化金融或编译器研究,且团队已有 Haskell 基础,可以评估作为特定内核的替代方案;否则不建议迁移。
核心争论:Haskell GPU DSL 的命名争议与生态位价值:是实用的数值计算补充,还是已落后于 Python/JAX 生态
aren't there like dozens of similar things with pretty much the same name?
Maybe. Nothing else in Haskell named similarly, so it's not confusing. also, accelerate was first published to Hackage in 2009 though so it isn't an especially new thing.
I think we ran out of `$NameFast` and `Fast$Name`, so people are just using plain verbs as names now, ideally as similar to something existing as possible, so you can attempt to steal their SEO and similar nifty "growth hacking" stuff.