TurboQuant实现浏览器端3B模型推理

#ARTICLE HackerNews 2026.04.20

推荐指数 79.0 NO. 008 · 2026.04.20

发布2026/04/19Score56Comments24

为什么值得看

该项目通过TurboQuant算法将Gemma 4压缩至3GB内存，在浏览器内利用WebGPU实现30+ tok/s的Excalidraw图表生成。相比云端API，本地推理彻底消除隐私顾虑，且紧凑代码输出（50 tokens vs 5000 tokens）显著降低带宽与延迟。

编辑判断

之前浏览器跑LLM要么用WASM版llama.cpp速度慢，要么接API牺牲隐私。TurboQuant用Polar+QJL把KV缓存压到2.4倍，让3B模型在消费级显卡跑30tok/s，且用WGSL compute shader实现纯前端推理。

这对需要离线隐私的场景（如企业内网架构图生成）很有价值，零后端成本且数据不出本地。但3GB内存门槛和WebGPU subgroup依赖限制了移动端，目前仅是技术验证，生产环境需评估Chrome 134+的覆盖率。