手机跑4B文生图,权重压到1bit
为什么值得看
PrismML发布Bonsai Image 4B系列,1-bit版本用二元权重+FP16缩放因子实现1.125有效位宽,4B参数可在笔记本和手机本地运行高质量扩散推理。端侧AI落地最难的是内存带宽而非算力,这个压缩比让消费级设备跑生图首次变得可行。
媒体预览
编辑判断
端侧生图之前不是没人做,但要么用SD-Turbo牺牲质量,要么靠苹果Neural Engine搞封闭生态。Bonsai的1bit方案走了一条中间路线:用group-wise scaling保精度,用极端量化砍带宽,这跟Qualcomm的AI Hub或者微软的BitNet路径不同,它直接瞄准的是消费级GPU和手机的DRAM墙。
值得对比的是Stability AI的SDXL-Turbo和苹果MLC-LLM的扩散支持,Bonsai的4B参数+1bit在iPhone上的实际latency和功耗数据会是关键。如果你在考虑端侧AIGC的产品化,建议等社区复现后重点测两个指标:首token生成时间和连续出图的thermal throttling表现。
社区反馈
意见分歧 52 条评论
核心争论:端侧AI能否替代云端订阅,还是数据中心永远更优
They call it a diffusion model, but it's based on Flux.2 which is a rectified flow model.
Lately I've noticed posts with barely 10 points getting to HN frontpage. Was it always like this?
I just assume bots