Mac本地LLM推理的内存优化方案
oMLX 是专为 Mac 设计的 LLM 推理工具,通过连续批处理和分层 KV 缓存(热内存+冷 SSD)实现模型常驻内存、按需自动切换。对需要本地运行大模型做实际编码的开发者,解决了反复加载模型和上下文丢失的痛点。
Chrome 浏览器在后台自动下载 Gemini Nano 模型文件,占用约 4GB 本地存储,即使用户未启用任何 AI 功能。这对存储紧张的开发机和边缘部署设备是隐性成本,也暴露了浏览器作为 AI 分发渠道的野心。
Google 正在把浏览器变成 AI 运行时,4GB 不是 bug 是战略——Chrome 用户基数就是最大的端侧模型分发网络。对 AI 工程师来说,这意味着你的 Web 应用很快可以默认假设客户端有本地 LLM 能力,但也要注意隐私合规的复杂性。
更直接的提醒:如果你在用 128GB MacBook 或云服务器做开发,检查 chrome://components 里的 Optimization Guide On Device Model,这 4GB 可能正在挤占你的 Docker 镜像空间。竞品方面,Safari 的 Apple Intelligence 和 Edge 的 Copilot 都在走类似路线,浏览器本地 AI 将成为新的性能基准测试维度。
核心争论:静默预装是否侵犯用户选择权,4GB成本是否合理
The local model powers the features nobody uses. The cloud model powers the feature everyone sees. You pay 4GB for the illusion of privacy.
>You pay 4GB for the illusion of privacy. How's this conspiracy supposed to work? A technical audience who cares about privacy aren't going to be placated by 4GB sitting on their disk. They're going to want some sort of analysis (like http interception), or probably not use chrome in the first place
> They're going to want some sort of analysis And I want $1 billion dollars. Doesn’t mean someone’s going to give it to me.