Mac本地LLM推理的内存优化方案

#REPO GitHub Trending 2026.05.11

推荐指数 65.0 NO. 002 · 2026.05.11

Stars13,194

为什么值得看

oMLX 是专为 Mac 设计的 LLM 推理工具，通过连续批处理和分层 KV 缓存（热内存+冷 SSD）实现模型常驻内存、按需自动切换。对需要本地运行大模型做实际编码的开发者，解决了反复加载模型和上下文丢失的痛点。

LLM inference server with continuous batching & SSD caching for Apple Silicon — managed from the macOS menu bar

媒体预览

编辑判断

目前 Mac 本地跑 LLM 的主流选择是 llama.cpp 和 MLX 原生，但两者都缺乏精细的内存管理机制，模型切换时 KV 缓存全部丢弃是常态。oMLX 的分层缓存思路借鉴了数据库的冷热分离架构，把对话历史的 KV 向量落到 SSD 而不是重新计算，这在长上下文代码助手场景下能显著降低首 token 延迟。

跟 llama.cpp 的 swap 机制相比，oMLX 的优势在于跨请求持久化——同一会话内的模型切换不会清空上下文。目前 13k star 说明社区需求真实存在，但需要注意它基于 MLX 框架，仅支持 Apple Silicon，Intel Mac 和跨平台部署需求者无法使用。

如果你用 Cursor 或 Copilot 但担心代码隐私，且 Mac 内存有限（16-24GB）无法常驻多个模型，这是目前最值得试的本地替代方案。建议先测它的 context switch benchmark，看 SSD 回载延迟是否可接受。

Star History

生态分析

Beta

Mac端MLX推理服务端的事实标准，开发者生产力工具

独特价值：连续批处理+分层KV缓存实现模型常驻，零等待切换

竞品：

Epistates/pmetal ★ 278 侧重训练微调框架，非菜单栏工具形态

raspoli/mlx-serve ★ 5 支持多模态热切换，缺SSD缓存与常驻内存

GuLu9527/FlashMLX ★ 2 轻量菜单栏但功能浅，无连续批处理

查看原文 →