LLM 本地记忆层 50ms 注入上下文

#REPO GitHub Search 2026.06.05

推荐指数 58.0 NO. 008 · 2026.06.05

Stars154创建1 天前Forks3Issues0

为什么值得看

mnemo 是一个 Rust 编写的本地 sidecar，自动从对话中提取实体构建知识图谱，并在后续请求中注入相关上下文。对不想把数据送云、又嫌自己搭记忆管线太重的团队，这可能是目前最轻量的方案。

Local-first AI memory layer for any LLM. Persistent knowledge graph, entity extraction, semantic retrieval. Works with Ollama, OpenAI, Anthropic, or any OpenAI-compatible backend.

编辑判断

LLM 记忆这个赛道之前主要是 MemGPT 和 Zep 在跑，但 MemGPT 需要 Python 运行时且架构偏重，Zep 则是云服务有数据出境顾虑。mnemo 的差异化在于纯本地 SQLite + 无 Python 依赖，部署复杂度接近零。

50ms 的上下文注入延迟意味着它可以直接串进实时对话链路，不需要异步预处理。这个性能指标如果是真的，比大多数向量检索方案还要快。

已经在用 Ollama 做本地部署的团队最值得先试，尤其是做隐私敏感场景（医疗、法律、企业内部知识库）的创业者，可以省掉一套自研记忆管线的功夫。

Star History

生态分析

Beta

面向隐私优先团队的轻量级本地 LLM 记忆中间件，填补自托管与云端方案之间的空白。

独特价值：Rust 原生 sidecar 架构，零配置即插即用，兼顾本地隐私与极低部署成本。

查看原文 →