llama.cpp 统一 HuggingFace 缓存

#REPO GitHub Trending 2026.06.08

推荐指数 63.0 NO. 004 · 2026.06.08

Stars115,241

为什么值得看

llama.cpp 将模型下载路径迁移至标准 HuggingFace 缓存目录，与其他 HF 工具链共享模型文件。对本地部署团队意味着不再需要重复下载同一模型，磁盘空间和带宽成本直接砍半。

LLM inference in C/C++

媒体预览

编辑判断

llama.cpp 之前最大的生态摩擦点之一，就是它自己的模型缓存和 HuggingFace 生态完全割裂，导致用 transformers、vLLM 和 llama.cpp 的团队要存三份同样的权重。这次迁移表面是路径改动，实质是 ggml 团队在主动融入 HF 标准，降低被 ollama、text-generation-inference 等封装层替代的风险。

如果你现在用 Docker 或 CI 流水线做模型分发，可以直接砍掉一套缓存同步逻辑。更值得观察的是讨论区里关于 better packaging 的反馈——llama.cpp 的编译依赖和版本碎片化一直是下游项目（如 llama-cpp-python）的噩梦，如果官方开始认真解决分发问题，可能会重新挤压 ollama 的易用性优势。

Star History

生态分析

Production

C/C++本地LLM推理的事实标准，GGML生态核心基础设施

独特价值：极致轻量跨平台CPU推理，定义GGML量化格式行业标准

竞品：

xorbitsai/inference ★ 9.3k Python生态全功能推理平台，非C++轻量本地部署

leejet/stable-diffusion.cpp ★ 6.2k 同作者视觉生成模型，共享GGML底层技术栈

rustformers/llm ★ 6.2k Rust语言替代方案，已停止维护

guinmoon/LLMFarm ★ 2.0k 基于GGML的移动端封装，依赖本项目底层

RWKV/rwkv.cpp ★ 1.6k 特定架构RWKV推理，非通用LLM方案

查看原文 →