AI代理上下文压缩层，省60-95% token

#REPO GitHub Trending 2026.06.20

推荐指数 78.0 NO. 002 · 2026.06.20

Stars39,019

为什么值得看

Headroom 是一个面向 AI agent 的上下文压缩中间层，支持 6 种算法在代理和 LLM 之间做可逆的 token 压缩。对于需要处理长上下文或多轮对话的 agent 系统，可直接降低 API 成本并突破上下文长度限制。

Compress tool outputs, logs, files, and RAG chunks before they reach the LLM. 60-95% fewer tokens, same answers. Library, proxy, MCP server.

媒体预览

编辑判断

Agent 长上下文问题之前主要靠滑动窗口、摘要总结或向量检索来解决，但要么丢信息要么增加延迟。Headroom 的差异化在于以 proxy 形态透明插入，不需要改 agent 代码，且强调可逆压缩保证输出质量不回退。

跟同类工具相比，MemGPT 走的是虚拟内存换页路线，适合单会话管理；Headroom 更偏向传输层压缩，适合多 agent 并发或 MCP 工具链场景。39K stars 说明社区对"agent 基础设施"层的关注度在快速上升。

如果你正在用 Claude 3.5 Sonnet 或 GPT-4o 做 agent 且经常触发 200K 上下文上限，或者 MCP 工具返回的上下文过长导致成本失控，这个库值得作为 proxy 层试点。注意目前需要评估压缩算法对特定任务（如代码生成、多步推理）的精度影响。

Star History

生态分析

Beta

LLM上下文压缩中间层基础设施，介于Agent框架与模型API之间

独特价值：专精可逆token压缩算法，60-95%降本同时保持答案质量

竞品：

looplj/axonhub ★ 4.4k 通用AI网关，侧重路由与负载均衡，非专门上下文压缩

lemony-ai/cascadeflow ★ 2.5k Agent循环内优化成本延迟，非专精上下文压缩中间层