AI 输入压缩库:省 60-95% Token
为什么值得看
Headroom 是一个多模态压缩库/代理,能在 LLM 读取前压缩工具输出、日志、RAG 块等一切内容,实测 10144 tokens 压到 1260 且结果一致。对跑大量 agent 调用或长上下文 RAG 的团队,这是直接砍成本的基础设施。
Compress tool outputs, logs, files, and RAG chunks before they reach the LLM. 60-95% fewer tokens, same answers. Library, proxy, MCP server.
媒体预览
编辑判断
目前压缩长上下文的主流方案是 prompt caching 和稀疏注意力,但 Headroom 走的是语义压缩路线——在进 LLM 前把冗余信息干掉,这跟 Gemini 的 context caching 或 Anthropic 的 prompt caching 是互补而非替代关系。它支持 6 种算法且可逆,意味着你可以根据任务敏感度选择有损或无损模式。
跟同类工具比,Gisting 和 LLMLingua 也做压缩,但 Headroom 胜在部署形态灵活:库、代理、MCP server 三层都能接,特别适合已经用 MCP 统一工具调用的团队。如果你每月 token 账单过万刀,或者 agent 频繁读取大文件/数据库返回,这个工具值得优先接入 proxy 层做 A/B 测试。
Star History
生态分析
Beta
LLM基础设施层的上下文压缩中间件,降本增效工具
独特价值:多模态无损压缩,60-95%token削减,兼容MCP/代理/RAG
竞品: