8B本地模型干翻大模型工具调用

#REPO GitHub Trending 2026.05.22

推荐指数 78.0 NO. 003 · 2026.05.22

Stars1,437

为什么值得看

Forge 是一个面向自托管 LLM 的可靠性中间层，通过 rescue parsing、retry nudges 等护栏机制和 VRAM 感知的上下文压缩，让 8B 小模型在多步 agent 工作流上达到 86.5% 的通过率。对不想绑定 OpenAI API、又受困于本地模型工具调用不稳定性的团队，这是目前最成熟的工程化方案。

A Python framework for self-hosted LLM tool-calling and multi-step agentic workflows

编辑判断

本地模型做 tool calling 的痛点从来不是模型能力，而是 JSON 格式崩坏、工具参数幻觉、多轮后上下文爆炸这三个工程噩梦。之前大家的土办法是接 OpenAI 做 fallback 或者手动写正则兜底，成本高且不可维护。

Forge 的 SlotWorker 设计很值得关注——多任务抢占共享推理槽，这对显存紧张的创业团队是刚需，比 vLLM 的调度更贴合 agent 场景的长尾延迟特征。同类产品里，LangChain 的本地 tool calling 链路过重，Ollama 原生不支持复杂护栏，Forge 填补了这块空白。

如果你在用 llama.cpp/llama-server 跑业务 agent，且调用成功率卡在 60% 上下，建议直接替换掉现有的 prompt 工程层，用 Forge 的 WorkflowRunner 跑一遍 eval suite 对比。

Star History

生态分析

Beta

自托管LLM工具调用可靠性中间层，填补8B小模型工程化空白

独特价值：通过rescue parsing和VRAM感知压缩，让小模型工具调用达86.5%通过率

竞品：

kyegomez/swarms ★ 6.7k 企业级多智能体编排，侧重云端而非自托管可靠性

FellouAI/eko ★ 4.9k 自然语言构建工作流，非针对本地模型优化

SolaceLabs/solace-agent-mesh ★ 4.3k 事件驱动多智能体架构，非小模型工具调用专精

查看原文 →