双卡3090跑满262K长文本LLM

#REPO GitHub Search 2026.05.01

推荐指数 67.0 NO. 004 · 2026.05.01

Stars169创建2 天前Forks9Issues2

为什么值得看

整理 RTX 3090 本地部署 LLM 的实战配方，覆盖 vLLM 双卡高吞吐与 llama.cpp 单卡长上下文两条路线。手上有 3090 的工程师可直接复用配置，跳过数周的调参踩坑。

Community recipes for serving LLMs on RTX 3090. Multi-engine (vLLM, llama.cpp, SGLang) and model-agnostic. Currently shipping Qwen3.6-27B configs for 1× and 2× cards.

媒体预览

编辑判断

3090 的 24GB 显存长期卡在尴尬区间：单卡跑不了 70B 级模型，双卡又受 NVLink 缺失拖累。这个 repo 的务实之处在于不追求通用框架，而是把 vLLM 的 TP 并行和 llama.cpp 的 CPU offload 策略分别推到极限，并给出明确的 workload 分界——吞吐量优先选前者，确定性长上下文选后者。

对比类似资源，oobabooga 的 text-generation-webui 更偏易用性，配置透明度不足；LocalAI 抽象层太厚，3090 上反而有性能损耗。这个项目的 262K needle test 和 25K tool return 实测数据是硬通货，之前社区里这类验证散落在 Discord 和 Reddit 帖子里。

最该看的人群：已有 3090 想升级长上下文能力但犹豫要不要换 4090/5090 的个人开发者，以及需要低成本 dev backend 的小团队。repo 里的 DFlash 和 turbo 配置可以直接作为采购决策的参考基准。

Star History

查看原文 →