边缘设备分布式LLM推理框架开源

#REPO GitHub Search 2026.05.31

推荐指数 66.0 NO. 004 · 2026.05.31

Stars195创建1 天前Forks32Issues0

为什么值得看

LogicPipe 将模型层切分到多 GPU/边缘设备执行，通过 DAG 调度复用 KV cache 减少流水线空闲。适合需要在资源受限环境下跑大模型的边缘 AI 团队。

LogicPipe 是一个面向边缘多设备协同 LLM 推理的开源软件项目，提供离线管线规划、分布式 stage 权重加载、依赖感知任务调度和上下文 KV cache 复用能力。

编辑判断

目前边缘多设备推理的主流方案是 llama.cpp 的 CPU/GPU 混合调度或 vLLM 的单机多卡，但两者都不解决跨设备流水线气泡问题。LogicPipe 的 DAG 调度思路借鉴了 Ray 的分布式任务图，但专门针对 transformer 的层间依赖做了 KV cache 持久化，这是 vLLM 的 PagedAttention 没覆盖的场景。

项目刚开源且 stars 不到 200，代码成熟度存疑，但方向很准：随着端侧 NPU 普及（苹果 M4、高通 X Elite），多设备协同推理会从学术概念变成产品刚需。如果你在做人形机器人、车载座舱等需要本地大模型但单芯片算力不够的场景，建议先跑通它的 outline 拆分 demo，看延迟收益是否抵消通信开销。

Star History

生态分析

Experimental

填补边缘多设备LLM推理空白，专注离线分布式管线与KV cache复用

独特价值：唯一面向边缘场景的层切分推理框架，支持DAG调度和跨设备KV缓存复用

查看原文 →