从零构建PD分离推理引擎
值得看指数 74.0 NO. 004 · 2026.04.14
Stars119创建2 天前Forks12Issues1
为什么值得看
nanoPD是一个从零实现的LLM推理引擎,完整支持Prefill/Decode分离架构,包含自定义CUDA内核、分页KV缓存和自适应路由等全栈组件。它提供了比vLLM/SGLang更轻量、易定制的PD分离方案,适合需要深度优化推理性能或学习底层实现细节的小型团队。
A from-scratch Prefill/Decode disaggregation inference engine for LLMs
媒体预览
编辑判断
目前做PD分离部署大多依赖vLLM的分离模式或SGLang,配置复杂且基础设施较重,定制难度大。nanoPD的亮点是代码精简且高度模块化,不仅实现了完整的分页KV缓存和跨GPU传输,还带自适应路由能根据实时负载动态切换同地/分离策略,比vLLM当前的静态配置更灵活。
如果你正在维护私有LLM服务且受限于GPU资源,或者团队有人想深入理解PD分离的底层机制而不是黑盒调用,这个项目值得花一天时间精读代码和跑benchmark。
Star History