端到端LLM蒸馏推理全栈工具
推荐指数 78.0 NO. 003 · 2026.06.12
Stars114创建6 天前Forks1Issues0
为什么值得看
Tessera 是一个从零构建的轻量级 LLM 技术栈,专注大模型蒸馏为小模型并高效部署,覆盖训练、量化、推理引擎到服务前端全链路。对想深入理解模型部署底层而非只调 API 的工程师,这是少有的可运行、可测试的完整参考实现。
From teacher to tiles — a from-scratch LLM distillation & serving engine: custom Triton/CUDA kernels, FSDP distillation, paged-KV continuous batching, speculative decoding, a Rust gateway, a JAX oracle, and interpretability tooling.
编辑判断
市面上做蒸馏的工具不少,但大多只解决单点:Hugging Face 的蒸馏脚本只管训练,vLLM 只管推理,中间断层需要自己补。Tessera 的罕见之处在于把「蒸馏→量化→部署」串成闭环,而且 CUDA/Triton 内核有 torch reference 兜底验证,降低了手写 kernel 的调试门槛。
114 stars 但 0 issues 说明项目还很新,作者可能是独立开发者或小团队。如果你想在端侧跑自己的蒸馏模型,又不想被 Transformers + vLLM 的抽象层挡住,这个项目比直接啃 llama.cpp 或 TensorRT-LLM 的源码更友好。建议先跑通 laptop CPU/MPS 路径,再逐步替换自定义 kernel。
Star History
生态分析
Experimental
从零构建的轻量级LLM蒸馏与推理全栈,填补端到端可学习部署框架的空白。
独特价值:唯一覆盖蒸馏训练、自定义内核、量化推理到Rust网关的完整可运行参考实现。