端到端LLM蒸馏推理全栈工具

#REPO GitHub Search 2026.06.12

推荐指数 78.0 NO. 003 · 2026.06.12

Stars114创建6 天前Forks1Issues0

为什么值得看

Tessera 是一个从零构建的轻量级 LLM 技术栈，专注大模型蒸馏为小模型并高效部署，覆盖训练、量化、推理引擎到服务前端全链路。对想深入理解模型部署底层而非只调 API 的工程师，这是少有的可运行、可测试的完整参考实现。

From teacher to tiles — a from-scratch LLM distillation & serving engine: custom Triton/CUDA kernels, FSDP distillation, paged-KV continuous batching, speculative decoding, a Rust gateway, a JAX oracle, and interpretability tooling.

编辑判断

市面上做蒸馏的工具不少，但大多只解决单点：Hugging Face 的蒸馏脚本只管训练，vLLM 只管推理，中间断层需要自己补。Tessera 的罕见之处在于把「蒸馏→量化→部署」串成闭环，而且 CUDA/Triton 内核有 torch reference 兜底验证，降低了手写 kernel 的调试门槛。

114 stars 但 0 issues 说明项目还很新，作者可能是独立开发者或小团队。如果你想在端侧跑自己的蒸馏模型，又不想被 Transformers + vLLM 的抽象层挡住，这个项目比直接啃 llama.cpp 或 TensorRT-LLM 的源码更友好。建议先跑通 laptop CPU/MPS 路径，再逐步替换自定义 kernel。

Star History

生态分析

Experimental

从零构建的轻量级LLM蒸馏与推理全栈，填补端到端可学习部署框架的空白。

独特价值：唯一覆盖蒸馏训练、自定义内核、量化推理到Rust网关的完整可运行参考实现。

查看原文 →