语音LLM的KV缓存剪枝方案
Hush KV 针对长音频场景下 decoder-only 语音 LLM 的 KV 缓存膨胀问题,提出 token/head/chunk 三级剪枝策略,在 LibriSpeech-long 等基准上验证了对 ASR 和口语问答性能无损。对于需要处理 30s+ 音频前缀的语音应用开发者,这是直接可用的显存优化方案。
Speech-aware KV cache pruning for long-form speech LLMs (Qwen2-Audio, SALMONN). Token/head/chunk-level pruners + eval on LibriSpeech-long & GigaSpeech.
当前语音 LLM 的显存瓶颈被严重低估——50Hz 的音频 tokenizer 让 60 秒音频膨胀到 3000 tokens,而文本 LLM 的 KV 缓存优化(如 H2O、SnapKV)直接搬过来会丢失声学特征的时间局部性。Hush KV 的关键洞察是语音表征的冗余模式与文本完全不同:静音帧、重复音素、以及多头注意力中专门负责声学细节而非语义的头都可以被识别并丢弃。
与文本领域的 KV 压缩相比,这个工作的差异化在于把"语音感知"做进了剪枝决策里,而不是套用静态预算。同类工作中,Moonshot 的 Moonlight 和 Google 的 SoundStream 侧重的都是 tokenizer 层面,缓存层优化此前基本是空白。如果你的语音 LLM 在长音频上显存爆炸但不想动模型架构,这是目前为数不多即插即用的选择。
代码结构很干净,每个 pruner 单文件可独立运行,建议先跑 chunk-level 的 baseline,通常能在 50% 压缩率下保住 WER。
长音频语音LLM显存优化的专用KV缓存剪枝工具,填补语音领域KV压缩空白
独特价值:首个面向语音LLM的三级KV剪枝,支持30s+长音频无损ASR与口语问答