2B参数Tokenizer-Free TTS开源，30语言+48kHz

#REPO GitHub Trending 2026.06.17

推荐指数 76.0 NO. 003 · 2026.06.17

Stars30,088

为什么值得看

VoxCPM2 跳过传统语音合成的离散 token 化步骤，直接用扩散自回归架构端到端生成连续语音表征。对做语音交互产品的团队来说，这意味着更自然的情感表达和更低的延迟，且支持零样本音色克隆和创意声音设计。

VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning

媒体预览

编辑判断

当前主流 TTS 路线如 GPT-SoVITS、Fish Speech 都依赖声学 token（如 SoundStream、EnCodec），量化损失是音色失真的主要来源。VoxCPM2 直接生成连续表征，理论上保留了更多声学细节，但代价是推理时扩散模型的步数开销。

对比 Fish Speech 的 1B 模型，VoxCPM2 的 2B 参数+200万小时训练数据在规模上更激进，不过其实时性需要实测验证——扩散自回归的生成速度能否支撑实时对话场景是关键。

做 AI 播客、有声书、游戏 NPC 语音的团队可以优先试用，尤其是需要跨语言音色一致性的场景；如果做实时语音助手，建议先跑延迟 benchmark 再决定。

Star History

生态分析

Beta

端到端无Token语音合成新范式，降低交互产品延迟门槛

独特价值：跳过离散token化，扩散自回归直接生成连续语音表征

竞品：

fishaudio/fish-speech ★ 18.0k 采用VQGAN+LLM方案，需离散token，延迟较高

2noise/ChatTTS ★ 32.0k 专精中文对话情感，非端到端连续表征

myshell-ai/OpenVoice ★ 29.0k 侧重音色克隆，依赖参考音频分离编码

f5-tts/F5-TTS ★ 12.0k 基于流匹配扩散，需文本音素对齐

metavoiceio/metavoice-src ★ 3.5k 商业导向，支持有限，非开源核心