AMAZINGINDEX.COM 每日 AI 简报
51.3
VOL. 2026.05
2026.05.31
← 返回 2026.05.31 日报
日报快照 · Daily Snapshot
NO. 003

2B参数端到端语音合成,跳过token

#REPO GitHub Trending 2026.05.31
值得看指数 69.0 NO. 003 · 2026.05.31
Stars22,692

VoxCPM2 是一个 2B 参数的 tokenizer-free TTS 模型,用扩散自回归架构直接生成连续语音表征,支持 30 语言和 48kHz 输出。对做多语言语音产品或追求极致音质的团队,它绕过了离散 token 带来的信息损失和延迟瓶颈。

VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning

2B参数端到端语音合成,跳过token

当前主流 TTS 管线如 GPT-SoVITS、Fish Speech 都依赖离散 token(VQ/VAE),编码解码过程会丢失音色细节和韵律信息,且实时性受限。VoxCPM2 直接生成连续表征,在语音克隆的自然度和跨语言一致性上有结构性优势,类似思路在 Seed-TTS、E2-TTS 中也有验证,但开源社区此前缺乏同等规模实现。

做 AI 配音、实时语音交互或数字人产品的团队,如果当前方案在跨语言迁移时出现"外国口音"或高频失真,可以优先测试它的零样本克隆效果;不过 2B 参数对推理成本的影响需要实测,边缘部署可能仍需蒸馏。

Star History
Beta

2B参数无Tokenizer TTS模型,填补多语言高保真语音合成开源生态空白。

独特价值:Tokenizer-Free架构避免信息损失,支持30语言48kHz,兼顾效率与音质。

查看原文 →