微软开源50+语种语音转录模型

#REPO GitHub Trending 2026.06.07

推荐指数 69.0 NO. 006 · 2026.06.07

Stars48,413

为什么值得看

VibeVoice-ASR 是微软开源的统一语音转文本模型，单遍处理60分钟长音频，输出带说话人分离和时间戳的结构化文本，已集成 Hugging Face Transformers。对需要处理会议记录、播客、访谈等长音频的开发者，可直接替代现有 ASR 管线中的多模型拼接方案。

Open-Source Frontier Voice AI

媒体预览

编辑判断

长音频 ASR 的痛点一直是「分段处理再拼接」导致的说话人混淆和时间戳漂移，主流方案如 Whisper + pyannote.audio 需要跑两个独立模型且对1小时以上音频支持脆弱。VibeVoice-ASR 把 ASR、说话人分离、时间对齐压进单一前向传播，50+语种原生支持也意味着不需要先检测语言再路由模型。

如果你现在的语音管线在用 Whisper API + 后处理脚本拼接结果，或者为国内方言/小语种场景做定制，这个模型值得直接替换基座。注意点是 48413 star 里有多少是微软内部刷的，建议先跑自己语料的 WER 和 DER 基准再决定生产迁移。

Star History

生态分析

Production

微软开源的长音频ASR标杆，填补单模型端到端处理60分钟语音的空白。

独特价值：单模型替代多模型拼接管线，原生支持说话人分离与时间戳输出。

查看原文 →