GitHub · TTS

小米开源 OmniVoice 语音克隆 TTS,覆盖 600 多种语言

小米开源了 OmniVoice,一个覆盖 600 多种语言的语音克隆 TTS 模型。它在 Seed-TTS 中文测试集上 WER 仅 0.84%,多语言评测指标超越 ElevenLabs v2 和 MiniMax,合成效率比实时快 40 倍。OmniVoice 采用非自回归架构,支持 3-10 秒参考音频克隆,并能通过文本描述控制性别、年龄、口音等声音属性。该项目对小语种和濒危语言的数字化保存有实际价值。

域名
github.com
评分
5 · 重大发布
发布
2026-04-08
小米开源 OmniVoice 语音克隆 TTS,覆盖 600 多种语言

导读

小米开源 OmniVoice 语音克隆 TTS 模型,覆盖 600 多种语言,包括大量小语种和濒危语言。 在 Seed-TTS 中文测试集上字错率仅 0.84%,多语言评测指标超越 ElevenLabs v2 和 MiniMax, 合成效率比实时快 40 倍。

OmniVoice 采用非自回归架构,支持 3-10 秒参考音频克隆——给一段目标说话人的录音,模 型能在该说话人音色下合成任意文本。还能通过文本描述控制性别、年龄、口音、情感等声 音属性,无需 fine-tune。模型同时支持情感语音合成,可以让同一段文本以喜悦、悲伤、 愤怒等不同情绪呈现。

对小语种和濒危语言的数字化保存有实际价值——很多语言没有商业 TTS 支持,OmniVoice 把 门槛降到只需要少量样本。代码和权重在 GitHub 开源,许可证允许学术研究和有限商业使 用。小米通过这次开源宣示了在端侧 TTS 领域的技术积累。

原文摘要

标签 TTS 产品名 OmniVoice 分类 开源 摘要 小米最新开源的OmniVoice语音克隆TTS覆盖600多种语言,在中英文和多语言benchmark上表现出色,WER达到0.84%,合成效率比实时快40倍。采用非自回归架构,支持3-10秒音频克隆,并能生成多种声音属性,适用于濒危语言的数字化保存 收录时间 2026/04/08 网址 github.com/k2-…iVoice 岗位辅助 通用 行业 通用 2 more properties 小米最新开源的能覆盖600+语种的语音克隆TTS:OmniVoice,在中英文和多语言benchmark上关键指标达到SOTA 在Seed-TTS中文测试集上的WER为0.84%;在多语言benchmark上,SIM-o和WER超过ElevenLabs v2和MiniMax RTF低至0.025,合成效率比实时快40倍 其核心在于采用了扩散语言模型风格的离散非自回归架构,直接从文本生成语音,一步到位,跳过中间的语义token阶段 并且全码本随机掩码策略用于高效训练+预训练LLM初始化,确保语音清晰度和可懂度 支持3-10秒参考音频克隆,可以通过描述属性,性别、年龄、音调、口音等生成声音 支持非语言符号,比如[laughter]笑声,以及拼音/音标纠正发音 600+种语言覆盖,对于小语种保护比较有用,濒危语言可以用少量样本生成高质量语…