GitHub · TTS

小米开源 OmniVoice 语音克隆 TTS，覆盖 600 多种语言

小米开源了 OmniVoice，一个覆盖 600 多种语言的语音克隆 TTS 模型。它在 Seed-TTS 中文测试集上 WER 仅 0.84%，多语言评测指标超越 ElevenLabs v2 和 MiniMax，合成效率比实时快 40 倍。OmniVoice 采用非自回归架构，支持 3-10 秒参考音频克隆，并能通过文本描述控制性别、年龄、口音等声音属性。该项目对小语种和濒危语言的数字化保存有实际价值。

域名: github.com
评分: 5 · 重大发布
发布: 2026-04-08

访问项目本体

导读

小米开源 OmniVoice 语音克隆 TTS 模型，覆盖 600 多种语言，包括大量小语种和濒危语言。在 Seed-TTS 中文测试集上字错率仅 0.84%，多语言评测指标超越 ElevenLabs v2 和 MiniMax，合成效率比实时快 40 倍。

OmniVoice 采用非自回归架构，支持 3-10 秒参考音频克隆——给一段目标说话人的录音，模型能在该说话人音色下合成任意文本。还能通过文本描述控制性别、年龄、口音、情感等声音属性，无需 fine-tune。模型同时支持情感语音合成，可以让同一段文本以喜悦、悲伤、愤怒等不同情绪呈现。

对小语种和濒危语言的数字化保存有实际价值——很多语言没有商业 TTS 支持，OmniVoice 把门槛降到只需要少量样本。代码和权重在 GitHub 开源，许可证允许学术研究和有限商业使用。小米通过这次开源宣示了在端侧 TTS 领域的技术积累。

原文摘要

标签 TTS 产品名 OmniVoice 分类开源摘要小米最新开源的OmniVoice语音克隆TTS覆盖600多种语言，在中英文和多语言benchmark上表现出色，WER达到0.84%，合成效率比实时快40倍。采用非自回归架构，支持3-10秒音频克隆，并能生成多种声音属性，适用于濒危语言的数字化保存收录时间 2026/04/08 网址 github.com/k2-…iVoice 岗位辅助通用行业通用 2 more properties 小米最新开源的能覆盖600+语种的语音克隆TTS：OmniVoice，在中英文和多语言benchmark上关键指标达到SOTA 在Seed-TTS中文测试集上的WER为0.84%；在多语言benchmark上，SIM-o和WER超过ElevenLabs v2和MiniMax RTF低至0.025，合成效率比实时快40倍其核心在于采用了扩散语言模型风格的离散非自回归架构，直接从文本生成语音，一步到位，跳过中间的语义token阶段并且全码本随机掩码策略用于高效训练+预训练LLM初始化，确保语音清晰度和可懂度支持3-10秒参考音频克隆，可以通过描述属性，性别、年龄、音调、口音等生成声音支持非语言符号，比如[laughter]笑声，以及拼音/音标纠正发音 600+种语言覆盖，对于小语种保护比较有用，濒危语言可以用少量样本生成高质量语…

Back to Latest