DeepMind · TTS

DeepMind 发布 Gemini 3.1 Flash TTS 语音合成模型

DeepMind 推出新一代语音合成模型 Gemini 3.1 Flash TTS,核心创新在于引入细粒度音频标签,允许开发者精确调节语气、节奏、停顿等表达参数,从而生成更自然、富有情感的 AI 语音。该模型面向需要高质量有声内容的应用场景,如播客、有声书、虚拟助手等,在保留 Gemini 系列流畅性的基础上,大幅提升了语音表达的细腻度和可控性。

域名
deepmind.google
评分
5 · 重大发布
发布
2026-04-15
DeepMind 发布 Gemini 3.1 Flash TTS 语音合成模型

导读

DeepMind 在 Gemini 3.1 Flash 之上加入 TTS 能力,发布 Gemini 3.1 Flash TTS 语音合成 模型。这是 Gemini 系列第一次以一等公民方式提供 TTS,定位是与 OpenAI Realtime API、 ElevenLabs 等竞品在低延迟、高自然度方向直接对位。

模型支持原生场景指导,可以根据上下文调整语气、情感、节奏,而不是简单按文本朗读。 Flash 这一档位的设计目标是把延迟压到 200ms 以内,配合 Live API 可以做实时对话场景的 双向语音 agent。多语言覆盖在 70 种以上,中文表现据官方 demo 接近母语水平。

这条线产品意义在于补齐 Gemini agent 栈的最后一块拼图:之前 Gemini 在 vision/code/ reasoning 上都有完整方案,唯独 TTS/STT 要靠第三方拼接。Flash TTS 上线后,开发者可以 在单一 SDK 内完成 voice agent 全链路,对 Realtime API 是直接竞争。

原文摘要

Our newest audio model introduces granular audio tags that give you precise control to direct AI speech for expressive audio generation.