Google AI · TTS

Google 发布 Gemini 3.1 Flash TTS 语音合成模型

Google 推出 Gemini 3.1 Flash TTS,一款新一代语音合成模型,主打高表达力与自然度。该模型现已集成到 Google 旗下多款产品中,为用户提供更流畅、更富有情感的语音交互体验。

域名
blog.google
评分
5 · 重大发布
发布
2026-04-15
Google 发布 Gemini 3.1 Flash TTS 语音合成模型

导读

Gemini 3.1 Flash TTS 由 Google AI 团队和 DeepMind 联合发布,blog.google 这一条是官方 对开发者的正式公告。和 DeepMind 那篇技术博客相比,这一条更聚焦应用与生态:定价、SDK 接入路径、与 Google Cloud Voice 的关系、与 Gemini Live 的整合。

TTS 接口同时通过 Vertex AI、Gemini API、Google AI Studio 三条渠道开放,价格按 1M 字符 计费,Flash 档位定价低于 GPT-4o Realtime 约一半。配合 streaming 接口,可以做边生成边 播放,延迟体验接近真人对话。SDK 在 Python/JS/Java/Go 同步上线。

公告里 Google 强调了 voice agent 的几个落地场景:客服自动化、教育辅助、无障碍辅助、 播客自动生成。对内容创作者的实际影响是中文 TTS 终于有了与英文同代的开箱选项,不必 再为多语言项目额外接 ElevenLabs。

原文摘要

Gemini 3.1 Flash TTS is now available across Google products.