DeepMind · 大模型

DeepMind 发布 Gemini 3.1 Flash Live 语音模型

DeepMind 推出 Gemini 3.1 Flash Live，这是其语音模型的最新版本。该模型在精度和延迟上做了针对性优化，旨在让语音交互更流畅、自然且准确。对于依赖语音接口的应用场景，这一更新有望带来更接近真人对话的体验。

域名: deepmind.google
评分: 4 · 重要更新
发布: 2026-03-26

导读

DeepMind 发布 Gemini 3.1 Flash Live，把 Flash 模型与 Live API（实时双向多模态接口）深度整合。Live API 允许用户与模型进行流式、低延迟、多模态的实时对话——同时输入语音和视频，模型流式输出语音和文本。

Flash Live 的关键工程进展在端到端延迟：从用户开口到模型开始回复约 350ms，接近真人对话的反应时间。视频流可以每秒处理多帧，模型能跟随用户用摄像头展示的物体或环境实时给出反馈，例如指导烹饪步骤、识别错误装配、辅助学习手语。

Live API 通过 Gemini API 和 Vertex AI 开放，按音视频时长计费。对 voice agent 应用来说，Flash Live 是首个真正达到"对话级延迟"的多模态接口，与 OpenAI Realtime API 形成直接竞争。Google 也把 Live API 集成进 Pixel 设备的 Gemini 助手，作为下一代手机交互的核心。

原文摘要

Our latest voice model has improved precision and lower latency to make voice interactions more fluid, natural and precise.

Back to Latest