DeepMind · 大模型
DeepMind 发布 Gemini 3.1 Flash-Lite
DeepMind 推出 Gemini 3.1 Flash-Lite,这是 Gemini 3 系列中速度最快、成本最低的模型。它在保持较高智能水平的同时大幅降低推理开销,适合大规模部署场景,为需要高吞吐量和低延迟的应用提供了更经济的选择。
- 域名
deepmind.google- 评分
- 5 · 重大发布
- 发布
- 2026-03-03
导读
DeepMind 发布 Gemini 3.1 Flash-Lite,Gemini 3 系列中推理速度最快、单 token 成本最低 的档位。Flash-Lite 的设计目标是"大规模智能应用",即对单次推理质量要求不极致但需要 高频调用的场景:检索增强生成、内容审核、规模化数据处理、客服初筛等。
模型参数没有公开,但官方给出的吞吐数据表明它能在保持 Gemini 系列基本能力底线的同时, 把推理延迟压到 Flash 的一半以下,单价大约是 Pro 的十分之一。上下文窗口仍然是 1M token,长文档处理不掉队。原生支持多模态输入和工具调用。
Flash-Lite 直接对位 GPT-4o-mini 和 Claude Haiku,三家都在打成本与吞吐的差异化战。对 应用开发者意味着可以把高频低质量需求分流到 Flash-Lite,把 Pro/Opus 留给真正需要深度 推理的环节,整体 token 账单可压低一个量级。
原文摘要
Gemini 3.1 Flash-Lite is our fastest and most cost-efficient Gemini 3 series model yet.
