DeepMind · 大模型

DeepMind 发布 Gemini 3.1 Flash-Lite

DeepMind 推出 Gemini 3.1 Flash-Lite，这是 Gemini 3 系列中速度最快、成本最低的模型。它在保持较高智能水平的同时大幅降低推理开销，适合大规模部署场景，为需要高吞吐量和低延迟的应用提供了更经济的选择。

导读

DeepMind 发布 Gemini 3.1 Flash-Lite，Gemini 3 系列中推理速度最快、单 token 成本最低的档位。Flash-Lite 的设计目标是"大规模智能应用"，即对单次推理质量要求不极致但需要高频调用的场景：检索增强生成、内容审核、规模化数据处理、客服初筛等。

模型参数没有公开，但官方给出的吞吐数据表明它能在保持 Gemini 系列基本能力底线的同时，把推理延迟压到 Flash 的一半以下，单价大约是 Pro 的十分之一。上下文窗口仍然是 1M token，长文档处理不掉队。原生支持多模态输入和工具调用。

Flash-Lite 直接对位 GPT-4o-mini 和 Claude Haiku，三家都在打成本与吞吐的差异化战。对应用开发者意味着可以把高频低质量需求分流到 Flash-Lite，把 Pro/Opus 留给真正需要深度推理的环节，整体 token 账单可压低一个量级。

原文摘要

Gemini 3.1 Flash-Lite is our fastest and most cost-efficient Gemini 3 series model yet.