Gemini 3.5 Flash 做 Agent:又快又便宜,什么时候用它
Google 的 Gemini 3.5 Flash 用一点推理深度换来速度和成本上的大赢。快模型什么时候是 Agent 的正确选择,什么时候会悄悄坑你。
TL;DR — Gemini 3.5 Flash 是你放在 Agent 高频、延迟敏感轮次上的模型——路由、分类、总结、简单工具调用——不是深度推理。它快且便宜到可以随便用,这会改变你设计 loop 的方式。错误是在该让前沿模型挣那份钱的难轮次上去够它。
速度是特性,不是退而求其次
直觉是把快/便宜模型当成你将就的廉价选项。对 Agent 来说这是反的。在 Agent loop 里,大多数轮次不难。 决定调哪个工具、总结工具结果、判断查询要不要深度处理——这些是不断发生的简单轮次。在前沿模型上跑它们既慢又浪费。
Gemini 3.5 Flash 在 Google I/O 2026 发布,正是为这些轮次造的:低延迟、低成本、够用的质量。当简单轮次快 5 倍、便宜 20 倍,整个 Agent 都更跟手、账单还降了——而难轮次的质量丝毫不动。
Flash 擅长什么
把它当几个 Agent loop 的”快车道”用过后:
- 路由和分类。 “这个查询要不要贵模型?” Flash 远低于一秒回答,近乎免费。这是价值最高的用法。
- 总结和压缩。 在长工具输出或对话历史回到上下文前先浓缩。Flash 做这个没问题,还省下游的前沿 token。
- 简单、明确的工具调用。 任务无歧义、schema 清晰时,Flash 填得对又快。
- 高频并行工作。 fan out 50 个小子任务;Flash 的速度和成本让这变得实际,前沿模型则不行。
它在哪悄悄坑你
失败模式不戏剧化——Flash 不崩,只是在难轮次上做出微妙更差的决策:
- 多文件代码改动。 它丢引用追踪、留下不一致。这里用 Claude Opus 4.7 或开源 coder 如 GLM-5.1。
- 微妙的多跳推理。 当答案需要串联好几个不显然的步骤,Flash 走捷径,看着合理实则错。
- 歧义工具选择。 给五个重叠工具加一个含糊请求,它比前沿模型更常选错。
陷阱:Flash 用着太舒服,你会开始把所有东西都路由给它,然后 Agent 质量以难以察觉的方式退化,直到生产里出事。
Flash 启用的架构:两层路由
正确用法是把 Flash 当路由器模式的快层:
from openai import OpenAI
client = OpenAI(base_url="https://api.sandbase.ai/v1", api_key="sk-er-...")
def route(user_query: str) -> str:
"""用 Flash 判断这个要不要贵模型。"""
r = client.chat.completions.create(
model="google/gemini-3.5-flash",
messages=[
{"role": "system", "content": "只回 'simple' 或 'complex'。complex = 多文件代码、深度推理、含糊。"},
{"role": "user", "content": user_query},
],
)
return r.choices[0].message.content.strip().lower()
def handle(user_query: str):
tier = route(user_query)
model = "anthropic/claude-opus-4.7" if "complex" in tier else "google/gemini-3.5-flash"
return client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": user_query}],
)
路由调用本身跑在 Flash 上,所以近乎免费,只加约 100-200ms。多数查询路由到 Flash 保持便宜;只有真正难的升级到前沿模型。实践中这比全程前沿模型省 60-80% 成本,且难轮次质量不降。
| 轮次类型 | 模型 | 原因 |
|---|---|---|
| 路由决策 | Gemini 3.5 Flash | 亚秒、近乎免费 |
| 总结 / 分类 | Gemini 3.5 Flash | 简单、高频 |
| 多文件代码改动 | 前沿模型 | 正确性 > 速度 |
| 深度推理 | 前沿模型 | Flash 会走错捷径 |
FAQ
Q:Gemini 3.5 Flash 够格当我唯一的模型吗?
简单、轮次都不难的 Agent,也许。任何做多文件代码或深度推理的,不行——配个前沿模型并路由。Flash 单干会在难轮次上悄悄退化。
Q:它比前沿模型便宜/快多少?
单 token 大约便宜一个数量级,首 token 快几倍。确切比率会变,但差距大到足以改变你的架构。
Q:Flash 在 Agent 里单一最佳用途是什么?
路由/分诊轮次——判断查询要不要贵模型。它价值高是因为它对每个请求都跑,并把控你所有的前沿花费。
Q:便宜层用 Flash 还是小开源模型?
都行。Flash 是托管的且很快;小开源模型给你自托管。如果你已经在跑 Kimi K2.6 这类开源权重,小开源模型让全栈统一。
Q:能配 OpenAI SDK 吗?
能。通过 SandBase 走 Chat Completions——同一套 SDK,base_url=https://api.sandbase.ai/v1,模型 google/gemini-3.5-flash。
官方细节见 Google Gemini 文档,当前价格见 Vertex AI 定价页。


