Gemini 3.5 Flash 做 Agent：又快又便宜，什么时候用它

TL;DR — Gemini 3.5 Flash 是你放在 Agent 高频、延迟敏感轮次上的模型——路由、分类、总结、简单工具调用——不是深度推理。它快且便宜到可以随便用，这会改变你设计 loop 的方式。错误是在该让前沿模型挣那份钱的难轮次上去够它。

速度是特性，不是退而求其次

直觉是把快/便宜模型当成你将就的廉价选项。对 Agent 来说这是反的。在 Agent loop 里，大多数轮次不难。 决定调哪个工具、总结工具结果、判断查询要不要深度处理——这些是不断发生的简单轮次。在前沿模型上跑它们既慢又浪费。

Gemini 3.5 Flash 在 Google I/O 2026 发布，正是为这些轮次造的：低延迟、低成本、够用的质量。当简单轮次快 5 倍、便宜 20 倍，整个 Agent 都更跟手、账单还降了——而难轮次的质量丝毫不动。

Flash 擅长什么

把它当几个 Agent loop 的”快车道”用过后：

路由和分类。 “这个查询要不要贵模型？” Flash 远低于一秒回答，近乎免费。这是价值最高的用法。
总结和压缩。 在长工具输出或对话历史回到上下文前先浓缩。Flash 做这个没问题，还省下游的前沿 token。
简单、明确的工具调用。 任务无歧义、schema 清晰时，Flash 填得对又快。
高频并行工作。 fan out 50 个小子任务；Flash 的速度和成本让这变得实际，前沿模型则不行。

它在哪悄悄坑你

失败模式不戏剧化——Flash 不崩，只是在难轮次上做出微妙更差的决策：

多文件代码改动。 它丢引用追踪、留下不一致。这里用 Claude Opus 4.7 或开源 coder 如 GLM-5.1。
微妙的多跳推理。 当答案需要串联好几个不显然的步骤，Flash 走捷径，看着合理实则错。
歧义工具选择。 给五个重叠工具加一个含糊请求，它比前沿模型更常选错。

陷阱：Flash 用着太舒服，你会开始把所有东西都路由给它，然后 Agent 质量以难以察觉的方式退化，直到生产里出事。

Flash 启用的架构：两层路由

正确用法是把 Flash 当路由器模式的快层：

from openai import OpenAI

client = OpenAI(base_url="https://api.sandbase.ai/v1", api_key="sk-er-...")

def route(user_query: str) -> str:
    """用 Flash 判断这个要不要贵模型。"""
    r = client.chat.completions.create(
        model="google/gemini-3.5-flash",
        messages=[
            {"role": "system", "content": "只回 'simple' 或 'complex'。complex = 多文件代码、深度推理、含糊。"},
            {"role": "user", "content": user_query},
        ],
    )
    return r.choices[0].message.content.strip().lower()

def handle(user_query: str):
    tier = route(user_query)
    model = "anthropic/claude-opus-4.7" if "complex" in tier else "google/gemini-3.5-flash"
    return client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": user_query}],
    )

路由调用本身跑在 Flash 上，所以近乎免费，只加约 100-200ms。多数查询路由到 Flash 保持便宜；只有真正难的升级到前沿模型。实践中这比全程前沿模型省 60-80% 成本，且难轮次质量不降。

轮次类型	模型	原因
路由决策	Gemini 3.5 Flash	亚秒、近乎免费
总结 / 分类	Gemini 3.5 Flash	简单、高频
多文件代码改动	前沿模型	正确性 > 速度
深度推理	前沿模型	Flash 会走错捷径

FAQ

Q：Gemini 3.5 Flash 够格当我唯一的模型吗？

简单、轮次都不难的 Agent，也许。任何做多文件代码或深度推理的，不行——配个前沿模型并路由。Flash 单干会在难轮次上悄悄退化。

Q：它比前沿模型便宜/快多少？

单 token 大约便宜一个数量级，首 token 快几倍。确切比率会变，但差距大到足以改变你的架构。

Q：Flash 在 Agent 里单一最佳用途是什么？

路由/分诊轮次——判断查询要不要贵模型。它价值高是因为它对每个请求都跑，并把控你所有的前沿花费。

Q：便宜层用 Flash 还是小开源模型？

都行。Flash 是托管的且很快；小开源模型给你自托管。如果你已经在跑 Kimi K2.6 这类开源权重，小开源模型让全栈统一。

Q：能配 OpenAI SDK 吗？

能。通过 SandBase 走 Chat Completions——同一套 SDK，base_url=https://api.sandbase.ai/v1，模型 google/gemini-3.5-flash。

官方细节见 Google Gemini 文档，当前价格见 Vertex AI 定价页。

速度是特性，不是退而求其次

Flash 擅长什么

它在哪悄悄坑你

Flash 启用的架构：两层路由

FAQ

猜你喜欢

DeepSeek V4：给 Agent 的 1M 上下文开源 LLM（2026）

5 个 Agent 设计模式：又稳又省钱

2026 最好的 AI Agent Sandbox