模型介绍

Gemini 3.5 Flash 做 Agent:又快又便宜,什么时候用它

Cover image for Gemini 3.5 Flash 做 Agent:又快又便宜,什么时候用它

Google 的 Gemini 3.5 Flash 用一点推理深度换来速度和成本上的大赢。快模型什么时候是 Agent 的正确选择,什么时候会悄悄坑你。

TL;DR — Gemini 3.5 Flash 是你放在 Agent 高频、延迟敏感轮次上的模型——路由、分类、总结、简单工具调用——不是深度推理。它快且便宜到可以随便用,这会改变你设计 loop 的方式。错误是在该让前沿模型挣那份钱的难轮次上去够它。

速度是特性,不是退而求其次

直觉是把快/便宜模型当成你将就的廉价选项。对 Agent 来说这是反的。在 Agent loop 里,大多数轮次不难。 决定调哪个工具、总结工具结果、判断查询要不要深度处理——这些是不断发生的简单轮次。在前沿模型上跑它们既慢又浪费。

Gemini 3.5 Flash 在 Google I/O 2026 发布,正是为这些轮次造的:低延迟、低成本、够用的质量。当简单轮次快 5 倍、便宜 20 倍,整个 Agent 都更跟手、账单还降了——而难轮次的质量丝毫不动。

Flash 擅长什么

把它当几个 Agent loop 的”快车道”用过后:

  • 路由和分类。 “这个查询要不要贵模型?” Flash 远低于一秒回答,近乎免费。这是价值最高的用法。
  • 总结和压缩。 在长工具输出或对话历史回到上下文前先浓缩。Flash 做这个没问题,还省下游的前沿 token。
  • 简单、明确的工具调用。 任务无歧义、schema 清晰时,Flash 填得对又快。
  • 高频并行工作。 fan out 50 个小子任务;Flash 的速度和成本让这变得实际,前沿模型则不行。

它在哪悄悄坑你

失败模式不戏剧化——Flash 不崩,只是在难轮次上做出微妙更差的决策:

  • 多文件代码改动。 它丢引用追踪、留下不一致。这里用 Claude Opus 4.7 或开源 coder 如 GLM-5.1
  • 微妙的多跳推理。 当答案需要串联好几个不显然的步骤,Flash 走捷径,看着合理实则错。
  • 歧义工具选择。 给五个重叠工具加一个含糊请求,它比前沿模型更常选错。

陷阱:Flash 用着太舒服,你会开始把所有东西都路由给它,然后 Agent 质量以难以察觉的方式退化,直到生产里出事。

Flash 启用的架构:两层路由

正确用法是把 Flash 当路由器模式的快层:

from openai import OpenAI

client = OpenAI(base_url="https://api.sandbase.ai/v1", api_key="sk-er-...")

def route(user_query: str) -> str:
    """用 Flash 判断这个要不要贵模型。"""
    r = client.chat.completions.create(
        model="google/gemini-3.5-flash",
        messages=[
            {"role": "system", "content": "只回 'simple' 或 'complex'。complex = 多文件代码、深度推理、含糊。"},
            {"role": "user", "content": user_query},
        ],
    )
    return r.choices[0].message.content.strip().lower()

def handle(user_query: str):
    tier = route(user_query)
    model = "anthropic/claude-opus-4.7" if "complex" in tier else "google/gemini-3.5-flash"
    return client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": user_query}],
    )

路由调用本身跑在 Flash 上,所以近乎免费,只加约 100-200ms。多数查询路由到 Flash 保持便宜;只有真正难的升级到前沿模型。实践中这比全程前沿模型省 60-80% 成本,且难轮次质量不降。

轮次类型模型原因
路由决策Gemini 3.5 Flash亚秒、近乎免费
总结 / 分类Gemini 3.5 Flash简单、高频
多文件代码改动前沿模型正确性 > 速度
深度推理前沿模型Flash 会走错捷径

FAQ

Q:Gemini 3.5 Flash 够格当我唯一的模型吗?

简单、轮次都不难的 Agent,也许。任何做多文件代码或深度推理的,不行——配个前沿模型并路由。Flash 单干会在难轮次上悄悄退化。

Q:它比前沿模型便宜/快多少?

单 token 大约便宜一个数量级,首 token 快几倍。确切比率会变,但差距大到足以改变你的架构。

Q:Flash 在 Agent 里单一最佳用途是什么?

路由/分诊轮次——判断查询要不要贵模型。它价值高是因为它对每个请求都跑,并把控你所有的前沿花费。

Q:便宜层用 Flash 还是小开源模型?

都行。Flash 是托管的且很快;小开源模型给你自托管。如果你已经在跑 Kimi K2.6 这类开源权重,小开源模型让全栈统一。

Q:能配 OpenAI SDK 吗?

能。通过 SandBase 走 Chat Completions——同一套 SDK,base_url=https://api.sandbase.ai/v1,模型 google/gemini-3.5-flash

官方细节见 Google Gemini 文档,当前价格见 Vertex AI 定价页

猜你喜欢