模型介绍

Qwen 3.6 做 Agent:阿里高效开源工作马

Cover image for Qwen 3.6 做 Agent:阿里高效开源工作马

Qwen 3.6 是阿里的开源 LLM,体量不大却在 SWE-bench 上越级打怪。为什么对 Agent 来说,一个更小更高效的模型常常是比巨型模型更聪明的默认。

TL;DR — Qwen 3.6 是阿里的开源模型,在你不用服务器农场就能自托管的体量上拿到 SWE-bench 约 77%。它教的那一课团队反复在学:对 Agent 而言,最好的模型通常是清得过你质量线的最小那个,不是你能找到的最大那个。很多 Agent 工作上,Qwen 3.6 清得过线。

“够大”胜过”最大”的理由

人人都想要万亿参数模型。然后看到 GPU 账单、或者延迟,就开始找能跑在自己硬件上的东西。Qwen 3.6 正是为这个现实造的:体量适合跑在单台能打的 GPU 机器上,同时还能摸到 SWE-bench 约 77%——这个分数不久前还是前沿级的。

对 Agent 来说,效率会复利。Agent loop 每次迭代都重发不断变长的上下文,所以一个单 token 更便宜更快的模型不只省一点——它在每个 loop 的每一步上省,整天省。一个比巨型模型便宜 5 倍跑的”够大”模型,一旦把”你能负担更多迭代、更多重试、更多并行子任务”算进去,最终结果往往更好

如果你看过开源框架盘点,Qwen 3.6 就是底下那个务实的模型选择:不是最炫的,但是那个悄悄交付的。

Qwen 3.6 做得好的地方

  • 同级别的编码。 SWE-bench 约 77% 意味着它解决相当大比例的真实 issue。对常规的修 bug、加功能 Agent 任务,绰绰有余。
  • 高效推理。 体量适合在普通硬件上自托管。这就是全部重点——你不需要集群来跑 Agent。
  • 扎实的工具调用。 标准 Agent loop 够可靠的 JSON 工具调用。最难的工具编排上不到 Kimi K2.6 水平,但常见情况下稳。
  • 多语言强。 中英文都强,如果你的 Agent 两边都服务很有用。

天花板在哪:最难的多文件重构和微妙架构推理仍然偏向 GLM-5.1 或闭源前沿模型如 Claude Opus 4.7。Qwen 3.6 是高效工作马,不是重量级冠军——而大多数 Agent 工作不需要重量级。

在 Agent 里用

标准 OpenAI 格式工具循环,通过 SandBase:

from openai import OpenAI

client = OpenAI(base_url="https://api.sandbase.ai/v1", api_key="sk-er-...")

messages = [
    {"role": "system", "content": "你是编码 Agent。做最小改动;结束前跑测试。"},
    {"role": "user", "content": "给 CLI 的 export 命令加一个 --json 标志。"},
]

resp = client.chat.completions.create(
    model="qwen/qwen-3.6",
    messages=messages,
    tools=TOOLS,
    tool_choice="auto",
)
# 标准 loop:执行 tool_calls,追加结果,重复。

因为它高效,Qwen 3.6 在路由器模式里当默认模型很亮眼:大部分轮次用 Qwen 处理,只把真正难的升级到更大模型。你便宜地做完大部分工作,把前沿花费留给真正需要的轮次。

什么时候 Qwen 3.6 是正确默认

你的情况Qwen 3.6 契合度
在单台 GPU 机器上自托管极好——为此而设计
常规编码 Agent(修 bug、加功能)强——77% SWE-bench 够用
最难的多文件重构升级到 GLM-5.1 / Opus 4.7
高频、成本敏感的 loop极好——效率复利
双语(中/英)Agent

心智模型:Qwen 3.6 是你的默认;更大的模型是你的升级路径。 所有东西先从 Qwen 起,量一下它在你的任务上哪里不够,只把那些轮次往上路由。多数团队发现升级集比担心的小。

FAQ

Q:SWE-bench 77% 算好吗?

对一个高效、可自托管的模型,非常好。它解决明显多数的真实 issue——常规编码 Agent 工作够用。最难的任务仍偏向更大模型,但那是少数工作负载。

Q:能在单 GPU 上跑 Qwen 3.6 吗?

那是它的设计目标——为普通硬件而非集群设计。确切需求看变体和量化,但比万亿参数模型好接触得多。

Q:Qwen 3.6 还是 DeepSeek V4?

DeepSeek V4 要巨大上下文和最低成本;Qwen 3.6 要高效自托管和扎实的全能编码。都是好的开源默认——按上下文大小还是硬件占用更重要来选。

Q:该当唯一模型用吗?

在路由器里当默认,可以。把最难的轮次升级到 GLM-5.1Opus 4.7。这样你拿到便宜吞吐量加关键处的前沿质量。

Q:能配 OpenAI SDK 吗?

能。通过 SandBase 走 Chat Completions——同一套 SDK,base_url=https://api.sandbase.ai/v1,模型 qwen/qwen-3.6

官方模型细节见 Qwen 的 GitHub,benchmark 背景见 SWE-bench 榜单

猜你喜欢