Qwen 3.6 做 Agent:阿里高效开源工作马
Qwen 3.6 是阿里的开源 LLM,体量不大却在 SWE-bench 上越级打怪。为什么对 Agent 来说,一个更小更高效的模型常常是比巨型模型更聪明的默认。
TL;DR — Qwen 3.6 是阿里的开源模型,在你不用服务器农场就能自托管的体量上拿到 SWE-bench 约 77%。它教的那一课团队反复在学:对 Agent 而言,最好的模型通常是清得过你质量线的最小那个,不是你能找到的最大那个。很多 Agent 工作上,Qwen 3.6 清得过线。
“够大”胜过”最大”的理由
人人都想要万亿参数模型。然后看到 GPU 账单、或者延迟,就开始找能跑在自己硬件上的东西。Qwen 3.6 正是为这个现实造的:体量适合跑在单台能打的 GPU 机器上,同时还能摸到 SWE-bench 约 77%——这个分数不久前还是前沿级的。
对 Agent 来说,效率会复利。Agent loop 每次迭代都重发不断变长的上下文,所以一个单 token 更便宜更快的模型不只省一点——它在每个 loop 的每一步上省,整天省。一个比巨型模型便宜 5 倍跑的”够大”模型,一旦把”你能负担更多迭代、更多重试、更多并行子任务”算进去,最终结果往往更好。
如果你看过开源框架盘点,Qwen 3.6 就是底下那个务实的模型选择:不是最炫的,但是那个悄悄交付的。
Qwen 3.6 做得好的地方
- 同级别的编码。 SWE-bench 约 77% 意味着它解决相当大比例的真实 issue。对常规的修 bug、加功能 Agent 任务,绰绰有余。
- 高效推理。 体量适合在普通硬件上自托管。这就是全部重点——你不需要集群来跑 Agent。
- 扎实的工具调用。 标准 Agent loop 够可靠的 JSON 工具调用。最难的工具编排上不到 Kimi K2.6 水平,但常见情况下稳。
- 多语言强。 中英文都强,如果你的 Agent 两边都服务很有用。
天花板在哪:最难的多文件重构和微妙架构推理仍然偏向 GLM-5.1 或闭源前沿模型如 Claude Opus 4.7。Qwen 3.6 是高效工作马,不是重量级冠军——而大多数 Agent 工作不需要重量级。
在 Agent 里用
标准 OpenAI 格式工具循环,通过 SandBase:
from openai import OpenAI
client = OpenAI(base_url="https://api.sandbase.ai/v1", api_key="sk-er-...")
messages = [
{"role": "system", "content": "你是编码 Agent。做最小改动;结束前跑测试。"},
{"role": "user", "content": "给 CLI 的 export 命令加一个 --json 标志。"},
]
resp = client.chat.completions.create(
model="qwen/qwen-3.6",
messages=messages,
tools=TOOLS,
tool_choice="auto",
)
# 标准 loop:执行 tool_calls,追加结果,重复。
因为它高效,Qwen 3.6 在路由器模式里当默认模型很亮眼:大部分轮次用 Qwen 处理,只把真正难的升级到更大模型。你便宜地做完大部分工作,把前沿花费留给真正需要的轮次。
什么时候 Qwen 3.6 是正确默认
| 你的情况 | Qwen 3.6 契合度 |
|---|---|
| 在单台 GPU 机器上自托管 | 极好——为此而设计 |
| 常规编码 Agent(修 bug、加功能) | 强——77% SWE-bench 够用 |
| 最难的多文件重构 | 升级到 GLM-5.1 / Opus 4.7 |
| 高频、成本敏感的 loop | 极好——效率复利 |
| 双语(中/英)Agent | 强 |
心智模型:Qwen 3.6 是你的默认;更大的模型是你的升级路径。 所有东西先从 Qwen 起,量一下它在你的任务上哪里不够,只把那些轮次往上路由。多数团队发现升级集比担心的小。
FAQ
Q:SWE-bench 77% 算好吗?
对一个高效、可自托管的模型,非常好。它解决明显多数的真实 issue——常规编码 Agent 工作够用。最难的任务仍偏向更大模型,但那是少数工作负载。
Q:能在单 GPU 上跑 Qwen 3.6 吗?
那是它的设计目标——为普通硬件而非集群设计。确切需求看变体和量化,但比万亿参数模型好接触得多。
Q:Qwen 3.6 还是 DeepSeek V4?
DeepSeek V4 要巨大上下文和最低成本;Qwen 3.6 要高效自托管和扎实的全能编码。都是好的开源默认——按上下文大小还是硬件占用更重要来选。
Q:该当唯一模型用吗?
在路由器里当默认,可以。把最难的轮次升级到 GLM-5.1 或 Opus 4.7。这样你拿到便宜吞吐量加关键处的前沿质量。
Q:能配 OpenAI SDK 吗?
能。通过 SandBase 走 Chat Completions——同一套 SDK,base_url=https://api.sandbase.ai/v1,模型 qwen/qwen-3.6。
官方模型细节见 Qwen 的 GitHub,benchmark 背景见 SWE-bench 榜单。


