GLM-5.1:登顶 SWE-bench Pro 的开源权重模型
智谱的 GLM-5.1 在 2026 年拿下开源权重模型的 SWE-bench Pro 头名。这个 benchmark 到底测什么、GLM-5.1 的定位、以及怎么把它当编码 Agent 用。
TL;DR — GLM-5.1 是智谱 AI 的开源权重模型,2026 年拿下开源模型里 SWE-bench Pro 的头名。SWE-bench Pro 是 SWE-bench Verified 更难、抗污染的版本,所以这个结果比普通榜单第一更有分量。如果你的 Agent 干的就是纯编码、又想要开源权重,GLM-5.1 该和 Kimi K2.6 一起进你的候选名单。
SWE-bench Pro 到底测什么
榜单第一只有在你知道榜单测什么时才有意义。SWE-bench Pro 是更严格的变体:更难的真实 GitHub issue,加了防训练数据污染的措施——而污染会在原版 SWE-bench 上虚高分数。模型没法像在简单 eval 上那样靠背答案拿到好的 Pro 分。
所以智谱说 GLM-5.1 在开源权重模型里登顶 SWE-bench Pro,老实的解读是:在困难、未见过的编码任务上,它端到端解决的 issue 比任何你能下载自己跑的模型都多。这是个比”最好的开源模型”更窄也更有用的说法,也正是你做编码 Agent 时该在意的那个。
GLM-5.1 的定位
我把开源权重编码模型当成一小撮专家,而不是一个排名:
| 模型 | 最强项 | 什么时候选 |
|---|---|---|
| GLM-5.1 | 困难编码任务(SWE-bench Pro) | Agent 核心工作是解决代码 issue |
| Kimi K2.6 | 长程 agentic 工具使用 | loop 工具密集且多步 |
| DeepSeek V4 | 巨大上下文、最低成本 | 上下文密集或高频工作 |
GLM-5.1 的甜点区是那种 loop 由”读这段代码、找出 bug、写修复、验证”主导的 Agent。如果这是你的工作负载、又需要开源权重,它是个强默认。如果你的 loop 更多是编排很多工具或啃巨量上下文,另两个可能更合适。
当编码 Agent 用
GLM-5.1 通过 SandBase 以 OpenAI Chat Completions 格式提供。一个最小的修 bug loop:
from openai import OpenAI
client = OpenAI(base_url="https://api.sandbase.ai/v1", api_key="sk-er-...")
TOOLS = [
{"type": "function", "function": {
"name": "run_tests",
"description": "跑仓库测试套件并返回输出",
"parameters": {"type": "object", "properties": {}, "required": []},
}},
# ... read_file, write_file 等
]
messages = [
{"role": "system", "content": "你是编码 Agent。修好失败的测试。最小改动,然后跑测试。"},
{"role": "user", "content": "test_auth.py::test_expired_token 失败了,修复它。"},
]
resp = client.chat.completions.create(
model="zhipu/glm-5.1",
messages=messages,
tools=TOOLS,
tool_choice="auto",
)
# 执行返回的 tool_calls,追加结果,循环到测试通过。
因为 GLM-5.1 在解决 issue这个任务上确实强,loop 在编码问题上往往用更少迭代就收敛——而由于每次迭代都重发不断变长的上下文,这也是个悄悄的成本赢点。它产出的代码放隔离沙箱里跑,别放你的开发机。
开源权重,同样的故事
GLM-5.1 是开源权重的理由,和适用于整个开源模型类别的那个一样:自托管的话代码不离开你的网络、你掌控成本曲线、模型不会在你的 Agent 脚下被弃用。对一个碰专有代码的编码 Agent,这些往往比几分 benchmark 更能定胜负。
现实路径:先对 SandBase API 做原型,确认 GLM-5.1 在你的仓库上真的赢(benchmark 不是你的代码库),再决定自托管权重值不值那个 GPU 运维。
FAQ
Q:SWE-bench Pro 比 SWE-bench Verified 难吗?
是的。Pro 用更难的 issue 加抗污染措施,所以整体分数更低也更难刷。Pro 头名比 Verified 头名更有意义。
Q:GLM-5.1 比 Kimi K2.6 好吗?
纯困难编码任务上,GLM-5.1 的 SWE-bench Pro 领先说是的。工具密集、长程的 Agent loop 上,K2.6 的工具使用一致性可能更重要。各有专长——按你的 loop 匹配。
Q:能自托管 GLM-5.1 吗?
能,开源权重。很多团队先在 SandBase API 上做原型,确认它在实际代码上赢了再自托管。
Q:跟 Claude Opus 4.7 这种闭源模型比如何?
Opus 4.7 仍领跑整体编码前沿,但只有 API。GLM-5.1 是在困难编码任务上最接近的开源权重选项。
Q:能配 OpenAI SDK 吗?
能。通过 SandBase 走 Chat Completions——同一套 SDK,base_url=https://api.sandbase.ai/v1,模型 zhipu/glm-5.1。
官方模型细节见 智谱 AI,benchmark 背景见 SWE-bench 榜单。


