模型介绍

GLM-5.1:登顶 SWE-bench Pro 的开源权重模型

Cover image for GLM-5.1:登顶 SWE-bench Pro 的开源权重模型

智谱的 GLM-5.1 在 2026 年拿下开源权重模型的 SWE-bench Pro 头名。这个 benchmark 到底测什么、GLM-5.1 的定位、以及怎么把它当编码 Agent 用。

TL;DR — GLM-5.1 是智谱 AI 的开源权重模型,2026 年拿下开源模型里 SWE-bench Pro 的头名。SWE-bench Pro 是 SWE-bench Verified 更难、抗污染的版本,所以这个结果比普通榜单第一更有分量。如果你的 Agent 干的就是纯编码、又想要开源权重,GLM-5.1 该和 Kimi K2.6 一起进你的候选名单。

SWE-bench Pro 到底测什么

榜单第一只有在你知道榜单测什么时才有意义。SWE-bench Pro 是更严格的变体:更难的真实 GitHub issue,加了防训练数据污染的措施——而污染会在原版 SWE-bench 上虚高分数。模型没法像在简单 eval 上那样靠背答案拿到好的 Pro 分。

所以智谱说 GLM-5.1 在开源权重模型里登顶 SWE-bench Pro,老实的解读是:在困难、未见过的编码任务上,它端到端解决的 issue 比任何你能下载自己跑的模型都多。这是个比”最好的开源模型”更窄也更有用的说法,也正是你做编码 Agent 时该在意的那个。

GLM-5.1 的定位

我把开源权重编码模型当成一小撮专家,而不是一个排名:

模型最强项什么时候选
GLM-5.1困难编码任务(SWE-bench Pro)Agent 核心工作是解决代码 issue
Kimi K2.6长程 agentic 工具使用loop 工具密集且多步
DeepSeek V4巨大上下文、最低成本上下文密集或高频工作

GLM-5.1 的甜点区是那种 loop 由”读这段代码、找出 bug、写修复、验证”主导的 Agent。如果这是你的工作负载、又需要开源权重,它是个强默认。如果你的 loop 更多是编排很多工具或啃巨量上下文,另两个可能更合适。

当编码 Agent 用

GLM-5.1 通过 SandBase 以 OpenAI Chat Completions 格式提供。一个最小的修 bug loop:

from openai import OpenAI

client = OpenAI(base_url="https://api.sandbase.ai/v1", api_key="sk-er-...")

TOOLS = [
    {"type": "function", "function": {
        "name": "run_tests",
        "description": "跑仓库测试套件并返回输出",
        "parameters": {"type": "object", "properties": {}, "required": []},
    }},
    # ... read_file, write_file 等
]

messages = [
    {"role": "system", "content": "你是编码 Agent。修好失败的测试。最小改动,然后跑测试。"},
    {"role": "user", "content": "test_auth.py::test_expired_token 失败了,修复它。"},
]

resp = client.chat.completions.create(
    model="zhipu/glm-5.1",
    messages=messages,
    tools=TOOLS,
    tool_choice="auto",
)
# 执行返回的 tool_calls,追加结果,循环到测试通过。

因为 GLM-5.1 在解决 issue这个任务上确实强,loop 在编码问题上往往用更少迭代就收敛——而由于每次迭代都重发不断变长的上下文,这也是个悄悄的成本赢点。它产出的代码放隔离沙箱里跑,别放你的开发机。

开源权重,同样的故事

GLM-5.1 是开源权重的理由,和适用于整个开源模型类别的那个一样:自托管的话代码不离开你的网络、你掌控成本曲线、模型不会在你的 Agent 脚下被弃用。对一个碰专有代码的编码 Agent,这些往往比几分 benchmark 更能定胜负。

现实路径:先对 SandBase API 做原型,确认 GLM-5.1 在你的仓库上真的赢(benchmark 不是你的代码库),再决定自托管权重值不值那个 GPU 运维。

FAQ

Q:SWE-bench Pro 比 SWE-bench Verified 难吗?

是的。Pro 用更难的 issue 加抗污染措施,所以整体分数更低也更难刷。Pro 头名比 Verified 头名更有意义。

Q:GLM-5.1 比 Kimi K2.6 好吗?

纯困难编码任务上,GLM-5.1 的 SWE-bench Pro 领先说是的。工具密集、长程的 Agent loop 上,K2.6 的工具使用一致性可能更重要。各有专长——按你的 loop 匹配。

Q:能自托管 GLM-5.1 吗?

能,开源权重。很多团队先在 SandBase API 上做原型,确认它在实际代码上赢了再自托管。

Q:跟 Claude Opus 4.7 这种闭源模型比如何?

Opus 4.7 仍领跑整体编码前沿,但只有 API。GLM-5.1 是在困难编码任务上最接近的开源权重选项。

Q:能配 OpenAI SDK 吗?

能。通过 SandBase 走 Chat Completions——同一套 SDK,base_url=https://api.sandbase.ai/v1,模型 zhipu/glm-5.1

官方模型细节见 智谱 AI,benchmark 背景见 SWE-bench 榜单

猜你喜欢