模型介绍

Claude Opus 4.7 做 Agent:为什么它是 2026 的编码之王

Cover image for Claude Opus 4.7 做 Agent:为什么它是 2026 的编码之王

实测 Claude Opus 4.7 做 AI Agent:SWE-bench 成绩、它在编码任务上真正强在哪、成本多少、以及什么时候该换便宜模型。

TL;DR — Claude Opus 4.7 是我让 Agent 改真实代码库又不想被它改坏时会选的模型。SWE-bench Verified 64.3% 领先,长上下文多文件改动不丢线索,工具 schema 遵循度比我测过的任何模型都可靠。它也贵。把它当 loop 里的 planner/coder,便宜的轮次路由给别的模型。

4.7 到底改了什么

Anthropic 每次发版都被叫”新的编码之王”,多数时候只是 benchmark 涨几分加一篇公关稿。Opus 4.7 是近期第一个差距能在日常工作里感受到、而不只是 eval 套件里的版本。

头条数字是 SWE-bench Verified 64.3%——端到端解决真实 GitHub issue,Agent 读仓库、改文件、跑测试。这是 benchmark,benchmark 有它自己的骗人方式。实际用起来的感受不一样:模型不再在多文件改动中途忘事了。早期模型会把一个函数改得很漂亮,然后留三个调用点指着旧签名。4.7 基本能自己抓到这种问题。

如果你看过 Claude Sonnet 4 对比 GPT-4o,这就是再上一档:更慢、更贵,但在改错一处就要赔上一个 debug session 的任务上明显更稳。

它强在哪(和不强在哪)

把它当编码 Agent 的大脑跑了几周,老实说分两面。

它强在:

  • 多文件重构。 跨 12 个文件改一个类型名,它能追踪每一处引用,包括测试 fixture 里的。这是日常最大的改进。
  • 工具调用纪律。 给它五个带严格 JSON schema 的工具,它能选对并填对参数。畸形工具调用——那个会搞挂 Agent loop 的东西——在我的运行里降到接近零。
  • 长上下文还连贯。 加载 80K+ token 代码时,它回答”你为什么改这里?“给的是真实理由,不是编的。

它不强在:

  • 便宜的高频轮次。 分类意图、总结 diff、路由——这里用 Opus 4.7 就是烧钱。一个小开源模型 1/30 成本就搞定。
  • 纯速度。 它是个深思熟虑的模型。对期望亚秒响应的交互式聊天机器人,延迟很难受。对跑几分钟的异步 Agent,没人在意。
  • 开源权重。 它只有 API。如果你的硬性要求是自托管,看 Kimi K2.6DeepSeek V4

通过 SandBase 调用

Opus 4.7 在 SandBase 上走 OpenAI Chat Completions 格式,集成就是标准 SDK 换个 base_url

from openai import OpenAI

client = OpenAI(
    base_url="https://api.sandbase.ai/v1",
    api_key="sk-er-...",  # 你的 SandBase key
)

resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.7",
    messages=[
        {"role": "system", "content": "你是资深工程师。做最小、正确的改动。"},
        {"role": "user", "content": "/users 接口在空查询时返回 500,找到并修复。"},
    ],
    tools=[
        {
            "type": "function",
            "function": {
                "name": "read_file",
                "description": "从仓库读取文件",
                "parameters": {
                    "type": "object",
                    "properties": {"path": {"type": "string"}},
                    "required": ["path"],
                },
            },
        }
    ],
)

print(resp.choices[0].message)

集成就这些。模型处理工具调用循环,你负责执行工具并把结果喂回去。如果你的 Agent 会运行它写的代码,放到隔离沙箱里——见为什么自主 Agent 需要安全沙箱

成本这件事

这是团队最容易被吓到的地方。Opus 档位的定价意味着一次长 Agent 运行——读仓库、规划、改代码、跑测试、修、再来——能很快烧掉真金白银,因为每次循环都会重发不断变长的上下文。

有效的模式:别让 Opus 4.7 干所有事。 用路由器。

loop 里的任务模型原因
规划 + 写代码改动anthropic/claude-opus-4.7需要推理和工具纪律
总结 diff / 分类意图小开源模型便宜、快、够用
判断”这个查询复杂吗?“微型分类器亚 100ms、近乎免费

这就是把路由器模式用到模型选择上。实践中这能把账单砍掉 60-80%,且关键部分质量不降,因为贵模型只碰真正需要大脑的轮次。

你该用它吗

什么时候选 Opus 4.7:

  • 你的 Agent 改真实代码,正确性比延迟重要
  • 你在做多文件改动,丢失引用追踪是主要失败模式
  • 你的工具 schema 很严,畸形调用会搞挂你的 loop

什么时候跳过:

  • 你需要自托管 / 开源权重(走开源)
  • 工作负载是高频低复杂度轮次(用路由器 + 便宜模型)
  • 亚秒延迟是硬要求

2026 年大多数生产编码 Agent,正确答案不是”全程 Opus 4.7”,而是”Opus 4.7 当 coder,便宜模型当管道”。这样既拿到质量,又不会收到吓死人的账单。

FAQ

Q:Claude Opus 4.7 做 Agent 比 GPT-4o 好吗?

对改多文件仓库的编码 Agent,是的——工具调用可靠性和引用追踪明显高一档。对便宜的高频聊天,GPT-4o 或小开源模型更明智。取决于你的 loop 在干什么。

Q:SWE-bench Verified 分数是多少?

发布时 SWE-bench Verified 64.3%——2026 年初通用模型里的领先成绩。当方向参考,别当圣旨,你的仓库不是 SWE-bench。

Q:能自托管 Claude Opus 4.7 吗?

不能,只有 API。如果硬要自托管,看开源权重选项 Kimi K2.6DeepSeek V4GLM-5.1

Q:怎么压成本?

按复杂度路由轮次。让 Opus 4.7 做规划和代码改动;把总结、分类、路由交给便宜的小模型。路由器模式见Agent 设计模式指南

Q:能配 OpenAI SDK 吗?

能。通过 SandBase 它走 Chat Completions 格式——同一套 SDK,把 base_url 换成 https://api.sandbase.ai/v1,模型用 anthropic/claude-opus-4.7

官方细节见 Anthropic 文档SWE-bench 榜单

猜你喜欢