标签: #coding-agent
Claude Opus 4.7 做 Agent:为什么它是 2026 的编码之王
实测 Claude Opus 4.7 做 AI Agent:SWE-bench 成绩、它在编码任务上真正强在哪、成本多少、以及什么时候该换便宜模型。
GLM-5.1:登顶 SWE-bench Pro 的开源权重模型
智谱的 GLM-5.1 在 2026 年拿下开源权重模型的 SWE-bench Pro 头名。这个 benchmark 到底测什么、GLM-5.1 的定位、以及怎么把它当编码 Agent 用。
Kimi K2.6 做 Agent:万亿参数开源权重实测
Moonshot 的 Kimi K2.6 是为 Agent 而生的 1T 参数开源 MoE 模型。它真正擅长什么、万亿参数在哪有用在哪没用、以及怎么接进 Agent loop。
Qwen 3.6 做 Agent:阿里高效开源工作马
Qwen 3.6 是阿里的开源 LLM,体量不大却在 SWE-bench 上越级打怪。为什么对 Agent 来说,一个更小更高效的模型常常是比巨型模型更聪明的默认。
拆解 OpenHands:AI 编码 Agent 怎么执行代码
拆解开源 AI 编码 Agent OpenHands 如何规划、改文件、在沙箱里跑代码。事件流循环、动作-观察循环,以及为什么隔离才是全部关键。
Claude Code vs Codex vs OpenClaw:编码 Agent 对比(2026)
2026 年 Claude Code vs Codex vs OpenClaw 对比:代码库理解、SWE-bench 分数、终端工作流,以及哪个终端编码 Agent 适合你。