SandBase 博客
关于 AI 智能体、模型路由以及构建生产级 AI 系统的洞察。
Claude Opus 4.7 做 Agent:为什么它是 2026 的编码之王
实测 Claude Opus 4.7 做 AI Agent:SWE-bench 成绩、它在编码任务上真正强在哪、成本多少、以及什么时候该换便宜模型。
DeepSeek V4:给 Agent 的 1M 上下文开源 LLM(2026)
DeepSeek V4 以 MIT 许可、前沿模型零头的价格提供 1M token 上下文窗口。这个巨大窗口什么时候对 Agent 真有用,什么时候是陷阱。
Gemini 3.5 Flash 做 Agent:又快又便宜,什么时候用它
Google 的 Gemini 3.5 Flash 用一点推理深度换来速度和成本上的大赢。快模型什么时候是 Agent 的正确选择,什么时候会悄悄坑你。
GLM-5.1:登顶 SWE-bench Pro 的开源权重模型
智谱的 GLM-5.1 在 2026 年拿下开源权重模型的 SWE-bench Pro 头名。这个 benchmark 到底测什么、GLM-5.1 的定位、以及怎么把它当编码 Agent 用。
Kimi K2.6 做 Agent:万亿参数开源权重实测
Moonshot 的 Kimi K2.6 是为 Agent 而生的 1T 参数开源 MoE 模型。它真正擅长什么、万亿参数在哪有用在哪没用、以及怎么接进 Agent loop。
2026 最佳开源权重 LLM 做 AI Agent(横评)
2026 年值得当 AI Agent 跑的开源权重 LLM 正面对决指南:Kimi K2.6、DeepSeek V4、GLM-5.1、Qwen 3.6。工具使用、上下文、编码还是成本,分别选谁。
Qwen 3.6 做 Agent:阿里高效开源工作马
Qwen 3.6 是阿里的开源 LLM,体量不大却在 SWE-bench 上越级打怪。为什么对 Agent 来说,一个更小更高效的模型常常是比巨型模型更聪明的默认。