Kimi K2.6 做 Agent：万亿参数开源权重实测

TL;DR — Kimi K2.6 是一个 1 万亿参数的 Mixture-of-Experts 开源权重模型，也是第一个我愿意在正经 Agent loop 里当 coder 信任的开源模型。万亿参数的头条多半是营销——每个 token 只激活约 32B——但 agentic 工具使用是真的强。想要开源权重又不想为此降到小模型时选它。

万亿参数的小字

“1 万亿参数”是 Moonshot 主打的数字，技术上对，实践上有误导。K2.6 是 MoE 模型：整个网络约 1T 参数，但任意 token 只激活一小部分（约 32B）。所以你拿到的是巨型模型的知识容量，推理成本却接近中型模型。

对 Agent 来说这是对的权衡，不是噱头。Agent loop 每次迭代都重发不断变长的上下文，所以单 token 成本主导账单。一个稠密 1T 模型在这种场景下没法用。一个表现像 1T 但成本像 32B 的 MoE，正是你想要的。

如果你看过我们的开源框架盘点，这就是那个故事里的模型那一半：框架做编排，K2.6 做思考，没有任何东西离开你的基础设施。

它真正擅长什么

我把 K2.6 当编码 Agent 的大脑跑了几周。最突出的：

工具调用不崩。 这正是多数开源模型输给闭源的地方。K2.6 能正确填 JSON 工具参数，很少发出畸形调用——那个会悄悄搞死 Agent loop 的失败模式。它不完全是 Claude Opus 4.7 的水平，但已经接近到大多数任务上差距不再重要。
长程任务。 它能跨很多步骤守住一个计划，而不是三次工具调用后就忘了目标。对多步 Agent 工作，这比单次质量更重要。
代码生成。 真实可运行代码上很强。不只是玩具片段——“按这些约束改这个文件”它处理得不错。

较弱的地方：

微妙推理。 在最难的 debug 和架构问题上，闭源前沿模型仍然领先。90% 的 Agent 任务你碰不到那个天花板。
边缘格式的打磨。 偶尔过度解释或加你没要的样板。收紧 system prompt。

接进 Agent

K2.6 通过 SandBase 以 OpenAI Chat Completions 格式提供，集成就是标准工具调用循环：

from openai import OpenAI

client = OpenAI(base_url="https://api.sandbase.ai/v1", api_key="sk-er-...")

messages = [
    {"role": "system", "content": "你是编码 Agent。用工具，做最小改动。"},
    {"role": "user", "content": "给注册处理函数加上输入校验。"},
]

resp = client.chat.completions.create(
    model="moonshotai/kimi-k2.6",
    messages=messages,
    tools=TOOLS,            # 你的函数 schema
    tool_choice="auto",
)

msg = resp.choices[0].message
# 若 msg.tool_calls：执行它们，追加结果，再循环。

跟任何用工具的 Agent 一样的 loop。K2.6 的意义在于：你可以跑这套，同时保留以后自托管权重的选项，而不用重写你的 Agent。

开源权重：为什么对 Agent 重要

闭源前沿模型很优秀，我每天都用。但”开源权重”给你三样专门对 Agent 重要的东西：

关注点	闭源模型	Kimi K2.6（开源）
数据离开你的网络	是（API）	否，若自托管
单 token 价格	厂商定	你的基础设施成本
模型不会在你脚下被弃用	无保证	你手里有权重
在你的领域上微调	有限 / 否	可以

对处理敏感代码或高频运行的 Agent，这些不是锦上添花。多数团队走的现实路径：先通过 SandBase 用 API 做原型，再决定自托管开源权重值不值那个运维成本。 K2.6 让这条路可行，因为 API 行为和开源权重是同一个模型。

K2.6 对比其他开源模型

2026 年开源权重空间很挤。快速定位：

Kimi K2.6 — 开源里 agentic 工具使用最好；当模型是 loop 里的 coder 时选它。
DeepSeek V4 — 1M 上下文、超便宜；需要塞巨量上下文时选它。
GLM-5.1 — SWE-bench Pro 登顶；纯编码 benchmark 选它。

没有单一赢家，它们各有取舍。对一个调工具、改代码的通用 Agent，K2.6 是我默认的开源选择。

FAQ

Q：万亿参数让它比 70B 模型好吗？

知识广度和 agentic 一致性上是的——但因为是 MoE，你付的大约是 32B 模型的推理成本，不是 1T。重点是架构，不是裸参数量。

Q：能自托管 Kimi K2.6 吗？

能，权重开源。完整模型需要不少 GPU 显存，但激活参数设计让推理成本可控。很多团队先在 SandBase API 上做原型，再决定自托管。

Q：编码上它跟 Claude Opus 4.7 比如何？

Opus 4.7 在最难的多文件重构和微妙推理上仍略胜。K2.6 缩小了大部分差距并给你开源权重。如果不需要开源权重，Opus 4.7 是更稳的 coder。

Q：最佳用例是什么？

模型当 coder/planner、且你想保留自托管选项的 Agent loop。它的工具调用可靠性正是它能在弱开源模型崩掉的地方跑通的原因。

Q：能配 OpenAI SDK 吗？

能。通过 SandBase 走 Chat Completions——同一套 SDK，base_url=https://api.sandbase.ai/v1，模型 moonshotai/kimi-k2.6。

官方模型细节见 Moonshot AI，benchmark 背景见 SWE-bench 榜单。

万亿参数的小字

它真正擅长什么

接进 Agent

开源权重：为什么对 Agent 重要

K2.6 对比其他开源模型

FAQ

猜你喜欢

2026 最佳开源权重 LLM 做 AI Agent（横评）

Qwen 3.6 做 Agent：阿里高效开源工作马

Warp 详解：Agentic 开发环境