Kimi K2.6 做 Agent:万亿参数开源权重实测
Moonshot 的 Kimi K2.6 是为 Agent 而生的 1T 参数开源 MoE 模型。它真正擅长什么、万亿参数在哪有用在哪没用、以及怎么接进 Agent loop。
TL;DR — Kimi K2.6 是一个 1 万亿参数的 Mixture-of-Experts 开源权重模型,也是第一个我愿意在正经 Agent loop 里当 coder 信任的开源模型。万亿参数的头条多半是营销——每个 token 只激活约 32B——但 agentic 工具使用是真的强。想要开源权重又不想为此降到小模型时选它。
万亿参数的小字
“1 万亿参数”是 Moonshot 主打的数字,技术上对,实践上有误导。K2.6 是 MoE 模型:整个网络约 1T 参数,但任意 token 只激活一小部分(约 32B)。所以你拿到的是巨型模型的知识容量,推理成本却接近中型模型。
对 Agent 来说这是对的权衡,不是噱头。Agent loop 每次迭代都重发不断变长的上下文,所以单 token 成本主导账单。一个稠密 1T 模型在这种场景下没法用。一个表现像 1T 但成本像 32B 的 MoE,正是你想要的。
如果你看过我们的开源框架盘点,这就是那个故事里的模型那一半:框架做编排,K2.6 做思考,没有任何东西离开你的基础设施。
它真正擅长什么
我把 K2.6 当编码 Agent 的大脑跑了几周。最突出的:
- 工具调用不崩。 这正是多数开源模型输给闭源的地方。K2.6 能正确填 JSON 工具参数,很少发出畸形调用——那个会悄悄搞死 Agent loop 的失败模式。它不完全是 Claude Opus 4.7 的水平,但已经接近到大多数任务上差距不再重要。
- 长程任务。 它能跨很多步骤守住一个计划,而不是三次工具调用后就忘了目标。对多步 Agent 工作,这比单次质量更重要。
- 代码生成。 真实可运行代码上很强。不只是玩具片段——“按这些约束改这个文件”它处理得不错。
较弱的地方:
- 微妙推理。 在最难的 debug 和架构问题上,闭源前沿模型仍然领先。90% 的 Agent 任务你碰不到那个天花板。
- 边缘格式的打磨。 偶尔过度解释或加你没要的样板。收紧 system prompt。
接进 Agent
K2.6 通过 SandBase 以 OpenAI Chat Completions 格式提供,集成就是标准工具调用循环:
from openai import OpenAI
client = OpenAI(base_url="https://api.sandbase.ai/v1", api_key="sk-er-...")
messages = [
{"role": "system", "content": "你是编码 Agent。用工具,做最小改动。"},
{"role": "user", "content": "给注册处理函数加上输入校验。"},
]
resp = client.chat.completions.create(
model="moonshotai/kimi-k2.6",
messages=messages,
tools=TOOLS, # 你的函数 schema
tool_choice="auto",
)
msg = resp.choices[0].message
# 若 msg.tool_calls:执行它们,追加结果,再循环。
跟任何用工具的 Agent 一样的 loop。K2.6 的意义在于:你可以跑这套,同时保留以后自托管权重的选项,而不用重写你的 Agent。
开源权重:为什么对 Agent 重要
闭源前沿模型很优秀,我每天都用。但”开源权重”给你三样专门对 Agent 重要的东西:
| 关注点 | 闭源模型 | Kimi K2.6(开源) |
|---|---|---|
| 数据离开你的网络 | 是(API) | 否,若自托管 |
| 单 token 价格 | 厂商定 | 你的基础设施成本 |
| 模型不会在你脚下被弃用 | 无保证 | 你手里有权重 |
| 在你的领域上微调 | 有限 / 否 | 可以 |
对处理敏感代码或高频运行的 Agent,这些不是锦上添花。多数团队走的现实路径:先通过 SandBase 用 API 做原型,再决定自托管开源权重值不值那个运维成本。 K2.6 让这条路可行,因为 API 行为和开源权重是同一个模型。
K2.6 对比其他开源模型
2026 年开源权重空间很挤。快速定位:
- Kimi K2.6 — 开源里 agentic 工具使用最好;当模型是 loop 里的 coder 时选它。
- DeepSeek V4 — 1M 上下文、超便宜;需要塞巨量上下文时选它。
- GLM-5.1 — SWE-bench Pro 登顶;纯编码 benchmark 选它。
没有单一赢家,它们各有取舍。对一个调工具、改代码的通用 Agent,K2.6 是我默认的开源选择。
FAQ
Q:万亿参数让它比 70B 模型好吗?
知识广度和 agentic 一致性上是的——但因为是 MoE,你付的大约是 32B 模型的推理成本,不是 1T。重点是架构,不是裸参数量。
Q:能自托管 Kimi K2.6 吗?
能,权重开源。完整模型需要不少 GPU 显存,但激活参数设计让推理成本可控。很多团队先在 SandBase API 上做原型,再决定自托管。
Q:编码上它跟 Claude Opus 4.7 比如何?
Opus 4.7 在最难的多文件重构和微妙推理上仍略胜。K2.6 缩小了大部分差距并给你开源权重。如果不需要开源权重,Opus 4.7 是更稳的 coder。
Q:最佳用例是什么?
模型当 coder/planner、且你想保留自托管选项的 Agent loop。它的工具调用可靠性正是它能在弱开源模型崩掉的地方跑通的原因。
Q:能配 OpenAI SDK 吗?
能。通过 SandBase 走 Chat Completions——同一套 SDK,base_url=https://api.sandbase.ai/v1,模型 moonshotai/kimi-k2.6。
官方模型细节见 Moonshot AI,benchmark 背景见 SWE-bench 榜单。


