模型介绍

Kimi K2.6 做 Agent:万亿参数开源权重实测

Cover image for Kimi K2.6 做 Agent:万亿参数开源权重实测

Moonshot 的 Kimi K2.6 是为 Agent 而生的 1T 参数开源 MoE 模型。它真正擅长什么、万亿参数在哪有用在哪没用、以及怎么接进 Agent loop。

TL;DR — Kimi K2.6 是一个 1 万亿参数的 Mixture-of-Experts 开源权重模型,也是第一个我愿意在正经 Agent loop 里当 coder 信任的开源模型。万亿参数的头条多半是营销——每个 token 只激活约 32B——但 agentic 工具使用是真的强。想要开源权重又不想为此降到小模型时选它。

万亿参数的小字

“1 万亿参数”是 Moonshot 主打的数字,技术上对,实践上有误导。K2.6 是 MoE 模型:整个网络约 1T 参数,但任意 token 只激活一小部分(约 32B)。所以你拿到的是巨型模型的知识容量,推理成本却接近中型模型。

对 Agent 来说这是对的权衡,不是噱头。Agent loop 每次迭代都重发不断变长的上下文,所以单 token 成本主导账单。一个稠密 1T 模型在这种场景下没法用。一个表现像 1T 但成本像 32B 的 MoE,正是你想要的。

如果你看过我们的开源框架盘点,这就是那个故事里的模型那一半:框架做编排,K2.6 做思考,没有任何东西离开你的基础设施。

它真正擅长什么

我把 K2.6 当编码 Agent 的大脑跑了几周。最突出的:

  • 工具调用不崩。 这正是多数开源模型输给闭源的地方。K2.6 能正确填 JSON 工具参数,很少发出畸形调用——那个会悄悄搞死 Agent loop 的失败模式。它不完全是 Claude Opus 4.7 的水平,但已经接近到大多数任务上差距不再重要。
  • 长程任务。 它能跨很多步骤守住一个计划,而不是三次工具调用后就忘了目标。对多步 Agent 工作,这比单次质量更重要。
  • 代码生成。 真实可运行代码上很强。不只是玩具片段——“按这些约束改这个文件”它处理得不错。

较弱的地方:

  • 微妙推理。 在最难的 debug 和架构问题上,闭源前沿模型仍然领先。90% 的 Agent 任务你碰不到那个天花板。
  • 边缘格式的打磨。 偶尔过度解释或加你没要的样板。收紧 system prompt。

接进 Agent

K2.6 通过 SandBase 以 OpenAI Chat Completions 格式提供,集成就是标准工具调用循环:

from openai import OpenAI

client = OpenAI(base_url="https://api.sandbase.ai/v1", api_key="sk-er-...")

messages = [
    {"role": "system", "content": "你是编码 Agent。用工具,做最小改动。"},
    {"role": "user", "content": "给注册处理函数加上输入校验。"},
]

resp = client.chat.completions.create(
    model="moonshotai/kimi-k2.6",
    messages=messages,
    tools=TOOLS,            # 你的函数 schema
    tool_choice="auto",
)

msg = resp.choices[0].message
# 若 msg.tool_calls:执行它们,追加结果,再循环。

跟任何用工具的 Agent 一样的 loop。K2.6 的意义在于:你可以跑这套,同时保留以后自托管权重的选项,而不用重写你的 Agent。

开源权重:为什么对 Agent 重要

闭源前沿模型很优秀,我每天都用。但”开源权重”给你三样专门对 Agent 重要的东西:

关注点闭源模型Kimi K2.6(开源)
数据离开你的网络是(API)否,若自托管
单 token 价格厂商定你的基础设施成本
模型不会在你脚下被弃用无保证你手里有权重
在你的领域上微调有限 / 否可以

对处理敏感代码或高频运行的 Agent,这些不是锦上添花。多数团队走的现实路径:先通过 SandBase 用 API 做原型,再决定自托管开源权重值不值那个运维成本。 K2.6 让这条路可行,因为 API 行为和开源权重是同一个模型。

K2.6 对比其他开源模型

2026 年开源权重空间很挤。快速定位:

  • Kimi K2.6 — 开源里 agentic 工具使用最好;当模型是 loop 里的 coder 时选它。
  • DeepSeek V4 — 1M 上下文、超便宜;需要塞巨量上下文时选它。
  • GLM-5.1 — SWE-bench Pro 登顶;纯编码 benchmark 选它。

没有单一赢家,它们各有取舍。对一个调工具、改代码的通用 Agent,K2.6 是我默认的开源选择。

FAQ

Q:万亿参数让它比 70B 模型好吗?

知识广度和 agentic 一致性上是的——但因为是 MoE,你付的大约是 32B 模型的推理成本,不是 1T。重点是架构,不是裸参数量。

Q:能自托管 Kimi K2.6 吗?

能,权重开源。完整模型需要不少 GPU 显存,但激活参数设计让推理成本可控。很多团队先在 SandBase API 上做原型,再决定自托管。

Q:编码上它跟 Claude Opus 4.7 比如何?

Opus 4.7 在最难的多文件重构和微妙推理上仍略胜。K2.6 缩小了大部分差距并给你开源权重。如果不需要开源权重,Opus 4.7 是更稳的 coder。

Q:最佳用例是什么?

模型当 coder/planner、且你想保留自托管选项的 Agent loop。它的工具调用可靠性正是它能在弱开源模型崩掉的地方跑通的原因。

Q:能配 OpenAI SDK 吗?

能。通过 SandBase 走 Chat Completions——同一套 SDK,base_url=https://api.sandbase.ai/v1,模型 moonshotai/kimi-k2.6

官方模型细节见 Moonshot AI,benchmark 背景见 SWE-bench 榜单

猜你喜欢