Agent 场景

Hermes 自我进化 Agent 的循环到底怎么工作的(2026)

Cover image for Hermes 自我进化 Agent 的循环到底怎么工作的(2026)

拆解 Hermes Agent 2026 年的自我进化循环:技能生成机制、它到底持久化了什么、以及那个 40% 任务提速从哪来。

TL;DR — Hermes 的自我进化循环不是魔法。是三个具体机制协同工作:技能提取(把解决过的问题变成可复用文档)、分层记忆(跨 session 携带上下文)、nudge 系统(Agent 提醒自己把学到的东西存下来)。那个 40% 的任务提速来自不重复解决已经解决过的问题。下面讲真正的机制。

“自我进化”到底是什么意思

自我进化 Agent 指的是:在你不改代码、不改 prompt 的前提下,它在重复任务上变得肉眼可见地更好。这是 Nous Research 对 Hermes Agent 的宣称。和大多数”会学习的 AI”营销不同,这背后有真实的机制。

大多数 Agent 是失忆症患者。每个 session 从零开始。你要把项目结构、偏好、过去的决策——再讲一遍。Hermes 打破这个循环,把记忆和学习当作核心架构,而不是附加件。我深挖了它到底怎么工作的,因为”Agent 会学习”这种话通常一推敲就崩。这个基本站得住。

三个机制

1. 技能提取

这是头号特性。当 Hermes 解决一个非平凡问题——比如搞清楚把应用部署到一台难搞的 staging 服务器的精确命令序列——它可以把这个流程写成一份技能文档。技能就是结构化的 Markdown:什么时候用、步骤、以及过程中发现的坑。

下次类似任务出现时,相关技能加载进 context。Agent 不再从头推导,而是照着已经搞定的流程走。

# 技能:部署到 staging

## 何时使用
用户要求把当前项目部署到 staging。

## 步骤
1.`npm run build` —— 不设 NODE_ENV 会失败,所以前面加 NODE_ENV=production
2. staging 服务器第一次连接会拒绝;等 3 秒后重试一次
3. 健康检查端点是 /healthz,不是 /health(踩坑踩出来的)

## 坑
- staging 的 DB 迁移必须在部署前跑,不是部署后

关键细节:那句”踩坑踩出来的”。技能捕获的不只是 happy path,还有 Agent 撞过又纠正的失败。复利价值就藏在这里。

2. 分层记忆

技能处理流程,记忆处理事实。Hermes 用两个 Markdown 文件:

  • user.md —— 关于你的持久事实。偏好、技术栈、时区、你喜欢的做事方式。
  • memory.md —— 随时间累积的决策和上下文的长期记忆。

两个都在每次 session 开始时加载。这就是我在Agent 记忆架构深度对比里讲的”温记忆始终加载”模式——加载便宜、信号高、无检索延迟。

3. Nudge 系统

这是大多数人忽略的部分。一个存技能的 Agent 不一定记得去存。Hermes 内置了自我提醒机制:完成复杂工作后,它会提示自己考虑这次经验值不值得持久化成技能或记忆更新。

没有这个,学习循环就停留在理论——能力存在但从不触发。Nudge 才是闭环的关键。这是个小东西,但作用很大,也是为什么 Hermes 的学习比那些技术上支持记忆但从不主动写入的框架更可靠。

那个 40% 从哪来

社区基准(TokenMix.ai)报告自动创建的技能能把研究类任务时间砍掉约 40%,对比全新 Agent 实例。这个数字听起来像营销,但机制很平凡:Agent 没有变聪明,只是没在重做已经做过的工作。

想想你自己的工作流。第一次给新项目配 CI 流水线,要试错好几个小时。第五次只要 20 分钟,因为你记得那些坑。Hermes 的技能库就是这种制度记忆,只不过是 Agent 的,而且在你扔给它的每个任务上复利累积。

代价:第一天优势为零。全新装的 Hermes 不比任何其他 Agent 强。那 40% 是个随技能库增长而逼近的渐近线。第一周看不出啥,第三个月差距就明显了。

和 Anthropic 的 Dreaming 比

Anthropic 在 2026 年 5 月给 Claude Managed Agents 上线了 “Dreaming”——一个 Agent 回顾过去 session、策展自己记忆的后台进程。听起来跟 Hermes 像,但机制不同:

维度Hermes SkillsAnthropic Dreaming
触发主动,任务中/后定时后台进程
产出可复用流程文档策展/改写的记忆存储
托管自托管,你拥有Anthropic 托管
可见性你能读/改技能文件不透明的整合
成本模型你的推理成本额外的后台 LLM 调用

Dreaming 让 Agent 记得更好。Hermes skills 让它在重复任务上执行更快。两者互补——原则上你可以用启用了 Dreaming 的 Claude 模型来跑 Hermes,两个都拿到。

用任意模型跑

Hermes 是模型无关的——用任何 OpenAI 兼容端点作为推理引擎。这对自我进化循环很重要,因为技能质量高度依赖做提取的模型。弱模型写出含糊没用的技能,强模型写出精确可复用的。

把 Hermes 指向 SandBase,可以按角色混用模型:

# cli-config.yaml
providers:
  - name: sandbase
    api_base: https://api.sandbase.ai/v1
    api_key: ${SANDBASE_API_KEY}
    models:
      - anthropic/claude-sonnet-4   # 主推理 + 写技能
      - google/gemini-2.5-flash     # 便宜快速的日常任务

一个实用模式:用强模型(Claude Sonnet)跑主循环和技能提取,用便宜模型(Gemini Flash)做日常总结。强模型写出的技能即使由便宜模型执行也持续受益。

值得吗

如果你跟 Agent 的工作是一次性、零散的,自我进化循环只增加开销没多少回报——你永远碰不到同一个任务两次。如果你的工作是重复的(同一个代码库、同样的部署目标、同类研究),复利是真实且可观的。

实话:Hermes 的学习循环是我见过最可信的”会变好的 Agent”实现,恰恰因为它底层很无聊。没有涌现智能,没有挥手糊弄。就是技能文件、记忆文件、加一个提醒去写它们的 nudge。能落地的无聊机制,胜过落不了地的炫酷机制。

FAQ

Q:Hermes 真的会学习,还是只是缓存?

更接近缓存流程,而非 ML 意义上的学习。没有权重更新或微调。它写可复用的技能文档,相关时加载。叫不叫”学习”是文字游戏——实际效果是它不再重复解决已解决的问题。

Q:技能会过时或出错吗?

会。如果你的部署流程变了,旧技能会主动误导 Agent。因为技能是你能读能改的纯 Markdown,你可以剪枝或修正。把技能库当代码对待——需要偶尔维护。

Q:这跟写好的 system prompt 有什么区别?

system prompt 是静态的,你手动维护。技能是 Agent 从真实经验(包括撞过的失败)里写出来的。Agent 自己长出 playbook,而不是你提前预测它会需要的一切。

Q:自我进化循环需要强模型吗?

技能提取需要——弱模型写含糊技能没帮助。技能执行用便宜模型通常够。跨模型分角色(通过 SandBase 这种路由)是性价比的甜点区。

Q:技能和记忆存在哪?

作为纯 Markdown 文件存在你跑 Hermes 的基础设施上。你完全拥有——无厂商锁定,无不透明云存储。这是自托管的好处;坏处是备份得你自己负责。

猜你喜欢