Agent 持续学习的三层框架
来源:Harrison Chase (@hwchase17, LangChain 创始人),2026-04-05
核心论点
大多数关于 AI 持续学习的讨论只关注一件事:更新模型权重。但对于 AI Agent,学习可以在三个不同的层次发生:
- 模型层 (Model)
- Harness 层 (Harness)
- 上下文层 (Context)
理解这些区别会改变你构建随时间改进的系统的方式。
三层架构定义
| 层次 | 定义 | 示例 |
|---|---|---|
| Model | 模型权重本身 | claude-sonnet, gpt-4 |
| Harness | 驱动 Agent 的代码,以及始终属于 harness 的任何指令或工具 | Claude Code, Pi |
| Context | 存在于 harness 之外的额外上下文(指令、skills),用于配置 harness | CLAUDE.md, /skills, SOUL.md |
具体映射
Claude Code:
- Model: claude-sonnet 等
- Harness: Claude Code
- User context: CLAUDE.md, /skills, mcp.json
OpenClaw:
- Model: many
- Harness: Pi + scaffolding
- Agent context: SOUL.md, skills from clawhub
模型层的持续学习
最常见但也最困难的方式。
技术:SFT, RL (如 GRPO)
核心挑战:灾难性遗忘 —— 当模型在新数据或任务上更新时,它倾向于在先前已知的事情上退化。这是一个开放的研究问题。
实践:多为 agent 级别训练(如 OpenAI codex 模型),而非用户级别。
Harness 层的持续学习
随着 harness 变得更加流行,有几篇论文讨论了如何优化 harness。
代表工作:Meta-Harness
核心思想:
- Agent 在循环中运行
- 在大量任务上运行并评估
- 将所有日志存储到文件系统
- 运行 coding agent 查看这些 traces,提出对 harness 代码的修改建议
实践:通常在 agent 级别完成。
上下文层的持续学习
"Context" 存在于 harness 之外,可用于配置它。包括指令、skills、工具等。这也通常被称为记忆。
可以在多个不同级别进行:
Agent 级别
Agent 有持久的"记忆",并随时间更新自己的配置。
示例:OpenClaw 的 SOUL.md 会随时间更新。
Tenant 级别(用户、组织、团队)
每个租户获得自己的上下文,随时间更新。
示例:
- Hex's Context Studio
- Decagon's Duet
- Sierra's Explorer
混合匹配
可以同时拥有:
- Agent 级别上下文更新
- 用户级别上下文更新
- 组织级别上下文更新
更新方式
- 事后离线作业 — 运行最近的 traces 提取洞察并更新上下文(OpenClaw 称为 "dreaming")
- 热路径中实时更新 — Agent 可以决定(或用户提示它)在处理核心任务时更新记忆
显式程度
- 用户提示 Agent 记住
- Agent 基于 harness 本身的指令自行记住
Traces 是核心
所有这些流程都由 traces(Agent 所做事情的完整执行路径)驱动。
用途:
- 更新模型:收集 traces,然后与 Prime Intellect 等合作训练自己的模型
- 改进 harness:使用 LangSmith CLI 和 LangSmith Skills 给 coding agent 访问这些 traces
- 学习上下文:harness 需要支持这一点(如 Deep Agents 支持用户级记忆、后台整合等)
关联
- harness-engineering/overview — Harness Engineering 综述
- Meta-Harness — Meta-Harness 优化
- claude-code/overview — Claude Code