Back/harness engineering

Agent 持续学习的三层框架

Updated 2026-04-09
2 min read
283 words

Agent 持续学习的三层框架

来源:Harrison Chase (@hwchase17, LangChain 创始人),2026-04-05

核心论点

大多数关于 AI 持续学习的讨论只关注一件事:更新模型权重。但对于 AI Agent,学习可以在三个不同的层次发生:

  • 模型层 (Model)
  • Harness 层 (Harness)
  • 上下文层 (Context)

理解这些区别会改变你构建随时间改进的系统的方式。


三层架构定义

层次 定义 示例
Model 模型权重本身 claude-sonnet, gpt-4
Harness 驱动 Agent 的代码,以及始终属于 harness 的任何指令或工具 Claude Code, Pi
Context 存在于 harness 之外的额外上下文(指令、skills),用于配置 harness CLAUDE.md, /skills, SOUL.md

具体映射

Claude Code

  • Model: claude-sonnet 等
  • Harness: Claude Code
  • User context: CLAUDE.md, /skills, mcp.json

OpenClaw

  • Model: many
  • Harness: Pi + scaffolding
  • Agent context: SOUL.md, skills from clawhub

模型层的持续学习

最常见但也最困难的方式

技术:SFT, RL (如 GRPO)

核心挑战:灾难性遗忘 —— 当模型在新数据或任务上更新时,它倾向于在先前已知的事情上退化。这是一个开放的研究问题。

实践:多为 agent 级别训练(如 OpenAI codex 模型),而非用户级别。


Harness 层的持续学习

随着 harness 变得更加流行,有几篇论文讨论了如何优化 harness。

代表工作:Meta-Harness

核心思想:

  1. Agent 在循环中运行
  2. 在大量任务上运行并评估
  3. 将所有日志存储到文件系统
  4. 运行 coding agent 查看这些 traces,提出对 harness 代码的修改建议

实践:通常在 agent 级别完成。


上下文层的持续学习

"Context" 存在于 harness 之外,可用于配置它。包括指令、skills、工具等。这也通常被称为记忆。

可以在多个不同级别进行

Agent 级别

Agent 有持久的"记忆",并随时间更新自己的配置。

示例:OpenClaw 的 SOUL.md 会随时间更新。

Tenant 级别(用户、组织、团队)

每个租户获得自己的上下文,随时间更新。

示例

  • Hex's Context Studio
  • Decagon's Duet
  • Sierra's Explorer

混合匹配

可以同时拥有:

  • Agent 级别上下文更新
  • 用户级别上下文更新
  • 组织级别上下文更新

更新方式

  1. 事后离线作业 — 运行最近的 traces 提取洞察并更新上下文(OpenClaw 称为 "dreaming")
  2. 热路径中实时更新 — Agent 可以决定(或用户提示它)在处理核心任务时更新记忆

显式程度

  • 用户提示 Agent 记住
  • Agent 基于 harness 本身的指令自行记住

Traces 是核心

所有这些流程都由 traces(Agent 所做事情的完整执行路径)驱动。

用途

  • 更新模型:收集 traces,然后与 Prime Intellect 等合作训练自己的模型
  • 改进 harness:使用 LangSmith CLI 和 LangSmith Skills 给 coding agent 访问这些 traces
  • 学习上下文:harness 需要支持这一点(如 Deep Agents 支持用户级记忆、后台整合等)

关联

Sources

Linked from