Agent 持续学习的三层框架

来源：Harrison Chase (@hwchase17, LangChain 创始人)，2026-04-05

核心论点

大多数关于 AI 持续学习的讨论只关注一件事：更新模型权重。但对于 AI Agent，学习可以在三个不同的层次发生：

模型层 (Model)
Harness 层 (Harness)
上下文层 (Context)

理解这些区别会改变你构建随时间改进的系统的方式。

三层架构定义

层次	定义	示例
Model	模型权重本身	claude-sonnet, gpt-4
Harness	驱动 Agent 的代码，以及始终属于 harness 的任何指令或工具	Claude Code, Pi
Context	存在于 harness 之外的额外上下文（指令、skills），用于配置 harness	CLAUDE.md, /skills, SOUL.md

具体映射

Claude Code：

Model: claude-sonnet 等
Harness: Claude Code
User context: CLAUDE.md, /skills, mcp.json

OpenClaw：

Model: many
Harness: Pi + scaffolding
Agent context: SOUL.md, skills from clawhub

模型层的持续学习

最常见但也最困难的方式。

技术：SFT, RL (如 GRPO)

核心挑战：灾难性遗忘 —— 当模型在新数据或任务上更新时，它倾向于在先前已知的事情上退化。这是一个开放的研究问题。

实践：多为 agent 级别训练（如 OpenAI codex 模型），而非用户级别。

Harness 层的持续学习

随着 harness 变得更加流行，有几篇论文讨论了如何优化 harness。

代表工作：Meta-Harness

核心思想：

Agent 在循环中运行
在大量任务上运行并评估
将所有日志存储到文件系统
运行 coding agent 查看这些 traces，提出对 harness 代码的修改建议

实践：通常在 agent 级别完成。

上下文层的持续学习

"Context" 存在于 harness 之外，可用于配置它。包括指令、skills、工具等。这也通常被称为记忆。

可以在多个不同级别进行：

Agent 级别

Agent 有持久的"记忆"，并随时间更新自己的配置。

示例：OpenClaw 的 SOUL.md 会随时间更新。

Tenant 级别（用户、组织、团队）

每个租户获得自己的上下文，随时间更新。

示例：

Hex's Context Studio
Decagon's Duet
Sierra's Explorer

混合匹配

可以同时拥有：

Agent 级别上下文更新
用户级别上下文更新
组织级别上下文更新

更新方式

事后离线作业 — 运行最近的 traces 提取洞察并更新上下文（OpenClaw 称为 "dreaming"）
热路径中实时更新 — Agent 可以决定（或用户提示它）在处理核心任务时更新记忆

显式程度

用户提示 Agent 记住
Agent 基于 harness 本身的指令自行记住

Traces 是核心

所有这些流程都由 traces（Agent 所做事情的完整执行路径）驱动。

用途：

更新模型：收集 traces，然后与 Prime Intellect 等合作训练自己的模型
改进 harness：使用 LangSmith CLI 和 LangSmith Skills 给 coding agent 访问这些 traces
学习上下文：harness 需要支持这一点（如 Deep Agents 支持用户级记忆、后台整合等）

关联

harness-engineering/overview — Harness Engineering 综述
Meta-Harness — Meta-Harness 优化
claude-code/overview — Claude Code

Sources

Continual learning for AI agents