Agent 持续学习:三层框架
来源:hwchase17(LangChain),2026-04-05
三个层次
Agent 系统可以在三个不同层次上学习:
1. 模型层(Model)
更新模型权重本身。技术:SFT、RL(GRPO)等。
- 核心挑战:灾难性遗忘 — 更新新数据时,模型会降级之前已知的内容
- 通常在 agent 整体层面进行,而非用户粒度
2. Harness 层
更新驱动 agent 的代码、指令和工具。
- Meta-Harness 论文的方法:运行 agent → 评估 → 把 traces 存入文件系统 → 运行 coding agent 分析 traces → 建议 harness 代码修改
- 通常在 agent 层面进行
3. Context 层(记忆)
更新 harness 外部的配置:指令、skills、工具。
- Agent 级别:agent 有持久记忆,随时间更新自己的配置(如 OpenClaw 的 SOUL.md)
- 用户/组织级别:每个用户/团队有自己的 context(如 Hex Context Studio、Decagon Duet)
- 更新方式:离线批处理(分析 traces 提取洞见)或热路径(agent 运行时实时更新)
映射到具体产品
| 产品 | 模型层 | Harness 层 | Context 层 |
|---|---|---|---|
| Claude Code | claude-sonnet 等 | Claude Code 本身 | CLAUDE.md、/skills、mcp.json |
| OpenClaw | 多模型 | Pi + 脚手架 | SOUL.md、skills |
关联
- harness-engineering/overview — Harness Engineering 总览
- claude-code/overview — Claude Code 的三层结构
- harness-engineering/self-verification-loops — 自我验证是持续学习的基础
OpenAI 视角(2026-04-20)
OpenAI Chief Scientist Ako Paioki 确认 continual learning 是核心研究目标:
- 当前模型预训练后基本停止学习,真正的智能系统需要持续适应
- 关键障碍:灾难性遗忘、benchmark 设计困难、真实世界 reward signal 不清晰
- AI for Science 被视为重要试验场:有可验证结果,但复杂度足够
- 长期对齐挑战是 values generalization:模型在全新环境中会回退到什么价值观?