Agent 持续学习:三层框架
What it is
Agent 持续学习不只发生在模型权重里。对实际 agent 系统来说,学习可以发生在三层:Model、Harness、Context。模型层更新权重,harness 层更新代码和控制逻辑,context 层更新指令、skills、记忆、工具配置和组织知识。
Heuristic Learning 提供了第四个相邻视角:持续学习还可以表现为 coding agent 持续维护一个可测试、可回放、可压缩的软件系统,而不是每次都更新模型权重。
Why it matters
这一区分能防止把所有“学习”都误解为训练模型。当前多数个人和团队可操作的持续学习,实际上发生在 harness 层和 context 层:分析 traces、修正 workflow、沉淀 skills、更新 CLAUDE.md / SOUL.md / wiki,而不是微调模型权重。
Evidence across sources
- Harrison Chase 将 agent 学习分为 Model、Harness、Context 三层,并指出 traces 是驱动三层改进的共同材料。
- OpenAI Chief Scientist Ako Paioki 将 continual learning 列为核心研究目标,但承认灾难性遗忘和真实 reward signal 仍是障碍。
- Demis Hassabis 将持续学习、长程推理、记忆列为 AGI 三个未解问题。
- Dwarkesh Patel 对突破时间线更保守,暗示短期 agent 进步更可能来自 harness/context 而非模型权重持续学习。
- Jiayi Weng 的 Heuristic Learning 实验把反馈、测试、replay、日志、代码编辑和压缩视为一种持续学习路径:旧能力不只存在于权重里,也可以固化为 regression tests、golden traces 和可维护的软件结构。
- Dwarkesh Patel 引用 Karpathy 观点:人类工作记忆会定期 wiped,真正靠的是 consolidation 过程将经验蒸馏进大脑;这暗示 agent 长期记忆需要周期性整合而非无限累积(2026-05-17)。
Three Layers
| Layer | What changes | Practical owner |
|---|---|---|
| Model | weights via SFT/RL/continual training | model labs |
| Harness | code, control flow, evaluators, tool policy | product/infra teams |
| Context | memory, instructions, skills, wiki, tenant knowledge | agent owner / organization |
Heuristic systems as adjacent layer
Heuristic Learning sits between Harness and Model. It uses the harness to absorb feedback quickly, maintains explicit code/tests/replays as memory, and may later produce cleaner training data for model updates. This matters because it gives continual learning a near-term engineering path even when weight-level continual learning remains hard.
Consolidation vs accumulation
Karpathy 提出一个与人类学习类比的修正:人类工作记忆会定期 wiped,真正靠的是 consolidation 过程(如睡眠)将经验蒸馏进大脑。这与「让模型一直累积、实时微调」的持续学习思路形成张力。启示是:agent 的长期学习可能需要周期性整合(类似睡眠/审计),而非纯粹的流式追加或无限上下文膨胀。这对当前 memory substrate 的设计有直接影响——压缩和整合应成为一等机制,而非事后优化(dwarkesh_sp, 2026-05-17)。
Fable 5 记忆能力实验(2026-06-11)
来源:RLanceMartin — Designing loops with Fable 5
Anthropic 工程师使用 Continual Learning Bench 1.0 对比了 Fable 5、Opus 4.7 和 Sonnet 4.6 在跨 session 记忆任务中的表现。任务要求 agent 在访问 SQL 数据库的前提下回答连续问题,每个问题是一个独立 session,记忆通过挂载文件系统提供。
记忆能力五阶段递进:
| 阶段 | 行为 | Fable 5 | Opus 4.7 | Sonnet 4.6 |
|---|---|---|---|---|
| 1. 失败(Fail) | 做错并记录 | 完成 | 完成 | 完成 |
| 2. 调查(Investigate) | 在继续前弄清原因 | 完成 | 部分完成 | 极少完成 |
| 3. 验证(Verify) | 将诊断转化为可检查的事实 | 完成 | 部分完成,覆盖率 7-33%(中位数 ~17%) | 极少完成 |
| 4. 提炼(Distill) | 将验证结果转化为通用规则 | 完成 | 未完成 | 未完成 |
| 5. 查阅(Consult) | 读取规则而非重新推导 | 完成 | 未完成 | 未完成 |
关键发现:
- Fable 5 在最优运行中验证覆盖率达到 73%(22/30 问题),并将学习成果提炼为通用规则以辅助未来任务
- Opus 4.7 能创建带不确定性标记的 schema 参考(如"possibly prc in cents? Verify."),但验证覆盖率低
- Sonnet 4.6 的记忆存储多为失败笔记和开放猜测(如"maybe prc instead of prc_usd?"),很少查阅先前笔记
- 提升 Sonnet 4.6 表现需要任务特定的记忆指令,而 Fable 5 倾向于自主完成完整递进
设计启示:
- 有效记忆使用需要明确的递进结构:失败 → 调查 → 验证 → 提炼 → 查阅
- 仅提供记忆存储不足以保证跨 session 学习;模型需要被引导完成完整验证和提炼闭环
- CMA 的 memory 功能(挂载文件系统,跨 session 共享)是实现这一模式的基础设施
Fable 5 记忆能力实验(2026-06-11)
来源:RLanceMartin — Designing loops with Fable 5
Anthropic 工程师使用 Continual Learning Bench 1.0 对比了 Fable 5、Opus 4.7 和 Sonnet 4.6 在跨 session 记忆任务中的表现。任务要求 agent 在访问 SQL 数据库的前提下回答连续问题,每个问题是一个独立 session,记忆通过挂载文件系统提供。
记忆能力五阶段递进:
| 阶段 | 行为 | Fable 5 | Opus 4.7 | Sonnet 4.6 |
|---|---|---|---|---|
| 1. 失败(Fail) | 做错并记录 | 完成 | 完成 | 完成 |
| 2. 调查(Investigate) | 在继续前弄清原因 | 完成 | 部分完成 | 极少完成 |
| 3. 验证(Verify) | 将诊断转化为可检查的事实 | 完成 | 部分完成,覆盖率 7-33%(中位数 ~17%) | 极少完成 |
| 4. 提炼(Distill) | 将验证结果转化为通用规则 | 完成 | 未完成 | 未完成 |
| 5. 查阅(Consult) | 读取规则而非重新推导 | 完成 | 未完成 | 未完成 |
关键发现:
- Fable 5 在最优运行中验证覆盖率达到 73%(22/30 问题),并将学习成果提炼为通用规则以辅助未来任务
- Opus 4.7 能创建带不确定性标记的 schema 参考(如"possibly prc in cents? Verify."),但验证覆盖率低
- Sonnet 4.6 的记忆存储多为失败笔记和开放猜测(如"maybe prc instead of prc_usd?"),很少查阅先前笔记
- 提升 Sonnet 4.6 表现需要任务特定的记忆指令,而 Fable 5 倾向于自主完成完整递进
设计启示:
- 有效记忆使用需要明确的递进结构:失败 → 调查 → 验证 → 提炼 → 查阅
- 仅提供记忆存储不足以保证跨 session 学习;模型需要被引导完成完整验证和提炼闭环
- CMA 的 memory 功能(挂载文件系统,跨 session 共享)是实现这一模式的基础设施
The Era of Experience: a higher-level paradigm
核心区分:
| 人类数据的时代 | 经验的时代 |
|---|---|
| 从互联网提取已有人类知识 | 智能体与环境大规模互动,自行发现新知识 |
| 学习材料 = 语言、标注、偏好 | 学习材料 = 行动、观察、世界反馈 |
| 奖励由标注者定义 | 奖励由行动对世界产生的真实后果定义 |
| 推理是抽象的、脱离情境的 | 推理扎根于实际互动经验 |
| 类比:化石燃料(已耗尽大部分容易收益) | 类比:可再生能源(无上限) |
Silver 认为 LLM 把人类已有知识装进模型的能力"快做到头了"——这是"AI 的浅层问题"。真正的深层问题是"一个智能体如何为自己学习",就像婴儿通过玩耍、探索、给自己设定小目标来发展技能一样。
三个经验驱动案例:
- AlphaZero — 从零开始(随机权重),仅用 MCTS + Policy/Value 两个网络,几小时内击败世界冠军程序。证明纯经验学习可以达成超人水平。
- AlphaProof — 将数学形式化为 Lean 语言中的博弈,用 AlphaZero 方法学习"玩数学"。2024年成为首个 IMO 获奖 AI(距金牌仅一分),证明过程完全自行发现。
- DiscoRL(发现 RL 算法) — 元层面应用:用神经网络表示学习算法本身,让它在各种环境中摸索最优算法。最终超越了人类设计的最佳 RL 算法(MuZero),且可迁移到未见环境。展现了新的 scaling law:接触经验越多,越善于从经验中学习。
与三层框架的关系:
- "经验的时代"回答的是学什么(从人类数据转向环境经验)
- 三层框架回答的是在哪学(Model / Harness / Context 三层分别更新什么)
- Heuristic Learning 回答的是怎么学(用 coding agent 维护可测试的软件系统,而不是只更新权重)
三者共同构成了从"预训练→微调"范式向"持续经验驱动"范式迁移的完整图景。
Open questions
- Context 层学习什么时候会变成 memory drift?
- Traces 应如何采样、压缩和审计,才能既可学习又不污染未来判断?
- 个人 wiki 的
ai_draft -> human_verified流程是否可以视为 context-layer continual learning? - Heuristic Learning 的适用边界在哪里,尤其是复杂感知和长程泛化任务?