Agent 自我改进的六条路
来源:J0hn,2026-04-06
核心问题
如何让 Agent 不重新训练,就能越来越强?
六条技术路线
1. 输出自审 (Reflection)
核心思路:生成后审查,循环修正。
机制:
- Generator 接收输入,生成初始回答
- Critic 审查回答,判断问题
- 有问题则传回修改建议,Generator 重新生成
- Critic 不返回消息 = 通过(终止条件)
代表项目:LangGraph Reflection(173 stars)
局限:改进只发生在单次执行内,没有跨 session 的学习能力。
2. 持久记忆
核心思路:跨 session 积累知识和技能。
技术路径:
| 项目 | 机制 | Stars |
|---|---|---|
| Letta Code | API 层持久化,记忆绑定在 Agent 上而非 LLM | 2.1k |
| Agent Zero | 动态工具生成 + 记忆,遇新任务当场写工具 | 16.7k |
| Hermes Agent | 自动技能提炼 + 定期回顾(nudging) | 25.7k |
关键洞见:不改权重,改状态。在 LLM 参数冻结的情况下,通过外部持久化状态层积累知识。
3. 进化搜索
核心思路:用算法优化 prompt、工具和工作流。
EvoAgentX(2.7k stars):
- 自动生成多 Agent 工作流
- 同时优化三个层面:
- Prompt 文本(TextGrad)
- 工作流拓扑(AFlow)
- 配置参数(MIPRO)
- 实测:HotPotQA F1 提升 7.44%,MATH 准确率提升 10%,GAIA 最高提升 20%
AgentEvolver(1.3k stars,阿里巴巴):
- 自我提问:自主探索环境,生成训练任务
- 自我导航:用 ReMe 经验池管理跨任务成功经验
- 自我归因:ADCA-GRPO 算法做轨迹级因果信用分配
- 7B 模型在 AppWorld 上从 1.8% 跳到 32.4%
结论:小模型经过自我进化,能在特定任务上逼近数倍大的模型。
4. 对抗训练
核心思路:双 Agent 竞争产生训练信号。
Agent0(1.1k stars,北卡大学 + Salesforce):
- 零数据自我进化
- Curriculum Agent:生成越来越难的任务
- Executor Agent:用工具集成推理解题
- 关键动力学:Executor 变强 → 简单题无训练价值 → Curriculum 被迫生成更难任务
效果:
- Qwen3-8B-Base 数学推理提升 18%(超过需要人工标注的 R-Zero)
- 通用推理提升 24%
- Agent0-VL 在开源视觉语言模型中排名第一
结论:精心策划的「对抗压力」比精心标注的数据集更能激发模型潜力。
5. 自我修改
核心思路:改写自己的代码和改进机制。
HyperAgents(2.1k stars,Meta):
- DGM-Hyperagents(Darwin Gödel Machine 扩展版)
- Task Agent(干活)+ Meta Agent(改进)
- Meta Agent 能改 Task Agent 的代码,也能改自己的代码
- 改进的策略本身也在进化
自发涌现的能力:
- 系统自己发明了持久化记忆和性能追踪机制
- 无人预设,Agent 自己判断需要就写代码加上
跨领域迁移:
- 在论文审稿和机器人任务上进化的 HyperAgent,直接做 IMO 数学评分
- DGM-H 的 imp@50 达到 0.630(原版 DGM 约等于 0)
- DGM-H 学到的是通用「如何改进」策略,而非领域特定技巧
对比 Karpathy 的 autoresearch:
- autoresearch:AI 本身不变,能得到更好的实验结果
- HyperAgents:进化的不仅是结果,还有进化过程本身
6. 编排自优化
核心思路:自动优化 Agent 周围的「脚手架」(Harness)。
Meta-Harness(629 stars,斯坦福):
- 作者:Yoonho Lee(切尔西·芬恩博士生)、Omar Khattab(DSPy 作者)
- 翻档案 → 跑评估 → 存档的迭代循环
关键设计:给 Agent 完整的文件系统访问权限,取代压缩摘要。
- 只给分数和摘要:中位数准确率 34%,最高 38.7%
- 给完整文件系统:中位数 50%,最高远超摘要版
效果:
- 文本分类比人工最优方案 ACE 高 7.7 个百分点
- context 用量只有 ACE 的四分之一
- TerminalBench-2 通过率 76.4%,超过人工精调方案
核心洞见:Big Model 和 Big Harness,两层天花板,缺一不可。Meta-Harness 把 Harness 这一层的天花板尽量往模型天花板靠近。
总结
| 机制 | 核心思路 | 代表项目 | Stars |
|---|---|---|---|
| 输出自审 | 生成后审查,循环修正 | LangGraph Reflection | 173 |
| 持久记忆 | 跨 session 积累知识和技能 | Letta · Agent Zero · Hermes | 2.1k · 16.7k · 25.7k |
| 进化搜索 | 算法优化 prompt、工具、工作流 | EvoAgentX · AgentEvolver | 2.7k · 1.3k |
| 对抗训练 | 双 Agent 竞争产生训练信号 | Agent0 | 1.1k |
| 自我修改 | 改写自己的代码和改进机制 | HyperAgents | 2.1k |
| 编排自优化 | 自动优化 Harness 层 | Meta-Harness | 629 |
共同命题:AI 的学习,正在从训练阶段溢出到部署阶段。
如果说训练是「上学」,那这些机制就是毕业之后的……自学能力。
关联
- harness-engineering/overview — Harness Engineering 综述
- harness-engineering/self-verification-loops — 自我验证循环
- harness-engineering/continual-learning — 持续学习三层框架
- harness-engineering/skills-into-loops — Skills Into Loops