Self-Healing Agent Harness
来源:@intuitiveml — The Self-Healing Agent Harness(长文版本)、AI 简报 2026-04-28 Morning Twitter-only — @intuitiveml thread(推文版本)
一个将评估、工程修复和发布门禁合并为单一循环的生产级 Agent 系统。核心论点:当 AI 把构建时间从月缩短到小时,评估和 QA 如果保持分离,都会成为瓶颈。
核心原则
评估结果与工程修复必须闭环。 一个低分如果没有转化为工单,只是没人看的仪表盘;一个工单如果没有评分信号指引,只是盲修。两者必须同时存在,或同时不存在。
评分路径,不评分轨迹。 Agent 常发现对人类来说看起来奇怪但非常有效的非线性解法。惩罚路径不如评估产出 robust。
按模型采样,不按流量采样。 如果对全部流量做 flat 采样,主导模型的数据会淹没少数模型,导致后者投资不足。
组件一:The Grader(三裁判评审团)
异步评分端点,在每次助手回复后触发,完全不影响用户-facing 延迟。
采样策略
| 模型类型 | 采样率 | 原因 |
|---|---|---|
| 主导生产模型 | 10% | 流量大,flat 采样会淹没其他模型 |
| 少数/实验模型 | 100% | 快速达到统计显著性,支持小时级发布决策 |
分类路由器(Job 0)
轻量级分类器将交互映射到 12 个核心领域之一(coding、research、data analysis、task automation 等),确保每个裁判看到领域-conditioned 的评分标准。
三裁判并行
三个不同模型家族的裁判并行运行:Anthropic、OpenAI、Google。减少自偏好偏差。任何单个慢或失败的裁判不会阻塞判决,只降低该次评审的 quorum 大小。
裁判返回结构化输出:reasoning、category、quality(excellent/good/acceptable/poor)、issues(9 项分类法)、confidence(0-1)。
数学共识
quality 映射到 1-4 分,取平均值而非投票。这让 4 档量表变成连续指标(3.33 vs 2.66),在小样本下也能观察趋势。
组件二:The Engineering Pipeline(六步从分数到修复)
Job 1: Detect and Triage. Agent 拉取低分 verdict,做聚类。9 维严重度引擎评分:用户影响、速度、持续时间、告警关联、资源压力、延迟、4xx 率、爆炸半径、业务关键性。超过紧急阈值的前进,其余进入趋势跟踪日志。
Job 2: Investigate. 对前三聚类,Agent 遍历堆栈、拉 CloudWatch 日志、检查近期部署、查询数据库副本。指派根因并路由给人类,附带完整证据包。
Job 3: Auto-Fix. 高置信度紧急问题:分支代码、写修复、验证、提交 draft PR。安全护栏:
- 每次最多 3 个 PR(防止 reviewer 疲劳)
- 触及 .env、.github/、IAM 策略的 PR 自动关闭
- 类型错误阻塞提交,测试失败阻塞提交
Job 4: Verify. 查询 CloudWatch 过去 6 小时。零出现则关闭工单并贴入遥测证据;仍失败则更新错误计数并再次循环。
Job 5: Re-grade. 对关闭聚类 100% 采样接下来 24 小时。回归则重开工单并回滚修复。
Job 6: Report. 夜间摘要:聚类数、PR 数、回滚数、每类评分变化、每模型排行榜。
组件三:The Bridge(AI 门禁灰度发布)
没有 staging 环境。没有人工审批。没有 "looks good to me"。
重大 Agent 变更合并后,10% 真实流量路由到新 variant。Grader 实时 head-to-head 评分对抗当前生产基线。
升级阶梯:
- Fail: 平均分下降 >= 0.15(p < 0.05,最小 200 交互窗口),或确定性 bug hunter 检测到新错误聚类 spike → 中止发布,切回稳定流量,开 Linear 工单进入 Job 1
- Hold or improve: 5% → 20% → 50% → 100%,每步用新鲜窗口做同样统计测试
模型在真实用户流量上自证安全,爆炸半径被队列大小封顶。
与传统工作流的区别
| 传统 | Self-Healing Harness |
|---|---|
| 人类 QA 阅读 transcript | 三裁判 AI 面板评分 |
| 手动 bug 分类、排期、回归测试 | 六步 Agent 流水线 |
| Staging + 人工发布审批 | AI 门禁灰度发布 |
| 评估与 QA 分离 | 评估即 QA,同一漏斗 |
关联
- harness-engineering/overview — Harness Engineering 综述
- harness-engineering/ralph-harness-framework — ralph loop 最小实现
- harness-engineering/multi-agent-coordination-patterns — 多 Agent 协作模式