Skip to content
Back/Harness Engineering

Self-Healing Agent Harness

View in Graph
Updated 2026-05-03
2 min read
280 words

Self-Healing Agent Harness

来源:@intuitiveml — The Self-Healing Agent Harness(长文版本)、AI 简报 2026-04-28 Morning Twitter-only — @intuitiveml thread(推文版本)

一个将评估、工程修复和发布门禁合并为单一循环的生产级 Agent 系统。核心论点:当 AI 把构建时间从月缩短到小时,评估和 QA 如果保持分离,都会成为瓶颈。

核心原则

评估结果与工程修复必须闭环。 一个低分如果没有转化为工单,只是没人看的仪表盘;一个工单如果没有评分信号指引,只是盲修。两者必须同时存在,或同时不存在。

评分路径,不评分轨迹。 Agent 常发现对人类来说看起来奇怪但非常有效的非线性解法。惩罚路径不如评估产出 robust。

按模型采样,不按流量采样。 如果对全部流量做 flat 采样,主导模型的数据会淹没少数模型,导致后者投资不足。


组件一:The Grader(三裁判评审团)

异步评分端点,在每次助手回复后触发,完全不影响用户-facing 延迟。

采样策略

模型类型 采样率 原因
主导生产模型 10% 流量大,flat 采样会淹没其他模型
少数/实验模型 100% 快速达到统计显著性,支持小时级发布决策

分类路由器(Job 0)

轻量级分类器将交互映射到 12 个核心领域之一(coding、research、data analysis、task automation 等),确保每个裁判看到领域-conditioned 的评分标准。

三裁判并行

三个不同模型家族的裁判并行运行:Anthropic、OpenAI、Google。减少自偏好偏差。任何单个慢或失败的裁判不会阻塞判决,只降低该次评审的 quorum 大小。

裁判返回结构化输出:reasoning、category、quality(excellent/good/acceptable/poor)、issues(9 项分类法)、confidence(0-1)。

数学共识

quality 映射到 1-4 分,取平均值而非投票。这让 4 档量表变成连续指标(3.33 vs 2.66),在小样本下也能观察趋势。


组件二:The Engineering Pipeline(六步从分数到修复)

Job 1: Detect and Triage. Agent 拉取低分 verdict,做聚类。9 维严重度引擎评分:用户影响、速度、持续时间、告警关联、资源压力、延迟、4xx 率、爆炸半径、业务关键性。超过紧急阈值的前进,其余进入趋势跟踪日志。

Job 2: Investigate. 对前三聚类,Agent 遍历堆栈、拉 CloudWatch 日志、检查近期部署、查询数据库副本。指派根因并路由给人类,附带完整证据包。

Job 3: Auto-Fix. 高置信度紧急问题:分支代码、写修复、验证、提交 draft PR。安全护栏:

  • 每次最多 3 个 PR(防止 reviewer 疲劳)
  • 触及 .env、.github/、IAM 策略的 PR 自动关闭
  • 类型错误阻塞提交,测试失败阻塞提交

Job 4: Verify. 查询 CloudWatch 过去 6 小时。零出现则关闭工单并贴入遥测证据;仍失败则更新错误计数并再次循环。

Job 5: Re-grade. 对关闭聚类 100% 采样接下来 24 小时。回归则重开工单并回滚修复。

Job 6: Report. 夜间摘要:聚类数、PR 数、回滚数、每类评分变化、每模型排行榜。


组件三:The Bridge(AI 门禁灰度发布)

没有 staging 环境。没有人工审批。没有 "looks good to me"。

重大 Agent 变更合并后,10% 真实流量路由到新 variant。Grader 实时 head-to-head 评分对抗当前生产基线。

升级阶梯:

  • Fail: 平均分下降 >= 0.15(p < 0.05,最小 200 交互窗口),或确定性 bug hunter 检测到新错误聚类 spike → 中止发布,切回稳定流量,开 Linear 工单进入 Job 1
  • Hold or improve: 5% → 20% → 50% → 100%,每步用新鲜窗口做同样统计测试

模型在真实用户流量上自证安全,爆炸半径被队列大小封顶。


与传统工作流的区别

传统 Self-Healing Harness
人类 QA 阅读 transcript 三裁判 AI 面板评分
手动 bug 分类、排期、回归测试 六步 Agent 流水线
Staging + 人工发布审批 AI 门禁灰度发布
评估与 QA 分离 评估即 QA,同一漏斗

关联

Sources

Synthesized from 2 sources
  • @intuitiveml — The Self-Healing Agent HarnessSupporting source listed by this page.Whole pagemediumbody
  • The Self-Healing Agent HarnessSupporting source listed by this page.Whole pagemediumabsorb log

Evolution

1 event
  1. absorbed

    Derived from source material

    This page is currently synthesized from 2 sources.

    From @intuitiveml — The Self-Healing Agent Harness, The Self-Healing Agent HarnessTo Self-Healing Agent Harness
    Sources: raw/to-learn/The Self-Healing Agent Harness · raw/to-learn/The Self-Healing Agent Harness.md

Linked from