Back/harness engineering

Harness Steering 与 Orchestration(2026-04)

Updated 2026-04-19
2 min read
309 words

Harness Steering 与 Orchestration(2026-04)

来自 2026-04-18 的集中信号:工程瓶颈正从 "写代码" 转向 "设计 harness、定义 guardrails、编排 subagent 协作"。

关键信号

1) Harness 比模型更决定产出质量

@thealexker 强调的核心是:把系统拆为 Research → Plan → Implement,避免把探索、规划和执行混在一个脏上下文里。

这与 Claude Code 会话管理 的建议一致:

  • 复杂任务先探索再执行
  • 让中间噪音留在子上下文
  • 控制 instruction budget,避免上下文稀释

2) 人类角色从 implementer 转向 orchestrator

@SaitoWu 总结了 "code is free" 语境下的人类价值迁移:

  • 人类定义 success criteria
  • 人类沉淀 durable guardrails(tests/lints/review 规则)
  • agent 负责高吞吐执行

该观点与 fat skills, fat code, thin harness 形成互证。

详细拆解(来自 @SaitoWu 对 Ryan Lopopolo 伦敦演讲的总结):

代码免费,但上下文和 guardrails 永远稀缺 模型已经够强,能像人类一样写完整代码。真正稀缺的是人类时间、注意力和模型上下文窗口。Harness 的本质就是把人类经验(taste、review 标准、非功能要求)全部写成文本(docs、skills、ADRs、logs),让 agent 随时能看到"什么叫好代码"。

别再把 agent 关在小盒子里 Ryan 的做法与传统 scaffold 限制相反:让 agent 自己成为整个 box,给它 CLI、bash、observability stack、甚至自己 spin up 服务的能力。agent 就能像全栈工程师一样从头到尾把活干完,人类只需偶尔 review。

Skills + progressive disclosure 是神器 只把「名字 + 描述」塞进上下文(几十 tokens),需要时才加载完整内容。Ryan 团队只用 5-10 个核心 skills,但不断打磨,让 agent 像老员工一样懂团队 taste。

Review 也要 agent 化 PR 不再需要人类同步 review。用 review agents 自动检查代码(看 docs、guardrails、QA plan)。人类只在最终 merge 前抽样看,或者 post-merge 再 review。agent 能 24/7 并行工作,人类不用卡在 review 瓶颈。

让代码库本身变得 agent-friendly

  • 所有东西尽量相同(one way to do X)
  • 构建时间压到 1 分钟内
  • 文件结构清晰、package 隔离、observability 内置
  • 用 tests 和 lints 做 source code verification

3) 开源技能化正在快速扩散

@seelffff 提到 Claude Code 相关技能仓库高增长,表明团队经验正在从口头流程转为可复用 skill 文档与自动化链路。

对项目的可执行启发

  • 把全局规则缩到最小必需集,按任务按需加载技能(progressive disclosure)
  • 对高复杂任务强制使用 "研究-规划-执行" 三段式
  • 每次重复错误都沉淀为可执行 guardrail,而非仅在聊天里提醒

4) 简单 Harness + 强评估 = 可靠性提升的行业共识(2026-04-17)

来源:[[raw/newsletters/AINews/2026-04-19 [AINews] The Two Sides of OpenClaw.md|2026-04-19 [AINews] The Two Sides of OpenClaw]]

多篇高质量帖子同期论证:可靠性提升现在更多来自 Harness 设计而非追求最大模型。

@AsfiShaheen:三阶段金融分析师 Pipeline(路由器/通道/分析师),每阶段有严格上下文边界和黄金集。核心结论:许多 Bug 实际上是指令/接口 Bug,而非模型能力不足。

@AymericRoucher:从泄露的 Claude Code Harness 中提炼出同样结论——简单规划约束 + 更清晰的表示层优于"花哨的 AI 脚手架"。

@raw_works(极端案例):Qwen3-8B 使用 dspy.RLM 在 LongCoT-Mini 上得分 33/507,而原版为 0/507。结论:脚手架"承担了 100% 的提升"。

LangChain 产品化:@sydneyrunkle 为 deepagents deploy 添加子 Agent 支持;@whoiskatrin 在 Agents SDK 中宣布内存原语——将这些模式系统化为产品。

可执行启发

  • 在升级模型之前,先审查 Harness 设计和评估体系
  • 建立"黄金集"(golden set)是提升可靠性的最高 ROI 投入
  • 上下文边界(每阶段独立上下文)比单一大上下文更可靠

Counterpoints & Gaps

  • 该批来源偏重方法论与经验总结,缺少统一量化基准;不同团队规模下收益可能差异很大。
  • "更多 orchestration" 也会带来流程开销;小任务过度编排可能反而降低效率。
  • 对于低风险、低复杂度改动,直接执行仍可能是更优策略。

Sources

Linked from