Harness Steering 与 Orchestration（2026-04）

来自 2026-04-18 的集中信号：工程瓶颈正从 "写代码" 转向 "设计 harness、定义 guardrails、编排 subagent 协作"。

关键信号

1) Harness 比模型更决定产出质量

@thealexker 强调的核心是：把系统拆为 Research → Plan → Implement，避免把探索、规划和执行混在一个脏上下文里。

这与 Claude Code 会话管理的建议一致：

复杂任务先探索再执行
让中间噪音留在子上下文
控制 instruction budget，避免上下文稀释

2) 人类角色从 implementer 转向 orchestrator

@SaitoWu 总结了 "code is free" 语境下的人类价值迁移：

人类定义 success criteria
人类沉淀 durable guardrails（tests/lints/review 规则）
agent 负责高吞吐执行

该观点与 fat skills, fat code, thin harness 形成互证。

详细拆解（来自 @SaitoWu 对 Ryan Lopopolo 伦敦演讲的总结）：

代码免费，但上下文和 guardrails 永远稀缺 模型已经够强，能像人类一样写完整代码。真正稀缺的是人类时间、注意力和模型上下文窗口。Harness 的本质就是把人类经验（taste、review 标准、非功能要求）全部写成文本（docs、skills、ADRs、logs），让 agent 随时能看到"什么叫好代码"。

别再把 agent 关在小盒子里 Ryan 的做法与传统 scaffold 限制相反：让 agent 自己成为整个 box，给它 CLI、bash、observability stack、甚至自己 spin up 服务的能力。agent 就能像全栈工程师一样从头到尾把活干完，人类只需偶尔 review。

Skills + progressive disclosure 是神器 只把「名字 + 描述」塞进上下文（几十 tokens），需要时才加载完整内容。Ryan 团队只用 5-10 个核心 skills，但不断打磨，让 agent 像老员工一样懂团队 taste。

Review 也要 agent 化 PR 不再需要人类同步 review。用 review agents 自动检查代码（看 docs、guardrails、QA plan）。人类只在最终 merge 前抽样看，或者 post-merge 再 review。agent 能 24/7 并行工作，人类不用卡在 review 瓶颈。

让代码库本身变得 agent-friendly

所有东西尽量相同（one way to do X）
构建时间压到 1 分钟内
文件结构清晰、package 隔离、observability 内置
用 tests 和 lints 做 source code verification

3) 开源技能化正在快速扩散

@seelffff 提到 Claude Code 相关技能仓库高增长，表明团队经验正在从口头流程转为可复用 skill 文档与自动化链路。

对项目的可执行启发

把全局规则缩到最小必需集，按任务按需加载技能（progressive disclosure）
对高复杂任务强制使用 "研究-规划-执行" 三段式
每次重复错误都沉淀为可执行 guardrail，而非仅在聊天里提醒

4) 简单 Harness + 强评估 = 可靠性提升的行业共识（2026-04-17）

来源：[[raw/newsletters/AINews/2026-04-19 [AINews] The Two Sides of OpenClaw.md|2026-04-19 [AINews] The Two Sides of OpenClaw]]

多篇高质量帖子同期论证：可靠性提升现在更多来自 Harness 设计而非追求最大模型。

@AsfiShaheen：三阶段金融分析师 Pipeline（路由器/通道/分析师），每阶段有严格上下文边界和黄金集。核心结论：许多 Bug 实际上是指令/接口 Bug，而非模型能力不足。

@AymericRoucher：从泄露的 Claude Code Harness 中提炼出同样结论——简单规划约束 + 更清晰的表示层优于"花哨的 AI 脚手架"。

@raw_works（极端案例）：Qwen3-8B 使用 dspy.RLM 在 LongCoT-Mini 上得分 33/507，而原版为 0/507。结论：脚手架"承担了 100% 的提升"。

LangChain 产品化：@sydneyrunkle 为 deepagents deploy 添加子 Agent 支持；@whoiskatrin 在 Agents SDK 中宣布内存原语——将这些模式系统化为产品。

可执行启发：

在升级模型之前，先审查 Harness 设计和评估体系
建立"黄金集"（golden set）是提升可靠性的最高 ROI 投入
上下文边界（每阶段独立上下文）比单一大上下文更可靠

Counterpoints & Gaps

该批来源偏重方法论与经验总结，缺少统一量化基准；不同团队规模下收益可能差异很大。
"更多 orchestration" 也会带来流程开销；小任务过度编排可能反而降低效率。
对于低风险、低复杂度改动，直接执行仍可能是更优策略。

Sources

AI 简报 2026-04-19 (sections: 深度文章, AI 工具速递, GitHub 热门)
什么才是真正的 Harness Engineering？ — @SaitoWu 对 Ryan Lopopolo 伦敦演讲的总结