三个 Scaling 维度
来源:grapeot(yage.ai),2026-03-30
Harness Engineering 的本质是让 AI 构建软件变得 scalable,而 scalability 有三个独立的维度。OpenAI、Cursor、Anthropic 各自解了其中一个。
地基:三家收敛的共识
在三个维度之前,三家在以下四点达成了一致:
- 人类的核心工作从写代码转向设计 agent 的工作环境
- 知识必须版本化、可发现、存在于 repo 中
- 约束比指令有效
- 完美主义是吞吐量的敌人
维度一:时间 Scalability(Anthropic)
见 harness-engineering/anthropic-long-running
问题:一个 agent 在精心设计的环境里开始工作之后,怎么在几个小时的连续运行中保持方向和质量?
两类失败:
- 方向漂移:随着上下文窗口变满,模型一致性衰减
- 自评失真:agent 会说服自己缺陷可以接受
解法:三角色架构(Planner + Generator + Evaluator),Evaluator 与 Generator 之间没有共享内部状态。
维度二:空间 Scalability(Cursor)
见 Cursor 多 Agent 并行
问题:能否通过投入 10 倍的计算来获得 10 倍的有意义吞吐量?
最终方案:递归 Planner-Worker 架构。Worker 之间互不感知,信息严格向上流动。峰值吞吐量约 1000 commits/hour。
维度三:交互 Scalability(OpenAI)
问题:当 agent 的产出速度远超人类的注意力时,人应该通过什么界面来 steer 整个系统?
解法:Symphony — 把 Linear ticket 变成 agent 的 job scheduler。工程师写 ticket,ticket 移到 Todo 状态时自动派 Codex 执行。
三个维度之间的依赖关系
- 空间 scaling 会放大时间 scaling 中的问题:几百个 agent 同时漂移,错误以并行度的倍数积累
- 交互 scaling 依赖时间和空间 scaling 的成熟度:Symphony 的前提是单个 run 足够可靠
Counterpoints & Gaps
- 这三个维度服务于头部需求。对普通开发者,更深远的影响可能是让软件本身变得更简单
- 主观信号(方向对不对)无法通过 Harness 接入,是 Delegate 区间扩大的真正瓶颈(harness-engineering/overview 中的 yan5xu 观点)