楼天城：AI 是脱缰野马，Harness 是关键能力

楼天城（小马智行 CTO，业内称楼教主）在 2026 年 4 月 27 日量子位的专访中提出，AI 已经像脱缰野马，驾驭（harness）能力会成为这个时代最关键的能力之一。同一周 Karpathy 在 Sequoia AI Ascent 上的访谈给出相同方向的判断：人类工程师从写代码转向调度 Agent，10x 工程师只是常态，真正的 Agentic 工程师能做到 100x。两位顶级工程师从不同领域（自动驾驶、通用编程）得出同一结论。

What it is

Harness 在原义里是马鞍、缰绳。楼天城用它来描述人对越来越自主的 AI 系统的驾驭关系：人不再是 AI 的训练老师，而是设计 AI 自我演进闭环的工程师。Karpathy 在同一时期把这种工作命名为 Agentic Engineering——通过 spec、上下文窗口、工具权限和验证回路来组织一群强但易错的 Agent 完成专业软件。

Why it matters

当 AI 在某个领域明显超过人类（楼天城说自动驾驶安全已超过人类，Karpathy 说他记不清上次纠正模型代码是什么时候），人类的判断价值开始反向衰减：人喂给 AI 的数据可能把坏习惯带回去，人对模型输出的修正可能引入退步。楼天城甚至给出更激进的版本——人类驾驶数据对世界模型的价值不只是趋近于零，可能是负的。在这种情形下，控制权必须交出去，但控制权交出去后，怎么交、交到哪里、留住哪一段 就成了核心工程问题。Harness 就是这个问题的总称。

Key points

AI 主导，人调度

楼天城：PonyWorld 2.0 的核心是 AI 教 AI——AI 自我诊断哪里不够好，自动生成定向数据采集任务，研发、测试、运营围绕模型的精度需求转。人从「驾校教练」变成「数据采集员」。Karpathy 给出对应的一句话：「现在的问题变成：哪一段文字应该复制给你的 Agent？这就是新的编程范式。」开发主导权正在向 AI 转移，但人必须负责 spec、顶层结构、质量约束。

意图层取代语言层

楼天城反对当前主流的 VLA（视觉-语言-动作）路径，认为语言是 4D 物理时空的过度降维投影。他在 PonyWorld 2.0 中引入 intention（意图）语义层——比语言更接近驾驶本质的中间层，与动作联合训练，可以无限生成虚拟意图组合做特训。Karpathy 同样判断「未来 VLA 中的 L 不会是 human language，更可能是新 token」。两人都在说：人类语言不会是人 - AI 接口的最终形态。

Scaling Law 的局限

楼天城：在自动驾驶里，单纯加数据已被证明帮助有限，幻觉无法靠堆数据消除。需要的是训练范式与模型结构的改变。Karpathy 给的判断更锋利：能力跃迁的根源不是更多数据，而是模型「开始会用工具、有 skills、有 harness 和 engineer 能力」。

从模仿学习到自我演进

楼天城列出 AI 能力发展的四阶段：弱于人 → 接近人 → 超过人 → 超过后继续自我进化。每一阶段需要的方法论根本不同。当 AI 超过人时，模仿学习失效，必须由 AI 主导改进，因为「人已经判断不了了」。这与 Karpathy 描述的「锯齿状智能（jagged intelligence）」互补：模型在训练覆盖的能力回路里像专家，回路外像孩子。能力曲线不平滑，依赖实验室的数据决策。

Harness 不是行业现象，是时代主线

楼天城把这套从自动驾驶里炼出的能力，明确表达为可外推到其他领域：「这套能力完全有机会影响到别的部分，甚至不一定局限在物理 AI。」Karpathy 在 Agentic Engineering 中讲的也是同一件事：把模型组织进流程、跑测试、互相检查、留有回滚，让效率被放大几十倍以上。

Evidence across sources

Source	Key Claim	Relevance
楼天城量子位访谈	Harness 是这个时代最关键的能力之一；AI 教 AI 是当 AI 超过人之后唯一可行的进化路径；意图层会取代语言层	把 harness 从工程概念上升到时代主线；以自动驾驶 10 年实践提供具体证据
Karpathy Sequoia 访谈	Software 3.0 把 prompt/context/工具调用变成新编程；Vibe Coding 抬高下限，Agentic Engineering 保住上限；10x 不是终点	在通用软件领域给出与楼天城同方向的判断；spec 责任不能外包

Open questions

楼天城说人在某些场景下「连 AI 是不是幻觉都判断不了」。这种状态下 harness 的标准从哪里来？答案是评价标准（什么叫「好」）的对齐，而非行为对齐。但「什么叫好」的标准本身在变。
Karpathy 强调 spec 不能外包，但楼天城说「整个公司其他策略，比如商业化、宣传，未来也可由 AI 主导」。Spec 的不可外包性是普遍真理，还是当前阶段的限制？
当 AI 自主生成数据采集任务、自主诊断模型缺陷时，组织里依然存在「真正会驯马」的人才，那这些人才的能力图谱是什么？是 spec 写作 + 评估能力 + 系统设计？还是更接近「研究员 + 产品经理 + 运营」的复合体？

Prompts for witness

我这一周里有哪些时刻是我「驾驭」了 AI（设计了让 AI 自我改进的闭环），而不只是「使用」了 AI（把它当工具用）？分别花了多少时间？
我自己工作中的 spec 能力有没有跟上模型的进化速度？写一份让 Agent 能直接执行的 spec，与三个月前比有没有变得更精准？
假设我现在的领域里 AI 已经明显超过我，我会怎么重新定义自己的贡献？参考楼天城给的「意图层 + 数据采集 + 评估」三件事在我的领域的对应物。
楼天城说真正壁垒是「整个发展过程本身」。我的工作里有哪些 know-how 只能靠走过完整阶段才能拥有？

楼天城：AI Harness 是这个时代最关键的能力

楼天城：AI 是脱缰野马，Harness 是关键能力

What it is

Why it matters

Key points

AI 主导，人调度

意图层取代语言层

Scaling Law 的局限

从模仿学习到自我演进

Harness 不是行业现象，是时代主线

Evidence across sources

Open questions

Prompts for witness

Sources

Evolution

Derived from source material

Linked from

楼天城：AI 是脱缰野马，Harness 是关键能力

What it is

Why it matters

Key points

AI 主导，人调度

意图层取代语言层

Scaling Law 的局限

从模仿学习到自我演进

Harness 不是行业现象，是时代主线

Evidence across sources

Open questions

Prompts for witness

Related

Sources

Evolution

Derived from source material

Linked from