Skip to content
Back/Harness Engineering

楼天城:AI Harness 是这个时代最关键的能力

View in Graph
Updated 2026-05-03
2 min read
263 words

楼天城:AI 是脱缰野马,Harness 是关键能力

楼天城(小马智行 CTO,业内称楼教主)在 2026 年 4 月 27 日量子位的专访中提出,AI 已经像脱缰野马,驾驭(harness)能力会成为这个时代最关键的能力之一。同一周 Karpathy 在 Sequoia AI Ascent 上的访谈给出相同方向的判断:人类工程师从写代码转向调度 Agent,10x 工程师只是常态,真正的 Agentic 工程师能做到 100x。两位顶级工程师从不同领域(自动驾驶、通用编程)得出同一结论。

What it is

Harness 在原义里是马鞍、缰绳。楼天城用它来描述人对越来越自主的 AI 系统的驾驭关系:人不再是 AI 的训练老师,而是设计 AI 自我演进闭环的工程师。Karpathy 在同一时期把这种工作命名为 Agentic Engineering——通过 spec、上下文窗口、工具权限和验证回路来组织一群强但易错的 Agent 完成专业软件。

Why it matters

当 AI 在某个领域明显超过人类(楼天城说自动驾驶安全已超过人类,Karpathy 说他记不清上次纠正模型代码是什么时候),人类的判断价值开始反向衰减:人喂给 AI 的数据可能把坏习惯带回去,人对模型输出的修正可能引入退步。楼天城甚至给出更激进的版本——人类驾驶数据对世界模型的价值不只是趋近于零,可能是负的。在这种情形下,控制权必须交出去,但控制权交出去后,怎么交、交到哪里、留住哪一段 就成了核心工程问题。Harness 就是这个问题的总称。

Key points

AI 主导,人调度

楼天城:PonyWorld 2.0 的核心是 AI 教 AI——AI 自我诊断哪里不够好,自动生成定向数据采集任务,研发、测试、运营围绕模型的精度需求转。人从「驾校教练」变成「数据采集员」。Karpathy 给出对应的一句话:「现在的问题变成:哪一段文字应该复制给你的 Agent?这就是新的编程范式。」开发主导权正在向 AI 转移,但人必须负责 spec、顶层结构、质量约束。

意图层取代语言层

楼天城反对当前主流的 VLA(视觉-语言-动作)路径,认为语言是 4D 物理时空的过度降维投影。他在 PonyWorld 2.0 中引入 intention(意图)语义层——比语言更接近驾驶本质的中间层,与动作联合训练,可以无限生成虚拟意图组合做特训。Karpathy 同样判断「未来 VLA 中的 L 不会是 human language,更可能是新 token」。两人都在说:人类语言不会是人 - AI 接口的最终形态。

Scaling Law 的局限

楼天城:在自动驾驶里,单纯加数据已被证明帮助有限,幻觉无法靠堆数据消除。需要的是训练范式与模型结构的改变。Karpathy 给的判断更锋利:能力跃迁的根源不是更多数据,而是模型「开始会用工具、有 skills、有 harness 和 engineer 能力」。

从模仿学习到自我演进

楼天城列出 AI 能力发展的四阶段:弱于人 → 接近人 → 超过人 → 超过后继续自我进化。每一阶段需要的方法论根本不同。当 AI 超过人时,模仿学习失效,必须由 AI 主导改进,因为「人已经判断不了了」。这与 Karpathy 描述的「锯齿状智能(jagged intelligence)」互补:模型在训练覆盖的能力回路里像专家,回路外像孩子。能力曲线不平滑,依赖实验室的数据决策。

Harness 不是行业现象,是时代主线

楼天城把这套从自动驾驶里炼出的能力,明确表达为可外推到其他领域:「这套能力完全有机会影响到别的部分,甚至不一定局限在物理 AI。」Karpathy 在 Agentic Engineering 中讲的也是同一件事:把模型组织进流程、跑测试、互相检查、留有回滚,让效率被放大几十倍以上。

Evidence across sources

Source Key Claim Relevance
楼天城 量子位访谈 Harness 是这个时代最关键的能力之一;AI 教 AI 是当 AI 超过人之后唯一可行的进化路径;意图层会取代语言层 把 harness 从工程概念上升到时代主线;以自动驾驶 10 年实践提供具体证据
Karpathy Sequoia 访谈 Software 3.0 把 prompt/context/工具调用变成新编程;Vibe Coding 抬高下限,Agentic Engineering 保住上限;10x 不是终点 在通用软件领域给出与楼天城同方向的判断;spec 责任不能外包

Open questions

  • 楼天城说人在某些场景下「连 AI 是不是幻觉都判断不了」。这种状态下 harness 的标准从哪里来?答案是评价标准(什么叫「好」)的对齐,而非行为对齐。但「什么叫好」的标准本身在变。
  • Karpathy 强调 spec 不能外包,但楼天城说「整个公司其他策略,比如商业化、宣传,未来也可由 AI 主导」。Spec 的不可外包性是普遍真理,还是当前阶段的限制?
  • 当 AI 自主生成数据采集任务、自主诊断模型缺陷时,组织里依然存在「真正会驯马」的人才,那这些人才的能力图谱是什么?是 spec 写作 + 评估能力 + 系统设计?还是更接近「研究员 + 产品经理 + 运营」的复合体?

Prompts for witness

  • 我这一周里有哪些时刻是我「驾驭」了 AI(设计了让 AI 自我改进的闭环),而不只是「使用」了 AI(把它当工具用)?分别花了多少时间?
  • 我自己工作中的 spec 能力有没有跟上模型的进化速度?写一份让 Agent 能直接执行的 spec,与三个月前比有没有变得更精准?
  • 假设我现在的领域里 AI 已经明显超过我,我会怎么重新定义自己的贡献?参考楼天城给的「意图层 + 数据采集 + 评估」三件事在我的领域的对应物。
  • 楼天城说真正壁垒是「整个发展过程本身」。我的工作里有哪些 know-how 只能靠走过完整阶段才能拥有?

Sources

Synthesized from 2 sources
  • 楼天城 量子位访谈 2026-04-27Supporting source listed by this page.Whole pagemediumbody
  • Karpathy Sequoia AI Ascent 访谈 2026-04-30Supporting source listed by this page.Whole pagemediumbody

Evolution

1 event
  1. absorbed

    Derived from source material

    This page is currently synthesized from 2 sources.

    From 楼天城 量子位访谈 2026-04-27, Karpathy Sequoia AI Ascent 访谈 2026-04-30To 楼天城:AI Harness 是这个时代最关键的能力
    Sources: raw/to-learn/量子位专访楼天城_AI是匹脱缰野马,Harness是这个时代最关键的能力.md · raw/to-learn/Karpathy 访谈:10x 工程师已是常态,真正的 Agentic 工程师是 100x.md

Linked from