AI Wisdom Gap — 在加速时代保持判断力
来源:Greg Isenberg 的长文。核心论点:AI 给你速度和自信,却悄悄带走你判断自己何时出错的能力。
核心问题:多数 AI 错误看起来不像错误
AI 很少以明显方式失败。它交给你的东西是:
- 合理的(Plausible)
- 连贯的(Coherent)
- 往往相当好的
这就是它危险( yet amazing)的地方。你可以发布能运行但引入新条件就脆弱的代码;可以发布读起来不错但缺少你声音特质的写作;可以构建技术上工作但实际不产生结果的自动化。
Plausible deniability against yourself:输出足够好,以至于你从未被迫面对是否真正理解了它。
能力幻觉
你能生产出看起来像专家作品的东西,却没有专家级别的理解:
- 构建一个你无法调试的应用
- 写你无法辩护的内容
- 自动化你无法完全解释的决定
- 设计你无法压力测试的策略
关键区别:
- 生产出好的东西
- 理解为什么它好(以及何时会失败)
AI 消除了曾经阻碍你创造事物的障碍,但没有帮助你思考所创造的是否有用、是否会被接受、是否总体上帮助业务/生活/世界向你希望的方向移动。
你在借用智能。你才是做决策的人。问题是你在有意识地、审慎地做决策,还是因为速度快、看起来光鲜而默许了什么。
智慧真正显现的时刻
不在提示词里,不在工具里,不在技术栈里:
- 当某事感觉稍微不对,你暂停而不是发布
- 当输出看起来正确,但你还是检查了
- 当你决定不自动化某事,即使你可以
- 当你在所有人加速时慢下来
AI 使用的前后:
- Before:我应该做这件事吗?
- After:我信任这个吗,为什么?
中间的一切是执行。AI 在执行上已经比你强。前后才是你赚钱的地方。
失去判断力的三种方式
1. 你停止验证 — 自动化悖论(Automation Paradox)
1990 年代对自动化驾驶舱的研究发现了一个反直觉的规律:飞行员拥有数千小时飞行经验,有时却遵循错误的自动化建议,即使仪表显示有问题。2010 年对数十年自动化研究的综述确认了一个更大模式:系统越可靠,人类越可能让它未经检查就通过。
这就是自动化悖论:当系统通常是正确的,你的注意力就开始假设它"会继续正确"。
起初你检查一切。然后你检查大部分。然后只在感觉不对时检查。最终你停止检查,因为"通常有效"。
信号:你开始说"looks good"多于"let me understand this"。
2. 你停止注意 — 流畅性偏见(Fluency Bias)
1999 年心理学家做了一项实验:给受试者看完全相同的陈述,一组用易读字体,一组用难读字体。易读版本被评为"更真实"。大脑把"容易处理"误归档为"正确"。
AI 的输出极其流畅:语法完美、语气自信、格式整洁。每一次模型升级都加剧这个幻觉——输出更干净、推理看起来更有道理、残存错误更隐蔽。
你不是因为没什么可看的而看得少,而是因为所有东西看起来都完成了。成品不会触发审查。你的大脑质量过滤器开始让东西通过,因为包装是专业的。
3. 你停止决定
AI 建议下一步。然后下一步。然后下一步。 在某个时刻,你不再:
- 选择方向
- 设定约束
- 做出权衡
- 扼杀看起来好但不正确的想法
你在跟随一个非常有能力的建议流。感觉像进步。感觉像快速移动。但速度和方向是有区别的。AI 给你速度。只有你能给自己方向。
转变:从使用 AI 到监督 AI
早期:你用 AI 帮你做事。它是工具。你是操作员。
后期(这个转变可能在几天/几周内发生,而非几年):你决定:
- 应该做什么
- 什么应该被自动化
- 什么应该保持人类
- 什么应该存在
你在治理一个代表你工作的系统,不再"只是做工作"。
失败模式完全改变:
- 不再是:"我写得对吗?"
- 变成:"这个应该被这样写吗?""如果规模扩大呢?""我不再看到什么了?""我以前能抓住什么,现在错过了?"
这是从操作员到高管的转变。它正在每个认真使用 AI 的人身上发生,无论他们是否有这个头衔。
智慧的鸿沟
AI 不是平等地提升每个人。它放大差异。
判断力强的人:问更好的问题 → 更快发现薄弱推理 → 选择更好的方向 → 知道什么重要什么不重要 → 构建在压力下能 hold 住的东西 → AI 让你效率极高
判断力弱的人:接受合理答案而不审查 → 跟随建议而不质疑 → 构建看起来正确但 hold 不住的东西 → 将速度误认为进步 → 将产出量与实际结果混淆 → AI 让你更快地向错误方向前进
差距扩大。不是因为技术技能。而是因为智慧。
本周可做的三件事
1. 选择一件你拒绝外包的事
- 在涉及 AI 之前,先自己写出对关键决策的思考
- 先写第一稿(融资备忘录、产品策略、艰难的对话)
- 在寻求帮助之前,完整解决一个问题
- 决定不构建什么,即使 AI 让构建变得容易
2. 与让你思考的人一起工作
找到一个高管教练或同伴,其工作是:
- 问你在哪里推迟而不是决定
- 推动你的推理,而不仅仅是结果
- 帮助你表达你想在哪里不同,而不仅仅是好
AI 告诉你该做什么。教练教你如何决定。这是根本不同的关系。
3. 每周写下一个决定
选择一个:AI 参与了、判断重要、有权衡、你不确定自己对了的决定。
写下:你决定了什么、AI 扮演了什么角色、你选择了不做什么(为什么)、你期望发生什么。30 天后回顾。
这迫使你看到:你是真的在决策上变得更好,还是只是在产出上更快。
补充:经过研究验证的反自动驾驶技巧
来自 2021-2026 年间多项 HCI 和认知心理学研究:
预审清单(Pre-AI Briefing)
在打开任何 AI 工具之前,用 2-3 分钟写下:
- 我认为的结论/立场是什么
- 我已知的事实/数据
- 我拒绝包含的观点或说法
- 这篇文章/回复对读者/客户的价值点
为什么有效:建立"自己的立场"作为锚点,让 AI 输出变成可比较的物体,而不是默认接受的水流。来自 Every 作者 Katie Parrott 的个人实践。
48 小时规则
任何重要文档生成后,强制设置至少 4-8 小时的冷却期再发送。进阶版:从不同设备或界面回看(手机 vs 桌面)。
为什么有效:打破"生成-审查-发送"的自动化链条,让注意力重置。
一句话辩护机制
在接受 AI 的任何一个段落或建议之前,强制自己写一句话回答:"为什么这个对目标受众/场景是正确的?"
淘汰标准:如果答案只是"它读起来通顺"→ 拒绝,回去重看。
研究支撑:2026 年一项研究发现,这种简单的"解释为什么接受"机制将错误接受率减少约 50%。2021 年的研究同样发现"认知强制功能"(cognitive forcing functions)是最有效的干预——但用户评分最低,因为人们不喜欢被迫先思考。
田野信号:来自 22 岁开发者的一手报告
2026-05-02,22 岁开发者 Austin Kennedy 发了一条获得 8.7K 赞的 Twitter,标题是 "Claude Code is eroding my brain"——本文论点的现场版本。
他的使用模式:
- 连续 6 个月,每天 6-8 个 Claude Code 终端同时运行
- 大约 75% 的操作是"等待响应后按回车键"
- "None of us feel as sharp as we used to"——他和朋友圈共同感受
他自己的诊断:
这是我自己的使用方式/依赖性问题,不是 Claude Code 本身的问题。
这条推文的高互动量是关键信号——不是个人异常,是一批年轻开发者的集体体验开始浮现。它把上面"自动化悖论 + 流畅性偏见 + 你停止决定"三种机制从理论描述变成了6 个月时间尺度上的实证报告:长期、高密度的 Coding Agent 使用,会以可感知的方式钝化用户的思维敏锐度。
这与 Copilot vs Delegate 的取舍直接对应——Austin 的模式是 100% delegate,认知负载最低、产出最快,但代价是判断力下降。
应对建议(结合上文反自动驾驶技巧):
- 设定每天/每周固定的 "无 AI" 编码时间段
- 不要同时挂 6-8 个终端——这种"按回车键"模式刚好绕开认知强制功能
- 定期回顾 AI 生成的代码,强制自己解释每一行的目的(即"一句话辩护机制"放大版)
开源开发者的转型信号:从虚荣项目到深度理解(2026-05-24)
来源:AI 简报 2026-05-24 Evening — nummanali thread (73 likes)
一位从 2025 年 9 月开始做开源项目(OpenSkills 达 10K+ stars)的开发者分享了与本文核心论点高度一致的转型经历:
从兴奋驱动到深度理解
- 早期项目(OpenSkills、Codex OAuth 等)有明确的问题和受众,带来意义感
- 后期追逐(Local LLM inference、Agent orchestration、Notion for agents)越来越像 vanity projects —— 用兴奋而非热爱去构建,缺乏真正的审视和打磨
核心诊断
用兴奋而非热爱去构建,缺乏真正的审视和打磨。
这与本文"用 AI 变得更快的人"的画像完全吻合:产出令人印象深刻,但构建的是"看起来正确但感觉空洞的东西"。
转型后的实践
- 只用一个终端、一次只做一件事
- 对 LLM 的 token 生成机制、输出偏差的多因素分析产生更深兴趣
- 提出关键问题:我们需要更好的信号来判断什么能带来好的 LLM 结果,而非每天听到的多数意见
方向:Agentic Evals
作者梦想中的方向是 Agentic Evals —— 模拟真实软件工程中不可预测场景的评估体系。这与本文"判断力"主题直接呼应:不是更快地产出,而是建立判断产出质量的能力。
与本文的整合
nummanali 的经历是"从更快到更智慧"转变的个体案例。他的诊断——"我们需要更好的信号来判断什么能带来好的 LLM 结果"——正是 wisdom gap 的解决方案:不是减少 AI 使用,而是提升判断 AI 输出的能力。
即将到来的真正分野
未来 2-3 年,我们将看到一个分裂:
用 AI 变得更智慧的人 — 发展更好的判断、提出更尖锐的问题、看得更远、做出随时间复合的决策。
用 AI 变得更快的人 — 产出更多、发布更多、自动化更多,慢慢失去评估任何一件事是否真的好的能力。
两组人看起来都会高效。两组人都会发布令人印象深刻的工作。差异在一段时间内不会显现。
但随着时间推移,第一组会构建持久的东西。嵌入真实判断的公司。听起来像人写的因为确实是经过人类思考的内容。有效因为有人理解为什么而不仅仅是怎么做的产品。
第二组会构建看起来正确但感觉空洞的东西。有效直到它们不有效。规模扩大直到有人注意到没有人在掌舵。