Back/mental models

AI Capability Gap — 能力认知的两极分化

Updated 2026-04-10
1 min read
203 words

AI Capability Gap — 能力认知的两极分化

AI 能力认知正在出现严重的两极分化。同一时期的 AI,在不同用户群体眼中呈现出完全不同的能力图景。

两个用户群体

群体一:免费/旧模型用户

特征

  • 使用去年某时的免费 ChatGPT
  • 尝试过 Advanced Voice Mode 的简单查询
  • 在社交媒体上看到 AI 失误的 viral videos

认知

  • AI 能力有限,充满幻觉
  • 只能处理简单任务
  • 对复杂问题经常出错

群体二:专业开发者

特征

  • 支付 $200/月使用最前沿模型
  • 使用 OpenAI Codex、Claude Code 等 agentic 模型
  • 在编程、数学、研究领域深度使用

认知

  • 最近的进步"令人震惊"
  • 可以处理通常需要数天/数周的工作
  • 经历最高的 "AI Psychosis"

造成差距的技术原因

1. 可验证奖励函数

RL 训练的局限性

  • 编程:单元测试通过/失败 —— 易于验证
  • 写作:质量好坏 —— 难以评判

结果:编程等领域因明确的通过/失败标准而获得更多优化。

2. 商业价值导向

B2B vs B2C

  • B2B 场景(编程、研究)更有商业价值
  • 团队集中资源优化这些领域
  • 消费者场景(聊天、写作)相对被忽视

实际能力对比

场景 群体一体验 群体二体验
语音助手 Advanced Voice Mode 在简单问题上出错 -
编程 - Codex 1 小时重构整个代码库
安全研究 - 发现并利用系统漏洞
问题解决 幻觉和错误 解决通常需数天/数周的问题

"OpenAI 的免费 Advanced Voice Mode 会在 Instagram reels 上搞砸最简单的问题,同时,OpenAI 的最高阶付费 Codex 模型可以花 1 小时连贯地重构整个代码库,或发现并利用计算机系统漏洞。" — Karpathy

启示

对评估者的提醒

  • 不要基于旧模型或免费 tier 判断 AI 能力
  • 亲自在专业领域深度使用前沿模型
  • 意识到能力增长是非线性的

对开发者的提醒

  • 选择合适的 use case:可验证奖励函数的领域更容易获得高性能
  • 关注 B2B 价值:商业优先级影响模型优化方向
  • 准备迎接冲击:能力提升可能是突然的"相变"而非渐进

Counterpoints & Gaps

  • 体验门槛:普通用户无法承担 $200/月的费用体验前沿能力
  • 能力不均衡:编程等领域的突破是否会在消费场景复制?
  • 幻觉问题:即使是最强模型,幻觉问题是否已根本解决?

Sources

Linked from