AI Capability Gap — 能力认知的两极分化
AI 能力认知正在出现严重的两极分化。同一时期的 AI,在不同用户群体眼中呈现出完全不同的能力图景。
两个用户群体
群体一:免费/旧模型用户
特征:
- 使用去年某时的免费 ChatGPT
- 尝试过 Advanced Voice Mode 的简单查询
- 在社交媒体上看到 AI 失误的 viral videos
认知:
- AI 能力有限,充满幻觉
- 只能处理简单任务
- 对复杂问题经常出错
群体二:专业开发者
特征:
- 支付 $200/月使用最前沿模型
- 使用 OpenAI Codex、Claude Code 等 agentic 模型
- 在编程、数学、研究领域深度使用
认知:
- 最近的进步"令人震惊"
- 可以处理通常需要数天/数周的工作
- 经历最高的 "AI Psychosis"
造成差距的技术原因
1. 可验证奖励函数
RL 训练的局限性:
- 编程:单元测试通过/失败 —— 易于验证
- 写作:质量好坏 —— 难以评判
结果:编程等领域因明确的通过/失败标准而获得更多优化。
2. 商业价值导向
B2B vs B2C:
- B2B 场景(编程、研究)更有商业价值
- 团队集中资源优化这些领域
- 消费者场景(聊天、写作)相对被忽视
实际能力对比
| 场景 | 群体一体验 | 群体二体验 |
|---|---|---|
| 语音助手 | Advanced Voice Mode 在简单问题上出错 | - |
| 编程 | - | Codex 1 小时重构整个代码库 |
| 安全研究 | - | 发现并利用系统漏洞 |
| 问题解决 | 幻觉和错误 | 解决通常需数天/数周的问题 |
"OpenAI 的免费 Advanced Voice Mode 会在 Instagram reels 上搞砸最简单的问题,同时,OpenAI 的最高阶付费 Codex 模型可以花 1 小时连贯地重构整个代码库,或发现并利用计算机系统漏洞。" — Karpathy
启示
对评估者的提醒
- 不要基于旧模型或免费 tier 判断 AI 能力
- 亲自在专业领域深度使用前沿模型
- 意识到能力增长是非线性的
对开发者的提醒
- 选择合适的 use case:可验证奖励函数的领域更容易获得高性能
- 关注 B2B 价值:商业优先级影响模型优化方向
- 准备迎接冲击:能力提升可能是突然的"相变"而非渐进
Counterpoints & Gaps
- 体验门槛:普通用户无法承担 $200/月的费用体验前沿能力
- 能力不均衡:编程等领域的突破是否会在消费场景复制?
- 幻觉问题:即使是最强模型,幻觉问题是否已根本解决?
Sources
- AI 简报 2026-04-10 — Karpathy tweet via AI Briefing