Agentic Coding 的"尖峰"问题
当前的 agentic coding 面临一个"尖峰"问题:不同模型在不同领域各有优势,但现有工具都被锁定在单一模型中。
模型的专业化
| 模型 | 优势领域 | 适用场景 |
|---|---|---|
| Claude Opus | 前端 + agentic 工作流 | UI 组件、交互设计、视觉实现 |
| GPT-5.4 | 后端 + 分布式系统 | API 设计、数据库、系统架构 |
当前局限
- Claude Code:锁定在 Claude 模型
- Codex:锁定在 GPT 模型
- 无法根据任务类型动态选择最适合的模型
理想方案
Model Routing 策略:
- 根据任务类型自动选择模型
- Sonnet 处理常规任务,需要时调用 Opus
- 降低 11.9% 成本的同时提升 2.7% 性能
实践建议
- 根据任务类型选择合适的 agent 工具
- 前端-heavy 项目优先使用 Claude Code
- 后端/分布式系统任务考虑多模型组合
相关概念
- Model Routing:智能模型选择策略
- Sonnet 4.6 Evaluation:模型性能对比
- GPT-5.4 Evaluation:OpenAI 编程模型评估
Karpathy: Jagged Intelligence — 能重构 10 万行代码,却让你走路去洗车 (2026-04-30)
来源:Karpathy Sequoia AI Ascent 访谈 2026-04
Karpathy 将 LLM 的能力分布描述为"锯齿状智能"(jagged intelligence)——能力曲线不是平滑上升,而是有高峰和断崖。
经典例子:洗车题
一个最先进的模型可以重构 10 万行代码、找到零日漏洞,却告诉我应该走路去 50 米外的洗车店洗车。
问题:我要去 50 米外的洗车店洗车,应该开车还是走路?模型回答"走路,因为很近"——忽略了要洗的是车,车必须到洗车店。
根本原因:能力取决于训练分布,而非"通用智能"
Karpathy 指出 LLM 的能力分布取决于:
- 预训练数据:GPT-3.5 → GPT-4 国际象棋能力大幅提升,不是因为"模型变聪明了",而是 OpenAI 决定把大量国际象棋数据加进了预训练
- RL 训练覆盖:数学、代码等领域能力强,因为这些领域可以构造奖励信号(答案可验证、测试可跑)。模型在这些领域形成"能力高峰"
- 实验室的产品决策:我们完全受制于实验室给模型喂了什么数据
操作含义
- 如果你的场景落在 RL 覆盖的"能力回路"里,开箱即用
- 如果在外面,需要自己做微调,不要指望 LLM 一上来就会
- 不能因为模型在代码上很强就默认它在所有工程判断上都强,也不能因为它犯了洗车题这种错误就判定它没用
不是造动物,是召唤幽灵
Karpathy 用"幽灵"(ghosts)框架理解 LLM:
- 动物的智能来自进化、身体、环境互动、内在动机、持续学习
- LLM 的智能来自:大规模预训练(人类文档统计结构)+ 强化学习 + 偏好数据 + 工具调用
- 它们不是动物式智能,而是由人类文档、统计模式和奖励函数塑造出的模拟实体
- 使用原则:不要对 LLM 大喊大叫(它不会害怕而更努力),也不要鼓励它(不是在激发内在动机)。它的行为来自统计模拟、上下文、工具、训练数据和奖励机制
与模型专业化尖峰的关系
Karpathy 的"锯齿状智能"与本页讨论的"模型专业化尖峰"是同一个现象在不同层面的表现:
- 跨模型尖峰(本页原有内容):不同模型在不同任务类型上各有优势
- 跨能力尖峰(Karpathy):同一模型在不同能力维度上表现极度不均衡
两者的共同根因是可验证性分布不均:哪些领域能被构造成 RL 奖励环境,哪些领域的能力就会形成"尖峰"。
一切都能被自动化——只是成本不同
Karpathy 的判断更进一步:
几乎所有事情,最终都可能在某种程度上变得可验证。写作、设计这类看似主观的任务,也可以想象用一组 LLM judges,也就是模型评审团,形成某种近似评价。
真正的差别不在于"能不能自动化",而在于"自动化的成本和难度":
- 数学和代码容易——答案或测试相对明确
- 写作、审美、战略判断更难——但可以想象用多模型评审组合逼近
这对创业者的含义:别追大模型逃逸速度,去造你自己的 RL 环境。 即便大模型实验室没有直接盯着你的领域,只要你的任务本身是可验证的,只要你能构建出对应的 RL 环境或足够多的示例,就有机会自己做 fine-tuning 吃到巨大红利。
值得注意的是,Karpathy 本人对某个"价值极高但尚未被开发的 RL 环境"领域明显有判断,但不愿在公开场合透露——"我不是有意在台上发含糊推文的。"他的公司 Eureka Labs 做的是 AI 教育,而教育恰好是一个输出可以被评估、可以被标准化考核的领域。