Agentic Coding 的"尖峰"问题

当前的 agentic coding 面临一个"尖峰"问题：不同模型在不同领域各有优势，但现有工具都被锁定在单一模型中。

模型的专业化

模型	优势领域	适用场景
Claude Opus	前端 + agentic 工作流	UI 组件、交互设计、视觉实现
GPT-5.4	后端 + 分布式系统	API 设计、数据库、系统架构

当前局限

Claude Code：锁定在 Claude 模型
Codex：锁定在 GPT 模型
无法根据任务类型动态选择最适合的模型

理想方案

Model Routing 策略：

根据任务类型自动选择模型
Sonnet 处理常规任务，需要时调用 Opus
降低 11.9% 成本的同时提升 2.7% 性能

实践建议

根据任务类型选择合适的 agent 工具
前端-heavy 项目优先使用 Claude Code
后端/分布式系统任务考虑多模型组合

Karpathy: Jagged Intelligence — 能重构 10 万行代码，却让你走路去洗车 (2026-04-30)

来源：Karpathy Sequoia AI Ascent 访谈 2026-04

Karpathy 将 LLM 的能力分布描述为"锯齿状智能"（jagged intelligence）——能力曲线不是平滑上升，而是有高峰和断崖。

经典例子：洗车题

一个最先进的模型可以重构 10 万行代码、找到零日漏洞，却告诉我应该走路去 50 米外的洗车店洗车。

问题：我要去 50 米外的洗车店洗车，应该开车还是走路？模型回答"走路，因为很近"——忽略了要洗的是车，车必须到洗车店。

根本原因：能力取决于训练分布，而非"通用智能"

Karpathy 指出 LLM 的能力分布取决于：

预训练数据：GPT-3.5 → GPT-4 国际象棋能力大幅提升，不是因为"模型变聪明了"，而是 OpenAI 决定把大量国际象棋数据加进了预训练
RL 训练覆盖：数学、代码等领域能力强，因为这些领域可以构造奖励信号（答案可验证、测试可跑）。模型在这些领域形成"能力高峰"
实验室的产品决策：我们完全受制于实验室给模型喂了什么数据

操作含义

如果你的场景落在 RL 覆盖的"能力回路"里，开箱即用
如果在外面，需要自己做微调，不要指望 LLM 一上来就会
不能因为模型在代码上很强就默认它在所有工程判断上都强，也不能因为它犯了洗车题这种错误就判定它没用

不是造动物，是召唤幽灵

Karpathy 用"幽灵"（ghosts）框架理解 LLM：

动物的智能来自进化、身体、环境互动、内在动机、持续学习
LLM 的智能来自：大规模预训练（人类文档统计结构）+ 强化学习 + 偏好数据 + 工具调用
它们不是动物式智能，而是由人类文档、统计模式和奖励函数塑造出的模拟实体
使用原则：不要对 LLM 大喊大叫（它不会害怕而更努力），也不要鼓励它（不是在激发内在动机）。它的行为来自统计模拟、上下文、工具、训练数据和奖励机制

与模型专业化尖峰的关系

Karpathy 的"锯齿状智能"与本页讨论的"模型专业化尖峰"是同一个现象在不同层面的表现：

跨模型尖峰（本页原有内容）：不同模型在不同任务类型上各有优势
跨能力尖峰（Karpathy）：同一模型在不同能力维度上表现极度不均衡

两者的共同根因是可验证性分布不均：哪些领域能被构造成 RL 奖励环境，哪些领域的能力就会形成"尖峰"。

一切都能被自动化——只是成本不同

Karpathy 的判断更进一步：

几乎所有事情，最终都可能在某种程度上变得可验证。写作、设计这类看似主观的任务，也可以想象用一组 LLM judges，也就是模型评审团，形成某种近似评价。

真正的差别不在于"能不能自动化"，而在于"自动化的成本和难度"：

数学和代码容易——答案或测试相对明确
写作、审美、战略判断更难——但可以想象用多模型评审组合逼近

这对创业者的含义：别追大模型逃逸速度，去造你自己的 RL 环境。 即便大模型实验室没有直接盯着你的领域，只要你的任务本身是可验证的，只要你能构建出对应的 RL 环境或足够多的示例，就有机会自己做 fine-tuning 吃到巨大红利。

值得注意的是，Karpathy 本人对某个"价值极高但尚未被开发的 RL 环境"领域明显有判断，但不愿在公开场合透露——"我不是有意在台上发含糊推文的。"他的公司 Eureka Labs 做的是 AI 教育，而教育恰好是一个输出可以被评估、可以被标准化考核的领域。

Model Spikiness in Agentic Coding