Skip to content
Back/Harness Engineering

Model Spikiness in Agentic Coding

View in Graph
Updated 2026-05-01
1 min read
233 words

Agentic Coding 的"尖峰"问题

当前的 agentic coding 面临一个"尖峰"问题:不同模型在不同领域各有优势,但现有工具都被锁定在单一模型中。

模型的专业化

模型 优势领域 适用场景
Claude Opus 前端 + agentic 工作流 UI 组件、交互设计、视觉实现
GPT-5.4 后端 + 分布式系统 API 设计、数据库、系统架构

当前局限

  • Claude Code:锁定在 Claude 模型
  • Codex:锁定在 GPT 模型
  • 无法根据任务类型动态选择最适合的模型

理想方案

Model Routing 策略:

  • 根据任务类型自动选择模型
  • Sonnet 处理常规任务,需要时调用 Opus
  • 降低 11.9% 成本的同时提升 2.7% 性能

实践建议

  • 根据任务类型选择合适的 agent 工具
  • 前端-heavy 项目优先使用 Claude Code
  • 后端/分布式系统任务考虑多模型组合

相关概念

Karpathy: Jagged Intelligence — 能重构 10 万行代码,却让你走路去洗车 (2026-04-30)

来源:Karpathy Sequoia AI Ascent 访谈 2026-04

Karpathy 将 LLM 的能力分布描述为"锯齿状智能"(jagged intelligence)——能力曲线不是平滑上升,而是有高峰和断崖。

经典例子:洗车题

一个最先进的模型可以重构 10 万行代码、找到零日漏洞,却告诉我应该走路去 50 米外的洗车店洗车。

问题:我要去 50 米外的洗车店洗车,应该开车还是走路?模型回答"走路,因为很近"——忽略了要洗的是车,车必须到洗车店。

根本原因:能力取决于训练分布,而非"通用智能"

Karpathy 指出 LLM 的能力分布取决于:

  1. 预训练数据:GPT-3.5 → GPT-4 国际象棋能力大幅提升,不是因为"模型变聪明了",而是 OpenAI 决定把大量国际象棋数据加进了预训练
  2. RL 训练覆盖:数学、代码等领域能力强,因为这些领域可以构造奖励信号(答案可验证、测试可跑)。模型在这些领域形成"能力高峰"
  3. 实验室的产品决策:我们完全受制于实验室给模型喂了什么数据

操作含义

  • 如果你的场景落在 RL 覆盖的"能力回路"里,开箱即用
  • 如果在外面,需要自己做微调,不要指望 LLM 一上来就会
  • 不能因为模型在代码上很强就默认它在所有工程判断上都强,也不能因为它犯了洗车题这种错误就判定它没用

不是造动物,是召唤幽灵

Karpathy 用"幽灵"(ghosts)框架理解 LLM:

  • 动物的智能来自进化、身体、环境互动、内在动机、持续学习
  • LLM 的智能来自:大规模预训练(人类文档统计结构)+ 强化学习 + 偏好数据 + 工具调用
  • 它们不是动物式智能,而是由人类文档、统计模式和奖励函数塑造出的模拟实体
  • 使用原则:不要对 LLM 大喊大叫(它不会害怕而更努力),也不要鼓励它(不是在激发内在动机)。它的行为来自统计模拟、上下文、工具、训练数据和奖励机制

与模型专业化尖峰的关系

Karpathy 的"锯齿状智能"与本页讨论的"模型专业化尖峰"是同一个现象在不同层面的表现:

  • 跨模型尖峰(本页原有内容):不同模型在不同任务类型上各有优势
  • 跨能力尖峰(Karpathy):同一模型在不同能力维度上表现极度不均衡

两者的共同根因是可验证性分布不均:哪些领域能被构造成 RL 奖励环境,哪些领域的能力就会形成"尖峰"。

一切都能被自动化——只是成本不同

Karpathy 的判断更进一步:

几乎所有事情,最终都可能在某种程度上变得可验证。写作、设计这类看似主观的任务,也可以想象用一组 LLM judges,也就是模型评审团,形成某种近似评价。

真正的差别不在于"能不能自动化",而在于"自动化的成本和难度":

  • 数学和代码容易——答案或测试相对明确
  • 写作、审美、战略判断更难——但可以想象用多模型评审组合逼近

这对创业者的含义:别追大模型逃逸速度,去造你自己的 RL 环境。 即便大模型实验室没有直接盯着你的领域,只要你的任务本身是可验证的,只要你能构建出对应的 RL 环境或足够多的示例,就有机会自己做 fine-tuning 吃到巨大红利。

值得注意的是,Karpathy 本人对某个"价值极高但尚未被开发的 RL 环境"领域明显有判断,但不愿在公开场合透露——"我不是有意在台上发含糊推文的。"他的公司 Eureka Labs 做的是 AI 教育,而教育恰好是一个输出可以被评估、可以被标准化考核的领域。

Sources

Synthesized from 2 sources
  • Karpathy Sequoia AI Ascent 访谈 2026-04Supporting source listed by this page.Whole pagemediumbody
  • Karpathy Sequoia AI Ascent 访谈(云昭版)Supporting source listed by this page.Whole pagemediumbody

Evolution

1 event
  1. absorbed

    Derived from source material

    This page is currently synthesized from 2 sources.

    From Karpathy Sequoia AI Ascent 访谈 2026-04, Karpathy Sequoia AI Ascent 访谈(云昭版)To Model Spikiness in Agentic Coding
    Sources: raw/to-learn/Karpathy 访谈:10x 工程师已是常态,真正的 Agentic 工程师是 100x · raw/to-learn/Karpathy 访谈:不喜欢Plan模式,构建自己的RL环境(云昭版).md

Linked from