Skip to content
Back/Harness Engineering

Model Routing — 智能模型选择

View in Graph
Updated 2026-06-08
3 min read
524 words

Model Routing — 智能模型选择

Model Routing 是在不同模型间智能分配任务的技术,让合适的模型处理合适的任务,以优化性能与成本的平衡。

核心机制

Sonnet 调用 Opus 模式

Anthropic 的实现

  • 默认:Sonnet 处理大部分任务(更快、更便宜)
  • 复杂任务:Sonnet 调用 Opus 获得更强能力
  • 结果:整体性能提升,总成本降低

为什么降低成本

  • 避免 Sonnet 在复杂任务上浪费大量 token
  • Opus 只在必要时调用
  • 简单任务用便宜模型,复杂任务用强力模型

实现方式

通过 Tool Use

User → Sonnet → [判断任务复杂度]
                ↓
           [简单任务] → 直接处理
           [复杂任务] → 调用 Opus → 返回结果

动态判断

模型自身判断何时需要升级:

  • 基于任务描述
  • 基于中间结果的复杂度
  • 基于历史经验

成本与性能平衡

策略 性能 成本 适用场景
全用强力模型 最高 最高 不计成本的关键任务
全用轻量模型 较低 最低 简单批量任务
智能路由 中等 混合任务场景

人类注意力路由

Every 2026-04-27 将模型路由问题进一步推广为注意力路由问题。最昂贵的模型往往不是 Opus、GPT-5.5 或其他前沿模型,而是人的判断力。稳定、重复、低判断需求的步骤应下沉到小模型、脚本或固定模板;强模型与人类审查应保留给叙事、策略、复杂判断和最终验收。

这个观点把 model routing 与 skills into loops 连接起来:先用 skill 描述任务,再用 eval 判断质量,最后把不同步骤路由到不同智能等级。OpenRouter 一类统一接口适合做模型候选集与 provider fallback,但路由策略仍要由任务分解和 eval 结果驱动。

Per-Model Tool Surface Routing(Copilot CLI 策略)

GitHub Copilot CLI 实现了最诚实的模型路由:不给所有模型提供相同的工具面,而是给每个模型提供它训练时使用的工具方言

三种策略(来源:Model-Harness-Fit):

  1. Per-model tool inclusionapply_patch 仅对 Codex 家族模型暴露;Anthropic 模型获得 Edit/Write 形态
  2. Per-model tool searchToolSearch 仅对 Claude 模型暴露(它们被训练用延迟加载);OpenAI 模型获得完整工具列表
  3. Complementary model Critic:critic agent 使用与主 agent 不同的模型

这不是"翻译成通用方言",而是"给每个模型提供正确的方言"。这是唯一在开放或半开放集合中实际交付此策略的 harness。

与 Multi-Agent 的关系

Model Routing 是 multi-agent 架构的一种形式:

  • 不同模型扮演不同角色
  • 轻量模型作为 router
  • 强力模型作为 specialist

实践建议

  • 分析任务复杂度分布
  • 建立简单/复杂任务的判断标准
  • 监控路由决策的准确性
  • 持续优化路由策略

Sam Altman:price/speed 权衡优先于 price/intelligence(2026-05-14)

来源:AI 简报 2026-05-14 Afternoon

Sam Altman 指出行业过度追求"最智能可用模型",而真正的优化空间在于 price/speed tradeoff 而非 price/intelligence tradeoff:

  • 有时模型慢一点也可以接受,关键在于任务匹配
  • 不同子任务应路由到不同模型,而非全程使用最昂贵的前沿模型
  • 这一观点对 agent 工作流设计有直接影响:建立任务分级策略

这与 Model-Harness-Fit 中"给每个模型提供正确的方言"形成互补:路由决策既要考虑模型能力,也要考虑速度-成本比。

实战案例:33-Agent 知识库审计(PawelHuryn, 2026-06-03)

来源:AI 简报 2026-06-03 Afternoon

PawelHuryn 在 Thariq 的 Claude Code Workflows 文章基础上实践了大规模多模型路由:

  • 配置:33 个 reader agent 全部跑 Sonnet,1 个 synthesizer 跑 Opus
  • 成本:980k tokens,耗时约 4.5 分钟
  • 结果:发现 38 个问题,包括一个文件中隐藏的真实错误
  • 核心原则:把 Opus 放在需要深度思考的环节,其余用 Sonnet 即可

这与 Anthropic 的 Sonnet-调用-Opus 模式形成对比:Anthropic 是单 agent 内部判断何时升级,PawelHuryn 是显式角色分工——reader 负责广度扫描(便宜模型),synthesizer 负责深度整合(强力模型)。两种模式都验证了 "Put Opus where the thinking happens" 的路由原则。

Cheap Verifier Pattern:小模型验证,大模型生成(2026-06-03)

来源:[[raw/newsletters/AINews/2026-06-03 [AINews] Microsoft Build MAI-Thinking-1 and MAI Family models.md|AINews 2026-06-03]]

Harvey 与 LangChain 在法律代理场景中实践了一种极端成本优化的验证架构:

  • 配置:DeepSeek V4 Flash 作为验证器,对比 Opus 4.7 的生成结果
  • 一致性:验证结果与 Opus 4.7 达到 94–96% 的一致率
  • 成本:逐标准模式降低 18 倍;批处理模式降低约 1000 倍
  • 具体数据:3,200 次 RL rollout 的验证成本从 $18,000 降至 $18

核心原则:生成环节需要最强模型保证质量,验证环节只需要足够好的模型判断对错。这与 "Put Opus where the thinking happens" 的路由原则形成互补——生成是思考,验证是检查。

Enterprise Reliability Debate:模型路由是否被过度乐观(2026-06-03)

来源:[[raw/newsletters/AINews/2026-06-03 [AINews] Microsoft Build MAI-Thinking-1 and MAI Family models.md|AINews 2026-06-03]]

Reddit /r/LocalLlama 社区围绕模型路由展开辩论:

  • 支持方(@ClementDelangue、@garrytan、@matanSF):模型路由是未来关键抽象层,不同任务应自动匹配不同模型
  • 反对方(@glennko):企业生产可靠性使通用路由比爱好者认为的更难——路由决策本身需要高可靠性,而路由失败可能导致级联故障

这一辩论揭示了模型路由从"概念验证"到"生产部署"的鸿沟:爱好者场景下路由失败只是体验下降,企业场景下可能是合规、财务或安全事件。

企业开始设定硬性成本上限(2026-06-04)

来源:[[raw/newsletters/AINews/2026-06-04 [AINews] Reve 2 and Ideogram 4 Layouts in Imagegen.md|AINews 2026-06-04]]

  • Uber reportedly 将编码 Agent 支出上限设定为每位员工每月每工具 $1,500(@simonw)
  • LangChain 立即将其框定为 LangSmith Gateway 的用例
  • @Yuchenj_UW:一些组织可能很快面临三方选择——让所有人"tokenmaxx"、设定预算上限,或裁员并将支出重新分配给最高效的 AI 赋能工作者

混合/开放策略的真实数据点(2026-06-04)

来源:[[raw/newsletters/AINews/2026-06-04 [AINews] Reve 2 and Ideogram 4 Layouts in Imagegen.md|AINews 2026-06-04]]

  • Harvey 的基准测试:混合法律 Agent(GLM 5.1 为主力 + Opus 4.7 为顾问)在 all-pass 率上击败纯 Opus(18% vs 14%),成本为 $368 vs $954(100 个任务)
  • SFT 可将 Kimi 2.6 从 11% 提升到 15%,以约 11 倍更低成本击败 Opus
  • @ClementDelangue:路由 + 后训练开放模型通常在成本/速度/控制上获胜
  • @ypatil125:开放模型和开放模型云是重要工作负载最终默认选择的前兆

Model Routing 的生产复杂度(2026-06-07)

来源:AI 简报 2026-06-07 Evening

Madhu Guru(前 Google Gemini/Veo 产品负责人)指出模型路由在实践中比理论讨论困难得多:

  • 需要针对产品特定任务对模型进行基准测试,而非依赖公开 leaderboard
  • 质量/成本权衡需要持续 dial in,没有通用公式
  • 企业演进路径:2024 年默认 GPT → 2025 年初过度优化最小/最便宜模型,但评估体系尚未成熟

Aaron Levie(Box CEO)从企业支出角度验证了模型路由的战略价值:

  • 企业级 token 成本正成为热门话题,使用规模超出此前预期
  • 这为应用 AI 层创造了新的差异化向量:模型路由确保每一分钱都花在特定任务最高效的 token 上
  • 路由能力将从成本优化工具升级为产品竞争力来源

这两条观点形成互补:Madhu Guru 强调路由的"执行难度",Aaron Levie 强调路由的"战略价值"——前者解释为什么大多数团队做不好路由,后者解释为什么做好路由的团队会获得竞争优势。

Counterpoints & Gaps

  • 判断准确性:模型判断任务复杂度的准确率如何?
  • 延迟增加:模型间调用增加延迟
  • 调试复杂性:多模型链路增加调试难度
  • 验证器一致性边界:DeepSeek V4 Flash 的 94–96% 一致性是否在所有领域都成立,还是仅在法律这种结构化场景中有效?
  • 路由可靠性:当路由决策本身成为单点故障时,如何设计降级策略?

Sources

Synthesized from 8 sources
  • AI 简报 2026-04-10Supporting source listed by this page.Whole pagemediumbody
  • Every 2026-04-27 You Are the Most Expensive ModelSupporting source listed by this page.Whole pagemediumbody
  • Model-Harness-FitSupporting source listed by this page.Whole pagemediumbody
  • 2026-06-03-18-12-v2Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-03 [AINews] Microsoft Build MAI-Thinking-1 and MAI Family modelsSupporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-04 [AINews] Reve 2 and Ideogram 4 Layouts in ImagegenSupporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-04 [AINews] Reve 2 and Ideogram 4 Layouts in ImagegenSupporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-07-18-09Supporting source listed by this page.Whole pagemediumabsorb log

Evolution

1 event
  1. absorbed

    Derived from source material

    This page is currently synthesized from 8 sources.

    From AI 简报 2026-04-10, Every 2026-04-27 You Are the Most Expensive Model, Model-Harness-Fit, 2026-06-03-18-12-v2, 2026-06-03 [AINews] Microsoft Build MAI-Thinking-1 and MAI Family modelsTo Model Routing — 智能模型选择
    Sources: raw/briefing/AI Briefing/2026-04-10.md · raw/newsletters/Every/2026-04-27 You Are the Most Expensive Model.md · raw/twitter/x-articles/Model-Harness-Fit - Nicolas Bustamante.md · raw/briefing/AI Briefing/2026-06-03-18-12-v2.md · raw/newsletters/AINews/2026-06-03 [AINews] Microsoft Build MAI-Thinking-1 and MAI Family models.md · /Users/jean/Documents/Obsidian Vault/raw/newsletters/AINews/2026-06-04 [AINews] Reve 2 and Ideogram 4 Layouts in Imagegen.md · raw/newsletters/AINews/2026-06-04 [AINews] Reve 2 and Ideogram 4 Layouts in Imagegen.md · raw/briefing/AI Briefing/2026-06-07-18-09.md

Linked from