Model Routing — 智能模型选择
Model Routing 是在不同模型间智能分配任务的技术,让合适的模型处理合适的任务,以优化性能与成本的平衡。
核心机制
Sonnet 调用 Opus 模式
Anthropic 的实现:
- 默认:Sonnet 处理大部分任务(更快、更便宜)
- 复杂任务:Sonnet 调用 Opus 获得更强能力
- 结果:整体性能提升,总成本降低
为什么降低成本:
- 避免 Sonnet 在复杂任务上浪费大量 token
- Opus 只在必要时调用
- 简单任务用便宜模型,复杂任务用强力模型
实现方式
通过 Tool Use
User → Sonnet → [判断任务复杂度]
↓
[简单任务] → 直接处理
[复杂任务] → 调用 Opus → 返回结果
动态判断
模型自身判断何时需要升级:
- 基于任务描述
- 基于中间结果的复杂度
- 基于历史经验
成本与性能平衡
| 策略 | 性能 | 成本 | 适用场景 |
|---|---|---|---|
| 全用强力模型 | 最高 | 最高 | 不计成本的关键任务 |
| 全用轻量模型 | 较低 | 最低 | 简单批量任务 |
| 智能路由 | 高 | 中等 | 混合任务场景 |
人类注意力路由
Every 2026-04-27 将模型路由问题进一步推广为注意力路由问题。最昂贵的模型往往不是 Opus、GPT-5.5 或其他前沿模型,而是人的判断力。稳定、重复、低判断需求的步骤应下沉到小模型、脚本或固定模板;强模型与人类审查应保留给叙事、策略、复杂判断和最终验收。
这个观点把 model routing 与 skills into loops 连接起来:先用 skill 描述任务,再用 eval 判断质量,最后把不同步骤路由到不同智能等级。OpenRouter 一类统一接口适合做模型候选集与 provider fallback,但路由策略仍要由任务分解和 eval 结果驱动。
Per-Model Tool Surface Routing(Copilot CLI 策略)
GitHub Copilot CLI 实现了最诚实的模型路由:不给所有模型提供相同的工具面,而是给每个模型提供它训练时使用的工具方言。
三种策略(来源:Model-Harness-Fit):
- Per-model tool inclusion:
apply_patch仅对 Codex 家族模型暴露;Anthropic 模型获得Edit/Write形态 - Per-model tool search:
ToolSearch仅对 Claude 模型暴露(它们被训练用延迟加载);OpenAI 模型获得完整工具列表 - Complementary model Critic:critic agent 使用与主 agent 不同的模型
这不是"翻译成通用方言",而是"给每个模型提供正确的方言"。这是唯一在开放或半开放集合中实际交付此策略的 harness。
与 Multi-Agent 的关系
Model Routing 是 multi-agent 架构的一种形式:
- 不同模型扮演不同角色
- 轻量模型作为 router
- 强力模型作为 specialist
实践建议
- 分析任务复杂度分布
- 建立简单/复杂任务的判断标准
- 监控路由决策的准确性
- 持续优化路由策略
Sam Altman:price/speed 权衡优先于 price/intelligence(2026-05-14)
Sam Altman 指出行业过度追求"最智能可用模型",而真正的优化空间在于 price/speed tradeoff 而非 price/intelligence tradeoff:
- 有时模型慢一点也可以接受,关键在于任务匹配
- 不同子任务应路由到不同模型,而非全程使用最昂贵的前沿模型
- 这一观点对 agent 工作流设计有直接影响:建立任务分级策略
这与 Model-Harness-Fit 中"给每个模型提供正确的方言"形成互补:路由决策既要考虑模型能力,也要考虑速度-成本比。
实战案例:33-Agent 知识库审计(PawelHuryn, 2026-06-03)
PawelHuryn 在 Thariq 的 Claude Code Workflows 文章基础上实践了大规模多模型路由:
- 配置:33 个 reader agent 全部跑 Sonnet,1 个 synthesizer 跑 Opus
- 成本:980k tokens,耗时约 4.5 分钟
- 结果:发现 38 个问题,包括一个文件中隐藏的真实错误
- 核心原则:把 Opus 放在需要深度思考的环节,其余用 Sonnet 即可
这与 Anthropic 的 Sonnet-调用-Opus 模式形成对比:Anthropic 是单 agent 内部判断何时升级,PawelHuryn 是显式角色分工——reader 负责广度扫描(便宜模型),synthesizer 负责深度整合(强力模型)。两种模式都验证了 "Put Opus where the thinking happens" 的路由原则。
Cheap Verifier Pattern:小模型验证,大模型生成(2026-06-03)
来源:[[raw/newsletters/AINews/2026-06-03 [AINews] Microsoft Build MAI-Thinking-1 and MAI Family models.md|AINews 2026-06-03]]
Harvey 与 LangChain 在法律代理场景中实践了一种极端成本优化的验证架构:
- 配置:DeepSeek V4 Flash 作为验证器,对比 Opus 4.7 的生成结果
- 一致性:验证结果与 Opus 4.7 达到 94–96% 的一致率
- 成本:逐标准模式降低 18 倍;批处理模式降低约 1000 倍
- 具体数据:3,200 次 RL rollout 的验证成本从 $18,000 降至 $18
核心原则:生成环节需要最强模型保证质量,验证环节只需要足够好的模型判断对错。这与 "Put Opus where the thinking happens" 的路由原则形成互补——生成是思考,验证是检查。
Enterprise Reliability Debate:模型路由是否被过度乐观(2026-06-03)
来源:[[raw/newsletters/AINews/2026-06-03 [AINews] Microsoft Build MAI-Thinking-1 and MAI Family models.md|AINews 2026-06-03]]
Reddit /r/LocalLlama 社区围绕模型路由展开辩论:
- 支持方(@ClementDelangue、@garrytan、@matanSF):模型路由是未来关键抽象层,不同任务应自动匹配不同模型
- 反对方(@glennko):企业生产可靠性使通用路由比爱好者认为的更难——路由决策本身需要高可靠性,而路由失败可能导致级联故障
这一辩论揭示了模型路由从"概念验证"到"生产部署"的鸿沟:爱好者场景下路由失败只是体验下降,企业场景下可能是合规、财务或安全事件。
企业开始设定硬性成本上限(2026-06-04)
来源:[[raw/newsletters/AINews/2026-06-04 [AINews] Reve 2 and Ideogram 4 Layouts in Imagegen.md|AINews 2026-06-04]]
- Uber reportedly 将编码 Agent 支出上限设定为每位员工每月每工具 $1,500(@simonw)
- LangChain 立即将其框定为 LangSmith Gateway 的用例
- @Yuchenj_UW:一些组织可能很快面临三方选择——让所有人"tokenmaxx"、设定预算上限,或裁员并将支出重新分配给最高效的 AI 赋能工作者
混合/开放策略的真实数据点(2026-06-04)
来源:[[raw/newsletters/AINews/2026-06-04 [AINews] Reve 2 and Ideogram 4 Layouts in Imagegen.md|AINews 2026-06-04]]
- Harvey 的基准测试:混合法律 Agent(GLM 5.1 为主力 + Opus 4.7 为顾问)在 all-pass 率上击败纯 Opus(18% vs 14%),成本为 $368 vs $954(100 个任务)
- SFT 可将 Kimi 2.6 从 11% 提升到 15%,以约 11 倍更低成本击败 Opus
- @ClementDelangue:路由 + 后训练开放模型通常在成本/速度/控制上获胜
- @ypatil125:开放模型和开放模型云是重要工作负载最终默认选择的前兆
Model Routing 的生产复杂度(2026-06-07)
Madhu Guru(前 Google Gemini/Veo 产品负责人)指出模型路由在实践中比理论讨论困难得多:
- 需要针对产品特定任务对模型进行基准测试,而非依赖公开 leaderboard
- 质量/成本权衡需要持续 dial in,没有通用公式
- 企业演进路径:2024 年默认 GPT → 2025 年初过度优化最小/最便宜模型,但评估体系尚未成熟
Aaron Levie(Box CEO)从企业支出角度验证了模型路由的战略价值:
- 企业级 token 成本正成为热门话题,使用规模超出此前预期
- 这为应用 AI 层创造了新的差异化向量:模型路由确保每一分钱都花在特定任务最高效的 token 上
- 路由能力将从成本优化工具升级为产品竞争力来源
这两条观点形成互补:Madhu Guru 强调路由的"执行难度",Aaron Levie 强调路由的"战略价值"——前者解释为什么大多数团队做不好路由,后者解释为什么做好路由的团队会获得竞争优势。
Counterpoints & Gaps
- 判断准确性:模型判断任务复杂度的准确率如何?
- 延迟增加:模型间调用增加延迟
- 调试复杂性:多模型链路增加调试难度
- 验证器一致性边界:DeepSeek V4 Flash 的 94–96% 一致性是否在所有领域都成立,还是仅在法律这种结构化场景中有效?
- 路由可靠性:当路由决策本身成为单点故障时,如何设计降级策略?