Model Routing — 智能模型选择

Model Routing 是在不同模型间智能分配任务的技术，让合适的模型处理合适的任务，以优化性能与成本的平衡。

核心机制

Sonnet 调用 Opus 模式

Anthropic 的实现：

默认：Sonnet 处理大部分任务（更快、更便宜）
复杂任务：Sonnet 调用 Opus 获得更强能力
结果：整体性能提升，总成本降低

为什么降低成本：

避免 Sonnet 在复杂任务上浪费大量 token
Opus 只在必要时调用
简单任务用便宜模型，复杂任务用强力模型

实现方式

通过 Tool Use

User → Sonnet → [判断任务复杂度]
                ↓
           [简单任务] → 直接处理
           [复杂任务] → 调用 Opus → 返回结果

动态判断

模型自身判断何时需要升级：

基于任务描述
基于中间结果的复杂度
基于历史经验

成本与性能平衡

策略	性能	成本	适用场景
全用强力模型	最高	最高	不计成本的关键任务
全用轻量模型	较低	最低	简单批量任务
智能路由	高	中等	混合任务场景

人类注意力路由

Every 2026-04-27 将模型路由问题进一步推广为注意力路由问题。最昂贵的模型往往不是 Opus、GPT-5.5 或其他前沿模型，而是人的判断力。稳定、重复、低判断需求的步骤应下沉到小模型、脚本或固定模板；强模型与人类审查应保留给叙事、策略、复杂判断和最终验收。

这个观点把 model routing 与 skills into loops 连接起来：先用 skill 描述任务，再用 eval 判断质量，最后把不同步骤路由到不同智能等级。OpenRouter 一类统一接口适合做模型候选集与 provider fallback，但路由策略仍要由任务分解和 eval 结果驱动。

Per-Model Tool Surface Routing（Copilot CLI 策略）

GitHub Copilot CLI 实现了最诚实的模型路由：不给所有模型提供相同的工具面，而是给每个模型提供它训练时使用的工具方言。

三种策略（来源：Model-Harness-Fit）：

Per-model tool inclusion：apply_patch 仅对 Codex 家族模型暴露；Anthropic 模型获得 Edit/Write 形态
Per-model tool search：ToolSearch 仅对 Claude 模型暴露（它们被训练用延迟加载）；OpenAI 模型获得完整工具列表
Complementary model Critic：critic agent 使用与主 agent 不同的模型

这不是"翻译成通用方言"，而是"给每个模型提供正确的方言"。这是唯一在开放或半开放集合中实际交付此策略的 harness。

与 Multi-Agent 的关系

Model Routing 是 multi-agent 架构的一种形式：

不同模型扮演不同角色
轻量模型作为 router
强力模型作为 specialist

实践建议

分析任务复杂度分布
建立简单/复杂任务的判断标准
监控路由决策的准确性
持续优化路由策略

Sam Altman：price/speed 权衡优先于 price/intelligence（2026-05-14）

来源：AI 简报 2026-05-14 Afternoon

Sam Altman 指出行业过度追求"最智能可用模型"，而真正的优化空间在于 price/speed tradeoff 而非 price/intelligence tradeoff：

有时模型慢一点也可以接受，关键在于任务匹配
不同子任务应路由到不同模型，而非全程使用最昂贵的前沿模型
这一观点对 agent 工作流设计有直接影响：建立任务分级策略

这与 Model-Harness-Fit 中"给每个模型提供正确的方言"形成互补：路由决策既要考虑模型能力，也要考虑速度-成本比。

实战案例：33-Agent 知识库审计（PawelHuryn, 2026-06-03）

来源：AI 简报 2026-06-03 Afternoon

PawelHuryn 在 Thariq 的 Claude Code Workflows 文章基础上实践了大规模多模型路由：

配置：33 个 reader agent 全部跑 Sonnet，1 个 synthesizer 跑 Opus
成本：980k tokens，耗时约 4.5 分钟
结果：发现 38 个问题，包括一个文件中隐藏的真实错误
核心原则：把 Opus 放在需要深度思考的环节，其余用 Sonnet 即可

这与 Anthropic 的 Sonnet-调用-Opus 模式形成对比：Anthropic 是单 agent 内部判断何时升级，PawelHuryn 是显式角色分工——reader 负责广度扫描（便宜模型），synthesizer 负责深度整合（强力模型）。两种模式都验证了 "Put Opus where the thinking happens" 的路由原则。

Cheap Verifier Pattern：小模型验证，大模型生成（2026-06-03）

来源：[[raw/newsletters/AINews/2026-06-03 [AINews] Microsoft Build MAI-Thinking-1 and MAI Family models.md|AINews 2026-06-03]]

Harvey 与 LangChain 在法律代理场景中实践了一种极端成本优化的验证架构：

配置：DeepSeek V4 Flash 作为验证器，对比 Opus 4.7 的生成结果
一致性：验证结果与 Opus 4.7 达到 94–96% 的一致率
成本：逐标准模式降低 18 倍；批处理模式降低约 1000 倍
具体数据：3,200 次 RL rollout 的验证成本从 $18,000 降至 $18

核心原则：生成环节需要最强模型保证质量，验证环节只需要足够好的模型判断对错。这与 "Put Opus where the thinking happens" 的路由原则形成互补——生成是思考，验证是检查。

Enterprise Reliability Debate：模型路由是否被过度乐观（2026-06-03）

来源：[[raw/newsletters/AINews/2026-06-03 [AINews] Microsoft Build MAI-Thinking-1 and MAI Family models.md|AINews 2026-06-03]]

Reddit /r/LocalLlama 社区围绕模型路由展开辩论：

支持方（@ClementDelangue、@garrytan、@matanSF）：模型路由是未来关键抽象层，不同任务应自动匹配不同模型
反对方（@glennko）：企业生产可靠性使通用路由比爱好者认为的更难——路由决策本身需要高可靠性，而路由失败可能导致级联故障

这一辩论揭示了模型路由从"概念验证"到"生产部署"的鸿沟：爱好者场景下路由失败只是体验下降，企业场景下可能是合规、财务或安全事件。

企业开始设定硬性成本上限（2026-06-04）

来源：[[raw/newsletters/AINews/2026-06-04 [AINews] Reve 2 and Ideogram 4 Layouts in Imagegen.md|AINews 2026-06-04]]

Uber reportedly 将编码 Agent 支出上限设定为每位员工每月每工具 $1,500（@simonw）
LangChain 立即将其框定为 LangSmith Gateway 的用例
@Yuchenj_UW：一些组织可能很快面临三方选择——让所有人"tokenmaxx"、设定预算上限，或裁员并将支出重新分配给最高效的 AI 赋能工作者

混合/开放策略的真实数据点（2026-06-04）

来源：[[raw/newsletters/AINews/2026-06-04 [AINews] Reve 2 and Ideogram 4 Layouts in Imagegen.md|AINews 2026-06-04]]

Harvey 的基准测试：混合法律 Agent（GLM 5.1 为主力 + Opus 4.7 为顾问）在 all-pass 率上击败纯 Opus（18% vs 14%），成本为 $368 vs $954（100 个任务）
SFT 可将 Kimi 2.6 从 11% 提升到 15%，以约 11 倍更低成本击败 Opus
@ClementDelangue：路由 + 后训练开放模型通常在成本/速度/控制上获胜
@ypatil125：开放模型和开放模型云是重要工作负载最终默认选择的前兆

Model Routing 的生产复杂度（2026-06-07）

来源：AI 简报 2026-06-07 Evening

Madhu Guru（前 Google Gemini/Veo 产品负责人）指出模型路由在实践中比理论讨论困难得多：

需要针对产品特定任务对模型进行基准测试，而非依赖公开 leaderboard
质量/成本权衡需要持续 dial in，没有通用公式
企业演进路径：2024 年默认 GPT → 2025 年初过度优化最小/最便宜模型，但评估体系尚未成熟

Aaron Levie（Box CEO）从企业支出角度验证了模型路由的战略价值：

企业级 token 成本正成为热门话题，使用规模超出此前预期
这为应用 AI 层创造了新的差异化向量：模型路由确保每一分钱都花在特定任务最高效的 token 上
路由能力将从成本优化工具升级为产品竞争力来源

这两条观点形成互补：Madhu Guru 强调路由的"执行难度"，Aaron Levie 强调路由的"战略价值"——前者解释为什么大多数团队做不好路由，后者解释为什么做好路由的团队会获得竞争优势。

Counterpoints & Gaps

判断准确性：模型判断任务复杂度的准确率如何？
延迟增加：模型间调用增加延迟
调试复杂性：多模型链路增加调试难度
验证器一致性边界：DeepSeek V4 Flash 的 94–96% 一致性是否在所有领域都成立，还是仅在法律这种结构化场景中有效？
路由可靠性：当路由决策本身成为单点故障时，如何设计降级策略？

Model Routing — 智能模型选择

Model Routing — 智能模型选择

核心机制

Sonnet 调用 Opus 模式

实现方式

通过 Tool Use

动态判断

成本与性能平衡

人类注意力路由

Per-Model Tool Surface Routing（Copilot CLI 策略）

与 Multi-Agent 的关系

实践建议

Sam Altman：price/speed 权衡优先于 price/intelligence（2026-05-14）

实战案例：33-Agent 知识库审计（PawelHuryn, 2026-06-03）

Cheap Verifier Pattern：小模型验证，大模型生成（2026-06-03）

Enterprise Reliability Debate：模型路由是否被过度乐观（2026-06-03）

企业开始设定硬性成本上限（2026-06-04）

混合/开放策略的真实数据点（2026-06-04）

Model Routing 的生产复杂度（2026-06-07）

Counterpoints & Gaps

Sources

Evolution

Derived from source material

Linked from