Token Optimization Economics — 压缩与需求的博弈
Token 成本优化正在从工程师的 side project 变成 CFO 的议程。但优化本身正在重塑 AI 行业的经济模型。
心智模型
AI spend = 用户数 × 每用户任务数 × 每任务 token 数 × 混合 $/token
前半部分(用户和任务)几乎肯定会继续高速增长。Claude Code 的采用曲线比同期 Cursor 更陡峭。张力在第二部分:tokens/task 和 $/token。
三个优化杠杆
杠杆 1:同样的工作,更便宜的 token(↓ $/token)
- 模型路由: trivial 任务送 Haiku,复杂推理保留 Opus → 可削减 60-80% 花费
- 批量折扣:$1M+ 账户的 table stakes
- 开源模型替代商品任务:自托管 Llama/Qwen 做 boilerplate → 零 per-token 成本,换 GPU capex
- 最简单的策略:等待 —— token 价格约每 18 个月下降 10 倍
杠杆 2:同样的工作,更少的 token(↓ tokens/task)
- Prompt caching:重复系统提示词缓存,读取成本为输入价格的 10%
- 上下文窗口管理:总结历史而非重发完整对话,剪枝无关文件
- Thinking budget tuning:简单 completion 限制思考 token,难题放开
- Prompt engineering:"return only the diff" vs "explain your changes"
- Response caching:50 个工程师问 "how do I set up X" → 缓存,零边际 token
- Agent loop pruning:多数 agent 浪费 50-70% token 在冗余工具调用、重试和无意义子 agent 生成上
杠杆 3:停止不必要的工作(↓ 任务数)
谁在优化什么
| 层级 | 优化目标 |
|---|---|
| 基础设施(NVIDIA、AMD、Cerebras、Groq) | tokens/watt、tokens/second、tokens/dollar、TTFT latency |
| 模型提供商(Anthropic、OpenAI、Google) | quality/token、gross margin、task success rate、thinking efficiency |
| 应用层(Cursor、Claude Code、Codex) | cost/task、tokens/task、cache hit rate、routing accuracy |
| 企业买家(Uber 等) | cost/engineer、output/dollar、ROI vs headcount |
每层的收益对周围层产生压力。更快硬件迫使模型提供商降价;更好模型减少应用层所需 token;应用层路由侵蚀 premium 定价;企业 CFO 要求以上全部。
熊 vs 牛
熊 case
- Rationalization 是 CFO 的第一本能:Uber CTO 回顾 AI 预算时,反应不是"great, let's 10x",而是"finally back inside the envelope"。节省流向 bottom line,不回流 token
- 模型路由是收入攻击:从 Opus 路由到 Haiku 提供几乎相同的用户体验,模型提供商每任务收入下降 10-20 倍
- 开源正在缩小差距:一年前"not even close",三个月前"almost there"。一旦 good enough,工作负载迁移到自托管 —— 收入不是缩小,是消失
- Caching 是纯 token 毁灭:cache hit = 零收入。没有新需求产生
- Thinking efficiency 是自食:Anthropic 将 extended thinking 提升 3 倍,同一推理任务计费下降 2/3
牛 case
- 当前使用受成本约束,非需求约束:Uber 超预算后不得不 throttle。成本降 5 倍,所有因预算被杀的用例都会回来
- 渗透率仍是单位数:更便宜 token 不仅意味着现有用户做更多,还意味着新用户和新公司采用
- Agentic workflows 是 token 乘数:human-in-the-loop 对话数千 token,自主 agent 复杂任务数十万 token。优化压缩每一步;agentic 架构乘步骤数
- 新模态是净新需求:视觉、音频、视频 —— token 量 dwarf 文本,不受现有文本优化压力
- Jensen Huang 框架:$500K/年工程师应至少消耗 $250K/年 token。在 $5K 时,你严重 under-leveraging AI
领先指标
与其选边,不如跟踪揭示哪股力量占上风的指标:
- Revenue growth vs token growth:token 仍在爆炸但收入减速?价格压缩获胜
- Frontier model mix:最贵模型的收入份额在缩小?流量向小模型迁移 = 定价权侵蚀
- Expansion patterns:个人用户消耗更多(脆弱、可优化)vs 更多 seat 和工作流(持久、难压缩)
- Net dollar retention:优化压力下 NDR 下降 —— 除非新用例扩展跑赢它
- Gross margin:价格下降快于推理成本 = 利润压缩;推理成本下降快于价格 = 利润维持
- Inference infra 创业:Fireworks、Together、Anyscale 积极融资增长 = 企业从直接 API 转向成本效益 infra,从模型提供商抽走支出
- API 定价节奏:频繁大幅降价 = 竞争压力迫使利润回吐
- OSS benchmark 收敛:每次新 Llama/Qwen,检查 SWE-bench 和 HumanEval 差距。缩小 = 迁移摩擦降低 = 定价权削弱
- Cost-normalized performance:不是谁得分最高,而是每美元性能最多。小模型快速缩小此差距 = 路由激励增强
结论
优化者会赢得每场个别战役。每个缓存技巧、每个路由层、每个修剪的 agent 循环都会有效。每任务成本将大幅下降。
但任务数量、用户数量和委托给 AI 的复杂性增长速度将超过效率压缩支出的速度。
Token 成本在下降。Token 支出在上升。两者都为真,且不矛盾。
Counterpoints & Gaps
- 该分析偏重 infra 和应用层,对模型提供商内部成本结构(如 Anthropic 的 inference 优化)信息有限
- "等待 18 个月降 10 倍" 的假设基于历史趋势,若供应链受限可能不成立
- 企业 seat 扩张的可持续性取决于 agent 实际产生可衡量 ROI 的能力
Related
- claude-code/token-optimization-toolkit
- Cache TTL Drop (2026-04)
- harness-engineering/model-routing
- product-trends/enterprise-agent-adoption-2026-04