Token Optimization Economics — 压缩与需求的博弈

Token 成本优化正在从工程师的 side project 变成 CFO 的议程。但优化本身正在重塑 AI 行业的经济模型。

心智模型

AI spend = 用户数 × 每用户任务数 × 每任务 token 数 × 混合 $/token

前半部分（用户和任务）几乎肯定会继续高速增长。Claude Code 的采用曲线比同期 Cursor 更陡峭。张力在第二部分：tokens/task 和 $/token。

三个优化杠杆

杠杆 1：同样的工作，更便宜的 token（↓ $/token）

模型路由： trivial 任务送 Haiku，复杂推理保留 Opus → 可削减 60-80% 花费
批量折扣：$1M+ 账户的 table stakes
开源模型替代商品任务：自托管 Llama/Qwen 做 boilerplate → 零 per-token 成本，换 GPU capex
最简单的策略：等待 —— token 价格约每 18 个月下降 10 倍

杠杆 2：同样的工作，更少的 token（↓ tokens/task）

Prompt caching：重复系统提示词缓存，读取成本为输入价格的 10%
上下文窗口管理：总结历史而非重发完整对话，剪枝无关文件
Thinking budget tuning：简单 completion 限制思考 token，难题放开
Prompt engineering："return only the diff" vs "explain your changes"
Response caching：50 个工程师问 "how do I set up X" → 缓存，零边际 token
Agent loop pruning：多数 agent 浪费 50-70% token 在冗余工具调用、重试和无意义子 agent 生成上

杠杆 3：停止不必要的工作（↓ 任务数）

谁在优化什么

层级	优化目标
基础设施（NVIDIA、AMD、Cerebras、Groq）	tokens/watt、tokens/second、tokens/dollar、TTFT latency
模型提供商（Anthropic、OpenAI、Google）	quality/token、gross margin、task success rate、thinking efficiency
应用层（Cursor、Claude Code、Codex）	cost/task、tokens/task、cache hit rate、routing accuracy
企业买家（Uber 等）	cost/engineer、output/dollar、ROI vs headcount

每层的收益对周围层产生压力。更快硬件迫使模型提供商降价；更好模型减少应用层所需 token；应用层路由侵蚀 premium 定价；企业 CFO 要求以上全部。

熊 vs 牛

熊 case

Rationalization 是 CFO 的第一本能：Uber CTO 回顾 AI 预算时，反应不是"great, let's 10x"，而是"finally back inside the envelope"。节省流向 bottom line，不回流 token
模型路由是收入攻击：从 Opus 路由到 Haiku 提供几乎相同的用户体验，模型提供商每任务收入下降 10-20 倍
开源正在缩小差距：一年前"not even close"，三个月前"almost there"。一旦 good enough，工作负载迁移到自托管 —— 收入不是缩小，是消失
Caching 是纯 token 毁灭：cache hit = 零收入。没有新需求产生
Thinking efficiency 是自食：Anthropic 将 extended thinking 提升 3 倍，同一推理任务计费下降 2/3

牛 case

当前使用受成本约束，非需求约束：Uber 超预算后不得不 throttle。成本降 5 倍，所有因预算被杀的用例都会回来
渗透率仍是单位数：更便宜 token 不仅意味着现有用户做更多，还意味着新用户和新公司采用
Agentic workflows 是 token 乘数：human-in-the-loop 对话数千 token，自主 agent 复杂任务数十万 token。优化压缩每一步；agentic 架构乘步骤数
新模态是净新需求：视觉、音频、视频 —— token 量 dwarf 文本，不受现有文本优化压力
Jensen Huang 框架：$500K/年工程师应至少消耗 $250K/年 token。在 $5K 时，你严重 under-leveraging AI

领先指标

与其选边，不如跟踪揭示哪股力量占上风的指标：

Revenue growth vs token growth：token 仍在爆炸但收入减速？价格压缩获胜
Frontier model mix：最贵模型的收入份额在缩小？流量向小模型迁移 = 定价权侵蚀
Expansion patterns：个人用户消耗更多（脆弱、可优化）vs 更多 seat 和工作流（持久、难压缩）
Net dollar retention：优化压力下 NDR 下降 —— 除非新用例扩展跑赢它
Gross margin：价格下降快于推理成本 = 利润压缩；推理成本下降快于价格 = 利润维持
Inference infra 创业：Fireworks、Together、Anyscale 积极融资增长 = 企业从直接 API 转向成本效益 infra，从模型提供商抽走支出
API 定价节奏：频繁大幅降价 = 竞争压力迫使利润回吐
OSS benchmark 收敛：每次新 Llama/Qwen，检查 SWE-bench 和 HumanEval 差距。缩小 = 迁移摩擦降低 = 定价权削弱
Cost-normalized performance：不是谁得分最高，而是每美元性能最多。小模型快速缩小此差距 = 路由激励增强

结论

优化者会赢得每场个别战役。每个缓存技巧、每个路由层、每个修剪的 agent 循环都会有效。每任务成本将大幅下降。

但任务数量、用户数量和委托给 AI 的复杂性增长速度将超过效率压缩支出的速度。

Token 成本在下降。Token 支出在上升。两者都为真，且不矛盾。

Counterpoints & Gaps

该分析偏重 infra 和应用层，对模型提供商内部成本结构（如 Anthropic 的 inference 优化）信息有限
"等待 18 个月降 10 倍" 的假设基于历史趋势，若供应链受限可能不成立
企业 seat 扩张的可持续性取决于 agent 实际产生可衡量 ROI 的能力

Token Optimization Economics — 压缩与需求的博弈

Token Optimization Economics — 压缩与需求的博弈

心智模型

三个优化杠杆

杠杆 1：同样的工作，更便宜的 token（↓ $/token）

杠杆 2：同样的工作，更少的 token（↓ tokens/task）

杠杆 3：停止不必要的工作（↓ 任务数）

谁在优化什么

熊 vs 牛

熊 case

牛 case

领先指标

结论

Counterpoints & Gaps

Sources

Linked from

Token Optimization Economics — 压缩与需求的博弈

心智模型

三个优化杠杆

杠杆 1：同样的工作，更便宜的 token（↓ $/token）

杠杆 2：同样的工作，更少的 token（↓ tokens/task）

杠杆 3：停止不必要的工作（↓ 任务数）

谁在优化什么

熊 vs 牛

熊 case

牛 case

领先指标

结论

Counterpoints & Gaps

Related

Sources

Linked from