Back/product trends

Token Optimization Economics — 压缩与需求的博弈

Updated 2026-04-19
2 min read
419 words

Token Optimization Economics — 压缩与需求的博弈

Token 成本优化正在从工程师的 side project 变成 CFO 的议程。但优化本身正在重塑 AI 行业的经济模型。

心智模型

AI spend = 用户数 × 每用户任务数 × 每任务 token 数 × 混合 $/token

前半部分(用户和任务)几乎肯定会继续高速增长。Claude Code 的采用曲线比同期 Cursor 更陡峭。张力在第二部分:tokens/task 和 $/token。

三个优化杠杆

杠杆 1:同样的工作,更便宜的 token(↓ $/token)

  • 模型路由: trivial 任务送 Haiku,复杂推理保留 Opus → 可削减 60-80% 花费
  • 批量折扣:$1M+ 账户的 table stakes
  • 开源模型替代商品任务:自托管 Llama/Qwen 做 boilerplate → 零 per-token 成本,换 GPU capex
  • 最简单的策略:等待 —— token 价格约每 18 个月下降 10 倍

杠杆 2:同样的工作,更少的 token(↓ tokens/task)

  • Prompt caching:重复系统提示词缓存,读取成本为输入价格的 10%
  • 上下文窗口管理:总结历史而非重发完整对话,剪枝无关文件
  • Thinking budget tuning:简单 completion 限制思考 token,难题放开
  • Prompt engineering:"return only the diff" vs "explain your changes"
  • Response caching:50 个工程师问 "how do I set up X" → 缓存,零边际 token
  • Agent loop pruning:多数 agent 浪费 50-70% token 在冗余工具调用、重试和无意义子 agent 生成上

杠杆 3:停止不必要的工作(↓ 任务数)

谁在优化什么

层级 优化目标
基础设施(NVIDIA、AMD、Cerebras、Groq) tokens/watt、tokens/second、tokens/dollar、TTFT latency
模型提供商(Anthropic、OpenAI、Google) quality/token、gross margin、task success rate、thinking efficiency
应用层(Cursor、Claude Code、Codex) cost/task、tokens/task、cache hit rate、routing accuracy
企业买家(Uber 等) cost/engineer、output/dollar、ROI vs headcount

每层的收益对周围层产生压力。更快硬件迫使模型提供商降价;更好模型减少应用层所需 token;应用层路由侵蚀 premium 定价;企业 CFO 要求以上全部。

熊 vs 牛

熊 case

  • Rationalization 是 CFO 的第一本能:Uber CTO 回顾 AI 预算时,反应不是"great, let's 10x",而是"finally back inside the envelope"。节省流向 bottom line,不回流 token
  • 模型路由是收入攻击:从 Opus 路由到 Haiku 提供几乎相同的用户体验,模型提供商每任务收入下降 10-20 倍
  • 开源正在缩小差距:一年前"not even close",三个月前"almost there"。一旦 good enough,工作负载迁移到自托管 —— 收入不是缩小,是消失
  • Caching 是纯 token 毁灭:cache hit = 零收入。没有新需求产生
  • Thinking efficiency 是自食:Anthropic 将 extended thinking 提升 3 倍,同一推理任务计费下降 2/3

牛 case

  • 当前使用受成本约束,非需求约束:Uber 超预算后不得不 throttle。成本降 5 倍,所有因预算被杀的用例都会回来
  • 渗透率仍是单位数:更便宜 token 不仅意味着现有用户做更多,还意味着新用户和新公司采用
  • Agentic workflows 是 token 乘数:human-in-the-loop 对话数千 token,自主 agent 复杂任务数十万 token。优化压缩每一步;agentic 架构乘步骤数
  • 新模态是净新需求:视觉、音频、视频 —— token 量 dwarf 文本,不受现有文本优化压力
  • Jensen Huang 框架:$500K/年工程师应至少消耗 $250K/年 token。在 $5K 时,你严重 under-leveraging AI

领先指标

与其选边,不如跟踪揭示哪股力量占上风的指标:

  1. Revenue growth vs token growth:token 仍在爆炸但收入减速?价格压缩获胜
  2. Frontier model mix:最贵模型的收入份额在缩小?流量向小模型迁移 = 定价权侵蚀
  3. Expansion patterns:个人用户消耗更多(脆弱、可优化)vs 更多 seat 和工作流(持久、难压缩)
  4. Net dollar retention:优化压力下 NDR 下降 —— 除非新用例扩展跑赢它
  5. Gross margin:价格下降快于推理成本 = 利润压缩;推理成本下降快于价格 = 利润维持
  6. Inference infra 创业:Fireworks、Together、Anyscale 积极融资增长 = 企业从直接 API 转向成本效益 infra,从模型提供商抽走支出
  7. API 定价节奏:频繁大幅降价 = 竞争压力迫使利润回吐
  8. OSS benchmark 收敛:每次新 Llama/Qwen,检查 SWE-bench 和 HumanEval 差距。缩小 = 迁移摩擦降低 = 定价权削弱
  9. Cost-normalized performance:不是谁得分最高,而是每美元性能最多。小模型快速缩小此差距 = 路由激励增强

结论

优化者会赢得每场个别战役。每个缓存技巧、每个路由层、每个修剪的 agent 循环都会有效。每任务成本将大幅下降。

但任务数量、用户数量和委托给 AI 的复杂性增长速度将超过效率压缩支出的速度。

Token 成本在下降。Token 支出在上升。两者都为真,且不矛盾。

Counterpoints & Gaps

  • 该分析偏重 infra 和应用层,对模型提供商内部成本结构(如 Anthropic 的 inference 优化)信息有限
  • "等待 18 个月降 10 倍" 的假设基于历史趋势,若供应链受限可能不成立
  • 企业 seat 扩张的可持续性取决于 agent 实际产生可衡量 ROI 的能力

Sources

Linked from