Skip to content
Back/Product Trends

Token Optimization Economics — 压缩与需求的博弈

View in Graph
Updated 2026-05-26
3 min read
502 words

Token Optimization Economics — 压缩与需求的博弈

Token 成本优化正在从工程师的 side project 变成 CFO 的议程。但优化本身正在重塑 AI 行业的经济模型。

心智模型

AI spend = 用户数 × 每用户任务数 × 每任务 token 数 × 混合 $/token

前半部分(用户和任务)几乎肯定会继续高速增长。Claude Code 的采用曲线比同期 Cursor 更陡峭。张力在第二部分:tokens/task 和 $/token。

三个优化杠杆

杠杆 1:同样的工作,更便宜的 token(↓ $/token)

  • 模型路由: trivial 任务送 Haiku,复杂推理保留 Opus → 可削减 60-80% 花费
  • 批量折扣:$1M+ 账户的 table stakes
  • 开源模型替代商品任务:自托管 Llama/Qwen 做 boilerplate → 零 per-token 成本,换 GPU capex
  • 最简单的策略:等待 —— token 价格约每 18 个月下降 10 倍

杠杆 2:同样的工作,更少的 token(↓ tokens/task)

  • Prompt caching:重复系统提示词缓存,读取成本为输入价格的 10%
  • 上下文窗口管理:总结历史而非重发完整对话,剪枝无关文件
  • Thinking budget tuning:简单 completion 限制思考 token,难题放开
  • Prompt engineering:"return only the diff" vs "explain your changes"
  • Response caching:50 个工程师问 "how do I set up X" → 缓存,零边际 token
  • Agent loop pruning:多数 agent 浪费 50-70% token 在冗余工具调用、重试和无意义子 agent 生成上

杠杆 3:停止不必要的工作(↓ 任务数)

谁在优化什么

层级 优化目标
基础设施(NVIDIA、AMD、Cerebras、Groq) tokens/watt、tokens/second、tokens/dollar、TTFT latency
模型提供商(Anthropic、OpenAI、Google) quality/token、gross margin、task success rate、thinking efficiency
应用层(Cursor、Claude Code、Codex) cost/task、tokens/task、cache hit rate、routing accuracy
企业买家(Uber 等) cost/engineer、output/dollar、ROI vs headcount

每层的收益对周围层产生压力。更快硬件迫使模型提供商降价;更好模型减少应用层所需 token;应用层路由侵蚀 premium 定价;企业 CFO 要求以上全部。

熊 vs 牛

熊 case

  • Rationalization 是 CFO 的第一本能:Uber CTO 回顾 AI 预算时,反应不是"great, let's 10x",而是"finally back inside the envelope"。节省流向 bottom line,不回流 token
  • 模型路由是收入攻击:从 Opus 路由到 Haiku 提供几乎相同的用户体验,模型提供商每任务收入下降 10-20 倍
  • 开源正在缩小差距:一年前"not even close",三个月前"almost there"。一旦 good enough,工作负载迁移到自托管 —— 收入不是缩小,是消失
  • Caching 是纯 token 毁灭:cache hit = 零收入。没有新需求产生
  • Thinking efficiency 是自食:Anthropic 将 extended thinking 提升 3 倍,同一推理任务计费下降 2/3

牛 case

  • 当前使用受成本约束,非需求约束:Uber 超预算后不得不 throttle。成本降 5 倍,所有因预算被杀的用例都会回来
  • 渗透率仍是单位数:更便宜 token 不仅意味着现有用户做更多,还意味着新用户和新公司采用
  • Agentic workflows 是 token 乘数:human-in-the-loop 对话数千 token,自主 agent 复杂任务数十万 token。优化压缩每一步;agentic 架构乘步骤数
  • 新模态是净新需求:视觉、音频、视频 —— token 量 dwarf 文本,不受现有文本优化压力
  • Jensen Huang 框架:$500K/年工程师应至少消耗 $250K/年 token。在 $5K 时,你严重 under-leveraging AI

领先指标

与其选边,不如跟踪揭示哪股力量占上风的指标:

  1. Revenue growth vs token growth:token 仍在爆炸但收入减速?价格压缩获胜
  2. Frontier model mix:最贵模型的收入份额在缩小?流量向小模型迁移 = 定价权侵蚀
  3. Expansion patterns:个人用户消耗更多(脆弱、可优化)vs 更多 seat 和工作流(持久、难压缩)
  4. Net dollar retention:优化压力下 NDR 下降 —— 除非新用例扩展跑赢它
  5. Gross margin:价格下降快于推理成本 = 利润压缩;推理成本下降快于价格 = 利润维持
  6. Inference infra 创业:Fireworks、Together、Anyscale 积极融资增长 = 企业从直接 API 转向成本效益 infra,从模型提供商抽走支出
  7. API 定价节奏:频繁大幅降价 = 竞争压力迫使利润回吐
  8. OSS benchmark 收敛:每次新 Llama/Qwen,检查 SWE-bench 和 HumanEval 差距。缩小 = 迁移摩擦降低 = 定价权削弱
  9. Cost-normalized performance:不是谁得分最高,而是每美元性能最多。小模型快速缩小此差距 = 路由激励增强

企业 Token 支出实证(2026-05-20)

来源:AI Agent 时代的工作、算力与组织 — Jason Lemkin, Rory O'Driscoll (20VC)

  • Salesforce 年度 token 支出:约 3 亿美元,几乎全部用于 coding;按 2 万名开发者计算,每人每月约 1,200 美元,占总工程师支出的约 4%
  • 行业均值:Jason 调查 40 家公司,平均每开发者每月花 1.2–1.3 千美元在 token 上
  • Klaviyo AI VP agent 成本:运行一个 AI VP of Marketing + AI VP of Customer Success,两个 agent 加起来每月只需 257 美元
  • 万亿 token 收入的门槛:要做到 Anthropic 和 OpenAI 合起来一万亿美元 token 收入,大概需要替代掉全球软件研发工资的 20%
  • Salesforce 可能只走了四分之一:要么停在 3 亿美元(TAM 被高估),要么继续往上走,把 token 支出再翻四倍

CapEx 泡沫与第二层软件

Hyperscaler 和模型公司已决定每年花 5,000 亿到 1 万亿美元建设基础设施。其中 50% 给了 Nvidia,10% 给了电力,10% 给了网络。接下来只会发生两种情况之一:要么美国企业界在没有中间软件层的情况下消化价值 1 万亿美元的 token(不可能全部消化),要么第二层软件必须真正开始起作用。

Rory O'Driscoll 提出一个有趣的"救命"机制:审批太慢、数据中心没法按人们想要的速度上线,"可能反而会把我们从自己手里救出来"。如果一万亿美元收入变成五千亿,但你只建成了一半数据中心,那算力仍然相对稀缺。

结论

优化者会赢得每场个别战役。每个缓存技巧、每个路由层、每个修剪的 agent 循环都会有效。每任务成本将大幅下降。

但任务数量、用户数量和委托给 AI 的复杂性增长速度将超过效率压缩支出的速度。

Token 成本在下降。Token 支出在上升。两者都为真,且不矛盾。

Counterpoints & Gaps

  • 该分析偏重 infra 和应用层,对模型提供商内部成本结构(如 Anthropic 的 inference 优化)信息有限
  • "等待 18 个月降 10 倍" 的假设基于历史趋势,若供应链受限可能不成立
  • 企业 seat 扩张的可持续性取决于 agent 实际产生可衡量 ROI 的能力

Sources

Synthesized from 2 sources
  • Token OptimizationSupporting source listed by this page.Whole pagemediumbody
  • AI Agent 时代的工作、算力与组织 — 十期播客深度综合Supporting source listed by this page.Whole pagemediumbody

Evolution

1 event
  1. absorbed

    Derived from source material

    This page is currently synthesized from 2 sources.

    From Token Optimization, AI Agent 时代的工作、算力与组织 — 十期播客深度综合To Token Optimization Economics — 压缩与需求的博弈
    Sources: raw/to-learn/Token Optimization.md · raw/to-learn/xiaoyuzhou-magazine-synthesis-v2.md

Linked from