Baseten Inference Cloud
来源:AI Builders Digest 2026-05-02 — No Priors: Baseten CEO Tuhin Srivastava on AI Inference Crunch
Baseten CEO Tuhin Srivastava 在 No Priors 播客谈了他对 2026 年推理基础设施格局的看法。核心论断:随着模型使用规模扩大,推理正在成为关键瓶颈——而不是训练。
2026-05-26 更新:Baseten 正以 110 亿美元估值进行新一轮融资,3 个月内估值增长 2.2 倍。同期 Fireworks 以 150 亿美元估值融资(7 个月 3.75 倍),OpenRouter 完成 1.13 亿美元 C 轮(6 个月交易量增长 5 倍)。推理基础设施从独角兽到 decacorn 的 progression 速度表明资本正在重注这一赛道。
三个论断
-
推理是新瓶颈:模型变好之后,使用量爆炸式增长,但推理基础设施没有同步扩张。模型能力 vs 推理可用性的差距在拉大。
-
企业越来越走出通用 API:通用推理 API 在通用任务上够用,但企业有越来越多需要"专门部署方案"的场景——特殊延迟要求、数据隐私、定制化模型、特殊硬件配置。
-
推理云是独立赛道:训练云(CoreWeave、Lambda 等)和推理云(Baseten 这条线)的需求结构不同,工程优先级不同,最终会分成两个市场。
与同期信号的咬合
Tuhin 这套观点不是孤例——同期多个事件指向同一方向:
- Zhipu GLM-5 Scaling Pain:智谱在亿次/日 Coding Agent 流量下踩到 KV Cache 时序竞态——模型本身没问题,是推理基础设施在 PD 分离架构下的工程债务暴露
- DeepSeek V4:batch invariance 关键特性、disk-based KV cache、长上下文 FLOPs 降低近 4 倍——全部是推理工程突破,而不是模型能力突破
- @teortaxesTex 对 Grok 4.3 的评价:低价格可能由硬件利用率不佳补贴,缓存经济学(而非仅模型质量)正在 increasingly 决定 Agent TCO
把这些放一起:2026 年下半年 AI 基础设施的差异化战场已经从"训练谁的模型更好"转移到"谁的推理工程更好"。Baseten 押的就是这条赛道。
推理云需要解决的问题
从 Baseten 的产品定位 + 同期工程教训反推,推理云这一层至少要解决:
| 问题 | 通用 API 的局限 | 推理云的优势 |
|---|---|---|
| 长上下文 KV Cache 经济性 | 缓存命中率低,每次调用都重新处理 | LayerSplit、disk-based cache 等定制化方案 |
| PD 分离架构下的时序约束 | 多租户混合负载下竞态频发 | 单租户/独占资源 |
| 定制模型部署 | 不支持私有 fine-tuned 权重 | 直接 host 客户的权重 |
| 特殊硬件路径 | H100/MI300/TPU 选择有限 | 按客户负载选最优硬件 |
| 数据隐私 | 数据进通用平台 | 私有部署 |
为什么收录这条
这是把 "AI 基础设施战场转移" 这件事从工程文章(DeepSeek、Zhipu)的语言翻译成商业战略语言(Baseten CEO 口吻)的关键 source。它说明这场转移不只是工程师的私下感受,而是已经被 infra 公司 CEO 拿出来讲、用来定位融资和招聘的明确战略叙事。
Related
- Agent 基础设施趋势
- Zhipu GLM-5 Scaling Pain
- DeepSeek V4
- Coding Agent 推理基础设施(页面未创建)