Baseten Inference Cloud

来源：AI Builders Digest 2026-05-02 — No Priors: Baseten CEO Tuhin Srivastava on AI Inference Crunch

Baseten CEO Tuhin Srivastava 在 No Priors 播客谈了他对 2026 年推理基础设施格局的看法。核心论断：随着模型使用规模扩大，推理正在成为关键瓶颈——而不是训练。

2026-05-26 更新：Baseten 正以 110 亿美元估值进行新一轮融资，3 个月内估值增长 2.2 倍。同期 Fireworks 以 150 亿美元估值融资（7 个月 3.75 倍），OpenRouter 完成 1.13 亿美元 C 轮（6 个月交易量增长 5 倍）。推理基础设施从独角兽到 decacorn 的 progression 速度表明资本正在重注这一赛道。

三个论断

推理是新瓶颈：模型变好之后，使用量爆炸式增长，但推理基础设施没有同步扩张。模型能力 vs 推理可用性的差距在拉大。
企业越来越走出通用 API：通用推理 API 在通用任务上够用，但企业有越来越多需要"专门部署方案"的场景——特殊延迟要求、数据隐私、定制化模型、特殊硬件配置。
推理云是独立赛道：训练云（CoreWeave、Lambda 等）和推理云（Baseten 这条线）的需求结构不同，工程优先级不同，最终会分成两个市场。

与同期信号的咬合

Tuhin 这套观点不是孤例——同期多个事件指向同一方向：

Zhipu GLM-5 Scaling Pain：智谱在亿次/日 Coding Agent 流量下踩到 KV Cache 时序竞态——模型本身没问题，是推理基础设施在 PD 分离架构下的工程债务暴露
DeepSeek V4：batch invariance 关键特性、disk-based KV cache、长上下文 FLOPs 降低近 4 倍——全部是推理工程突破，而不是模型能力突破
@teortaxesTex 对 Grok 4.3 的评价：低价格可能由硬件利用率不佳补贴，缓存经济学（而非仅模型质量）正在 increasingly 决定 Agent TCO

把这些放一起：2026 年下半年 AI 基础设施的差异化战场已经从"训练谁的模型更好"转移到"谁的推理工程更好"。Baseten 押的就是这条赛道。

推理云需要解决的问题

从 Baseten 的产品定位 + 同期工程教训反推，推理云这一层至少要解决：

问题	通用 API 的局限	推理云的优势
长上下文 KV Cache 经济性	缓存命中率低，每次调用都重新处理	LayerSplit、disk-based cache 等定制化方案
PD 分离架构下的时序约束	多租户混合负载下竞态频发	单租户/独占资源
定制模型部署	不支持私有 fine-tuned 权重	直接 host 客户的权重
特殊硬件路径	H100/MI300/TPU 选择有限	按客户负载选最优硬件
数据隐私	数据进通用平台	私有部署

为什么收录这条

这是把 "AI 基础设施战场转移" 这件事从工程文章（DeepSeek、Zhipu）的语言翻译成商业战略语言（Baseten CEO 口吻）的关键 source。它说明这场转移不只是工程师的私下感受，而是已经被 infra 公司 CEO 拿出来讲、用来定位融资和招聘的明确战略叙事。

Agent 基础设施趋势
Zhipu GLM-5 Scaling Pain
DeepSeek V4
Coding Agent 推理基础设施（页面未创建）

Baseten Inference Cloud — 推理瓶颈与专门部署

Baseten Inference Cloud

三个论断

与同期信号的咬合

推理云需要解决的问题

为什么收录这条

Sources

Evolution

Derived from source material

Linked from

Baseten Inference Cloud

三个论断

与同期信号的咬合

推理云需要解决的问题

为什么收录这条

Related

Sources

Evolution

Derived from source material

Linked from