Skip to content
Back/AI Ecosystem

Baseten Inference Cloud — 推理瓶颈与专门部署

View in Graph
Updated 2026-05-27
1 min read
209 words

Baseten Inference Cloud

来源:AI Builders Digest 2026-05-02 — No Priors: Baseten CEO Tuhin Srivastava on AI Inference Crunch

Baseten CEO Tuhin Srivastava 在 No Priors 播客谈了他对 2026 年推理基础设施格局的看法。核心论断:随着模型使用规模扩大,推理正在成为关键瓶颈——而不是训练。

2026-05-26 更新:Baseten 正以 110 亿美元估值进行新一轮融资,3 个月内估值增长 2.2 倍。同期 Fireworks 以 150 亿美元估值融资(7 个月 3.75 倍),OpenRouter 完成 1.13 亿美元 C 轮(6 个月交易量增长 5 倍)。推理基础设施从独角兽到 decacorn 的 progression 速度表明资本正在重注这一赛道。

三个论断

  1. 推理是新瓶颈:模型变好之后,使用量爆炸式增长,但推理基础设施没有同步扩张。模型能力 vs 推理可用性的差距在拉大。

  2. 企业越来越走出通用 API:通用推理 API 在通用任务上够用,但企业有越来越多需要"专门部署方案"的场景——特殊延迟要求、数据隐私、定制化模型、特殊硬件配置。

  3. 推理云是独立赛道:训练云(CoreWeave、Lambda 等)和推理云(Baseten 这条线)的需求结构不同,工程优先级不同,最终会分成两个市场。

与同期信号的咬合

Tuhin 这套观点不是孤例——同期多个事件指向同一方向:

  • Zhipu GLM-5 Scaling Pain:智谱在亿次/日 Coding Agent 流量下踩到 KV Cache 时序竞态——模型本身没问题,是推理基础设施在 PD 分离架构下的工程债务暴露
  • DeepSeek V4:batch invariance 关键特性、disk-based KV cache、长上下文 FLOPs 降低近 4 倍——全部是推理工程突破,而不是模型能力突破
  • @teortaxesTex 对 Grok 4.3 的评价:低价格可能由硬件利用率不佳补贴,缓存经济学(而非仅模型质量)正在 increasingly 决定 Agent TCO

把这些放一起:2026 年下半年 AI 基础设施的差异化战场已经从"训练谁的模型更好"转移到"谁的推理工程更好"。Baseten 押的就是这条赛道。

推理云需要解决的问题

从 Baseten 的产品定位 + 同期工程教训反推,推理云这一层至少要解决:

问题 通用 API 的局限 推理云的优势
长上下文 KV Cache 经济性 缓存命中率低,每次调用都重新处理 LayerSplit、disk-based cache 等定制化方案
PD 分离架构下的时序约束 多租户混合负载下竞态频发 单租户/独占资源
定制模型部署 不支持私有 fine-tuned 权重 直接 host 客户的权重
特殊硬件路径 H100/MI300/TPU 选择有限 按客户负载选最优硬件
数据隐私 数据进通用平台 私有部署

为什么收录这条

这是把 "AI 基础设施战场转移" 这件事从工程文章(DeepSeek、Zhipu)的语言翻译成商业战略语言(Baseten CEO 口吻)的关键 source。它说明这场转移不只是工程师的私下感受,而是已经被 infra 公司 CEO 拿出来讲、用来定位融资和招聘的明确战略叙事。

Sources

Synthesized from 2 sources
  • AI Builders Digest 2026-05-02 — No Priors: Baseten CEO Tuhin Srivastava on AI Inference Crunch, Custom Models, and Building the Inference CloudSupporting source listed by this page.Whole pagemediumbody
  • AINews 2026-05-26 — New AI Infra decacorns: Fireworks, BasetenSupporting source listed by this page.Whole pagemediumbody

Evolution

1 event
  1. absorbed

    Derived from source material

    This page is currently synthesized from 2 sources.

    From AI Builders Digest 2026-05-02 — No Priors: Baseten CEO Tuhin Srivastava on AI Inference Crunch, Custom Models, and Building the Inference Cloud, AINews 2026-05-26 — New AI Infra decacorns: Fireworks, BasetenTo Baseten Inference Cloud — 推理瓶颈与专门部署
    Sources: raw/briefing/AI Builders Digest/2026-05-02 · raw/newsletters/AINews/2026-05-26 New AI Infra decacorns Fireworks Baseten

Linked from