Skip to content
Back/AI Ecosystem

Agent 基础设施趋势 — 从模型到系统

View in Graph
Updated 2026-05-27
4 min read
823 words

Agent 基础设施趋势 — 从模型到系统

来源:AINews,2026-04-24


核心洞察

Agent 正在成为系统问题,而不仅仅是模型问题。

随着基础模型能力趋于收敛,Agent 基础设施(记忆、评估、编排)正成为差异化竞争的关键。行业重心从"更好的模型"转向"更好的系统"。


关键趋势

1. 无状态决策记忆

一篇关于企业 Agent 的文章提出用不可变的决策日志/事件溯源替代可变的 per-Agent 状态,以改善:

  • 水平扩展性
  • 可审计性
  • 容错能力

2. 核心飞轮

trace 数据 → 评估/环境 → harness 工程/SFT-RL 是改进生产 Agent 的核心飞轮。

以 Anthropic 的 Claude Code 回归问题为案例,说明开放的 harnesses 和开放的评估为何重要。

3. 控制面新工具

工具 功能 意义
Cua Driver macOS 驱动,允许 Agent 在后台控制任意应用,支持多玩家/多光标 Agent 控制任意桌面应用
Cognition 云 Agent 基础设施 VM 隔离、会话持久化、环境配置、编排和集成 生产级云 Agent 堆栈
LangSmith Fleet 文件编辑、网页/演示文稿生成和斜杠命令技能 Agent 原生产物格式

4. 多 Agent 编排进入产品阶段

产品 特点
Sakana AI Conductor 仅 7B 参数、RL 训练的编排专用模型,以自然语言调度前沿模型池。LiveCodeBench 83.9%、GPQA-Diamond 87.5%,击败池中任何单一工作者。标志着"AI 管理 AI"和递归自选择作为测试时扩展新轴心
Hermes Agent v0.11.0 扩展提供商、图像生成支持,几乎立即支持 GPT-5.5

Google Gemini Enterprise Agent Platform(2026-04 / Cloud Next '26)

来源:Addy Osmani — Long-running Agents

Google 将 Vertex AI 并入 Gemini Enterprise Agent Platform,将长时间运行 agent 产品化并附带 SLAs。

组件 能力
Agent Runtime 支持"自主运行数天"的 agent,亚秒级冷启动,按需沙箱配置
Agent Sessions 持久化对话和事件历史,可 pin 到自定义 session ID(映射到 CRM/DB)
Agent Memory Bank 长期记忆层,从 sessions 中整理记忆,按用户身份作用域化,暴露搜索 API
Agent Sandbox 硬化代码执行环境
Agent-to-Agent Orchestration 声明式图工作流(ADK)
Agent Registry / Gateway / Identity / Observability / Simulation 企业级运维全家桶

架构上与 Anthropic 描述的 brain/hands/session 分离一致,只是以平台规模产品化, bundled with ADK 和 Agent Studio。

Payhawk 案例:Memory-Bank-backed agent 自动提交费用,提交时间缩短 50%+。

Addy Osmani 的总结:"Three years ago you'd have built all of this yourself. Now you pick which version of 'decoupled brain, hands, and session' you want to rent."

5. 开源 Agent 基础设施爆发

项目 意义
OpenAI Symphony(开源) Codex 的 issue tracker 编排层,实现 "open issue → agent → PR → human review" 完整工作流。与 Frontier 团队的 [Ghost Repo Symphony](harness-engineering/openai-frontier-symphony) 不同,这是面向公众的轻量级开源实现
小米 MiMo-V2.5 MIT 许可证 + 1M 上下文,Pro 版 1T/42B、标准版 310B/15B。100T token 开发者资助计划。Day-0 推理支持已落地 vLLM 和 SGLang

6. 评估范式三重转移

成本感知评估成为一等公民

  • 编码 agent 在 SWE-bench Verified 上的 token 消耗可达聊天/代码推理的 ~1000 倍
  • 相同任务运行间用量变化 30 倍,更多花费并不单调提升准确率
  • GitHub Copilot 6 月 1 日起按量计费,直接反映这一经济现实

开放世界评估

  • @sarahookr 指出大多数 agent 基准过度拟合于自动可验证任务
  • 真正重要的前沿是开放世界、不确定、非完全可验证的工作
  • 与持续学习、记忆存储和自适应数据系统密切相关

AgentIR — 为研究 Agent 重塑检索

  • 推理轨迹与查询一起嵌入,AgentIR-4B 在 BrowseComp-Plus 上达到 68%
  • 传统更大嵌入模型仅为 52%
  • 标志着研究 agent 的检索从"关键词匹配"转向"推理感知匹配"

7. MCP 生产化最佳实践成熟

Anthropic 官方发布 生产环境 MCP 指南

  • 优先构建远程服务器,而非本地 CLI 封装
  • 用户意图分组工具,而非 1:1 映射 API 端点
  • 大型服务采用"代码编排"模式:暴露执行脚本能力,而非数百个独立工具
  • Tool search 可减少 85%+ 工具定义 token
  • Programmatic tool calling 在沙箱中处理工具结果,仅返回最终输出(节省约 37% token)
  • MCP SDK 月下载量从年初 1 亿增至 3 亿

为什么重要

这些工具正在将 Agent 从演示级推向生产级,解决了隔离、持久化和产物生成等关键工程问题。

Agent 正在从单模型循环演变为异构工具和模型之上的编排层。这标志着 Agent 架构的根本性转变。


2026-06-12 更新:数据基础设施成为 Agent 时代的一级瓶颈

来源:AINews 2026-06-12 — Loopcraft

Agent 执行层之上,数据管线、记忆管理和检索效率正在成为新的竞争面。几个信号:

机器人数据循环

Macrodata Labs / Refiner:由 Hugging Face、FAIR 背景的研究者创立,论点是机器人学的困难不在架构而在混乱的多模态物理数据管道(视频、多速率传感器、异构格式、手部跟踪、子任务分割、奖励模型评分、持续摄入)。Refiner 将原始演示转化为训练就绪数据集,包含分片、检查点、可观察性和谱系。

训练数据质量与可解释性

  • Goodfire 预测性数据调试:偏好/DPO 数据集包含隐藏病理(破损保护措施、幻觉等),应在训练前分析,而非事后修复。
  • AllenAI ModSleuth:追踪现代 LLM 的依赖图。Olmo 3 依赖 89 个模型和 183 个数据集;Nemotron 3 依赖 273 个模型和 560 个数据集。这纠正了"模型只在网络数据上训练"的简单叙事。

记忆、检索与上下文经济学

  • Weaviate Engram:提取 → 转换 → 提交的记忆维护循环,替代天真地追加聊天记录。
  • Qdrant 观点:更大的上下文窗口不会使检索过时,因为上下文仍然施加成本和延迟成本。
  • 趋势是主动记忆管理 + 检索效率,而非用 giant context window 简单替代检索。

推理内核与端侧优化

  • MiniMax 开源 MSA 内核库,模型权重预计随后发布。
  • Together M3 服务工作:KV-block-major 稀疏注意力、分页 KV 缓存集成、解码索引评分优化、多模态预处理前置 Rust 网关。
  • FlashAttention-4 推理改进:charles_irl 的上游贡献显示性能差异越来越多来自端到端服务栈选择,而非仅模型架构。

这些信号共同说明:Agent 基础设施的竞争已经从"谁有更好的模型 API"下沉到数据谱系、记忆管理、检索成本和服务内核。


2026-05-22 更新:AI Infra 的钱正在流向 Agent 执行层

来源:AINews 2026-05-22AINews — New AI Infra unicorns

5 月下旬的基础设施信号不再只是“模型 API 更便宜”,而是 agent 执行所需的四个底座同时融资和产品化:

  • 检索与知识入口:Exa 代表 web / company knowledge retrieval 正在从搜索功能变成 agent 的默认感知层。
  • 向量与长上下文存储:TurboPuffer 等服务把 embedding / retrieval 的成本结构降到足以支撑高频 agent 查询。
  • Serverless GPU / batch execution:Modal 这类平台把模型、工具和数据处理任务变成可弹性调度的执行环境,而非固定部署。
  • 安全沙盒与 workspace:Daytona、CoreWeave Sandboxes、Gemini Managed Agents 等产品说明“可销毁、可审计、可恢复的执行环境”正在成为 agent 基础设施标配。

这组信号应与 Harness Engineering 联读:agent infra 的价值不在单点工具,而在能否把检索、执行、状态、权限和观测串成可重复的工作系统。


2026-04-29 更新:OpenAI × AWS Bedrock 托管代理 — "智能工厂"取代"Token 工厂"

来源:林芯 — OpenAI 牵手亚马逊 Bedrock 托管代理 / Stratechery 播客 (Ben Thompson 主持,Sam Altman + AWS Matt Garman)

OpenAI 与 AWS 宣布独家合作推出 Bedrock 托管代理,将前沿模型深度集成到 AWS 的 Agent 运行环境中。这是云平台 Agent 基础设施竞赛的关键一步——继 Google Gemini Enterprise Agent Platform 之后,AWS 联合 OpenAI 入局。

关键架构

  • Bedrock 托管代理:建立在 AgentCore 之上的"托管体验",是 OpenAI × AWS 的独家联合产品
  • AgentCore:底层原语,允许用户自选模型、配置记忆模块、安全执行环境、权限系统
  • 数据隔离:整个系统运行在客户 VPC 中,数据被保护在 Bedrock 环境内,OpenAI 无法访问
  • 混合算力:一部分 AWS 自研 Trainium 芯片,一部分 GPU

Sam Altman 的三个关键判断

1. AI 的下一阶段是"虚拟同事"

"我认为 AI 的下一阶段,是从'输入文本得到文本',甚至'输入代码得到代码',转向'在公司内部运行的智能代理,完成各种工作'。'虚拟同事'可能是目前最接近的说法,但还没有人找到一个真正准确的词。"

  • Codex 是方向标(模型 + harness 的结合)
  • 本地 vs 云端:短期本地易用(环境已配置、数据在本地),长期 Agent 运行在云上,支持高强度任务和关电脑后继续执行

2. 模型与 Harness 的融合

"我现在已经不再把'harness'和'模型'看成完全可以分离的东西......模型和 harness 未来会越来越融合;同样,预训练和后训练之间的界限也会逐渐模糊。"

  • 系统架构可能被"重新设计",当前中间层可能只是"历史包袱"
  • 双层 Agent 结构(一层连接数据源,一层用户交互)当前阶段合理,但随模型变聪明这些结构可能直接融入模型本身

→ 与 Model-Harness-Fit 的"模型-harness 不可分割"论一致,但 Sam 走得更远:harness 最终会被模型本身吸收

3. 从"Token 工厂"到"智能工厂"

"我们更像是一个'智能工厂'。我们只想用最低成本提供尽可能多的'智能单位'。至于这是通过更大的模型、较少的 token,还是更小的模型、更多的 token,或者是 GPU、Trainium,甚至其他方式实现,用户其实并不关心。"

  • 计费模式演进:按 token 计费未来可能改变,用户只关心"事情有没有完成"
  • GPT-5.5 例子:单 token 价格比 5.4 更高,但完成同样任务所需 token 数量大幅减少
  • 需求弹性:只要价格足够低,对"智能"的需求几乎是无限的

AWS 的中立平台策略

Matt Garman: "越往上层走,选择就越多。不可能有一家公司掌控所有应用。"

  • AWS 选择"合作伙伴成功,我们就成功" —— 倾向于"做大蛋糕"而非独占
  • 与 Google 的全栈整合形成对照
  • "大多数扩张中的初创公司依然运行在 AWS 上"

为什么重要

OpenAI 1220 亿融资 后,OpenAI 实质上拥有了三条云轨:自研 Stargate、Microsoft Azure、AWS Bedrock。从模型公司到"智能工厂"的转身,需要这种多云架构来支撑"虚拟同事"的规模化部署。

对企业用户:在 Bedrock 内运行 OpenAI 模型 + 客户 VPC 隔离,意味着合规敏感场景的 OpenAI 集成路径终于打通


来源:AI 简报 2026-05-02 Afternoon — No Priors Podcast: Baseten CEO Tuhin Srivastava

Baseten CEO Tuhin Srivastava 在 No Priors 播客中讨论了 AI 推理基础设施的核心瓶颈:

  • 推理紧缩(Inference Crunch):随着模型能力快速提升,推理需求增长速度超过基础设施供给
  • 定制模型的崛起:企业越来越需要针对特定场景定制的模型,而非通用 API
  • 推理云(Inference Cloud):Baseten 正在构建专门优化推理工作负载的云基础设施,支持模型定制和高效部署

这与行业趋势一致:Agent 基础设施正从"调用通用 API"转向"部署定制模型 + 优化推理管线"。


Sources

Synthesized from 7 sources
  • AINews 2026-04-28 ImageGen is on the Path to AGISupporting source listed by this page.Whole pagemediumbody
  • Ben's Bites 2026-04-28 BuildersSupporting source listed by this page.Whole pagemediumbody
  • Addy Osmani — Long-running AgentsSupporting source listed by this page.Whole pagemediumbody
  • 2026-04-29 林芯 — OpenAI 牵手亚马逊 Bedrock 托管代理Supporting source listed by this page.Whole pagemediumbody
  • AINews 2026-05-22Supporting source listed by this page.Whole pagemediumbody
  • AINews 2026-05-22 New AI Infra unicornsSupporting source listed by this page.Whole pagemediumbody
  • AINews 2026-06-12 — LoopcraftSupporting source listed by this page.Whole pagemediumbody

Evolution

1 event
  1. absorbed

    Derived from source material

    This page is currently synthesized from 7 sources.

    From AINews 2026-04-28 ImageGen is on the Path to AGI, Ben's Bites 2026-04-28 Builders, Addy Osmani — Long-running Agents, 2026-04-29 林芯 — OpenAI 牵手亚马逊 Bedrock 托管代理, AINews 2026-05-22To Agent 基础设施趋势 — 从模型到系统
    Sources: raw/newsletters/AINews/2026-04-28 ImageGen is on the Path to AGI.md · raw/newsletters/Ben's Bites/2026-04-28 Builders.md · raw/to-learn/Long-running Agents - Addy Osmani.md · raw/social-triage/2026-04-29 OpenAI牵手亚马逊 Bedrock托管代理.md · raw/newsletters/AINews/2026-05-22 AINews Newsletter 汇总 — 2026-05-22.md · raw/newsletters/AINews/2026-05-22 New AI Infra unicorns Exa Modal TurboPuffer.md · raw/newsletters/AINews/2026-06-12 Loopcraft The Art of Stacking Loops.md

Linked from