Agent 基础设施趋势 — 从模型到系统
来源:AINews,2026-04-24
核心洞察
Agent 正在成为系统问题,而不仅仅是模型问题。
随着基础模型能力趋于收敛,Agent 基础设施(记忆、评估、编排)正成为差异化竞争的关键。行业重心从"更好的模型"转向"更好的系统"。
关键趋势
1. 无状态决策记忆
一篇关于企业 Agent 的文章提出用不可变的决策日志/事件溯源替代可变的 per-Agent 状态,以改善:
- 水平扩展性
- 可审计性
- 容错能力
2. 核心飞轮
trace 数据 → 评估/环境 → harness 工程/SFT-RL 是改进生产 Agent 的核心飞轮。
以 Anthropic 的 Claude Code 回归问题为案例,说明开放的 harnesses 和开放的评估为何重要。
3. 控制面新工具
| 工具 | 功能 | 意义 |
|---|---|---|
| Cua Driver | macOS 驱动,允许 Agent 在后台控制任意应用,支持多玩家/多光标 | Agent 控制任意桌面应用 |
| Cognition 云 Agent 基础设施 | VM 隔离、会话持久化、环境配置、编排和集成 | 生产级云 Agent 堆栈 |
| LangSmith Fleet | 文件编辑、网页/演示文稿生成和斜杠命令技能 | Agent 原生产物格式 |
4. 多 Agent 编排进入产品阶段
| 产品 | 特点 |
|---|---|
| Sakana AI Conductor | 仅 7B 参数、RL 训练的编排专用模型,以自然语言调度前沿模型池。LiveCodeBench 83.9%、GPQA-Diamond 87.5%,击败池中任何单一工作者。标志着"AI 管理 AI"和递归自选择作为测试时扩展新轴心 |
| Hermes Agent v0.11.0 | 扩展提供商、图像生成支持,几乎立即支持 GPT-5.5 |
Google Gemini Enterprise Agent Platform(2026-04 / Cloud Next '26)
来源:Addy Osmani — Long-running Agents
Google 将 Vertex AI 并入 Gemini Enterprise Agent Platform,将长时间运行 agent 产品化并附带 SLAs。
| 组件 | 能力 |
|---|---|
| Agent Runtime | 支持"自主运行数天"的 agent,亚秒级冷启动,按需沙箱配置 |
| Agent Sessions | 持久化对话和事件历史,可 pin 到自定义 session ID(映射到 CRM/DB) |
| Agent Memory Bank | 长期记忆层,从 sessions 中整理记忆,按用户身份作用域化,暴露搜索 API |
| Agent Sandbox | 硬化代码执行环境 |
| Agent-to-Agent Orchestration | 声明式图工作流(ADK) |
| Agent Registry / Gateway / Identity / Observability / Simulation | 企业级运维全家桶 |
架构上与 Anthropic 描述的 brain/hands/session 分离一致,只是以平台规模产品化, bundled with ADK 和 Agent Studio。
Payhawk 案例:Memory-Bank-backed agent 自动提交费用,提交时间缩短 50%+。
Addy Osmani 的总结:"Three years ago you'd have built all of this yourself. Now you pick which version of 'decoupled brain, hands, and session' you want to rent."
5. 开源 Agent 基础设施爆发
| 项目 | 意义 |
|---|---|
| OpenAI Symphony(开源) | Codex 的 issue tracker 编排层,实现 "open issue → agent → PR → human review" 完整工作流。与 Frontier 团队的 [Ghost Repo Symphony](harness-engineering/openai-frontier-symphony) 不同,这是面向公众的轻量级开源实现 |
| 小米 MiMo-V2.5 | MIT 许可证 + 1M 上下文,Pro 版 1T/42B、标准版 310B/15B。100T token 开发者资助计划。Day-0 推理支持已落地 vLLM 和 SGLang |
6. 评估范式三重转移
成本感知评估成为一等公民:
- 编码 agent 在 SWE-bench Verified 上的 token 消耗可达聊天/代码推理的 ~1000 倍
- 相同任务运行间用量变化 30 倍,更多花费并不单调提升准确率
- GitHub Copilot 6 月 1 日起按量计费,直接反映这一经济现实
开放世界评估:
- @sarahookr 指出大多数 agent 基准过度拟合于自动可验证任务
- 真正重要的前沿是开放世界、不确定、非完全可验证的工作
- 与持续学习、记忆存储和自适应数据系统密切相关
AgentIR — 为研究 Agent 重塑检索:
- 将推理轨迹与查询一起嵌入,AgentIR-4B 在 BrowseComp-Plus 上达到 68%
- 传统更大嵌入模型仅为 52%
- 标志着研究 agent 的检索从"关键词匹配"转向"推理感知匹配"
7. MCP 生产化最佳实践成熟
Anthropic 官方发布 生产环境 MCP 指南:
- 优先构建远程服务器,而非本地 CLI 封装
- 按用户意图分组工具,而非 1:1 映射 API 端点
- 大型服务采用"代码编排"模式:暴露执行脚本能力,而非数百个独立工具
- Tool search 可减少 85%+ 工具定义 token
- Programmatic tool calling 在沙箱中处理工具结果,仅返回最终输出(节省约 37% token)
- MCP SDK 月下载量从年初 1 亿增至 3 亿
为什么重要
这些工具正在将 Agent 从演示级推向生产级,解决了隔离、持久化和产物生成等关键工程问题。
Agent 正在从单模型循环演变为异构工具和模型之上的编排层。这标志着 Agent 架构的根本性转变。
2026-06-12 更新:数据基础设施成为 Agent 时代的一级瓶颈
来源:AINews 2026-06-12 — Loopcraft
Agent 执行层之上,数据管线、记忆管理和检索效率正在成为新的竞争面。几个信号:
机器人数据循环
Macrodata Labs / Refiner:由 Hugging Face、FAIR 背景的研究者创立,论点是机器人学的困难不在架构而在混乱的多模态物理数据管道(视频、多速率传感器、异构格式、手部跟踪、子任务分割、奖励模型评分、持续摄入)。Refiner 将原始演示转化为训练就绪数据集,包含分片、检查点、可观察性和谱系。
训练数据质量与可解释性
- Goodfire 预测性数据调试:偏好/DPO 数据集包含隐藏病理(破损保护措施、幻觉等),应在训练前分析,而非事后修复。
- AllenAI ModSleuth:追踪现代 LLM 的依赖图。Olmo 3 依赖 89 个模型和 183 个数据集;Nemotron 3 依赖 273 个模型和 560 个数据集。这纠正了"模型只在网络数据上训练"的简单叙事。
记忆、检索与上下文经济学
- Weaviate Engram:提取 → 转换 → 提交的记忆维护循环,替代天真地追加聊天记录。
- Qdrant 观点:更大的上下文窗口不会使检索过时,因为上下文仍然施加成本和延迟成本。
- 趋势是主动记忆管理 + 检索效率,而非用 giant context window 简单替代检索。
推理内核与端侧优化
- MiniMax 开源 MSA 内核库,模型权重预计随后发布。
- Together M3 服务工作:KV-block-major 稀疏注意力、分页 KV 缓存集成、解码索引评分优化、多模态预处理前置 Rust 网关。
- FlashAttention-4 推理改进:charles_irl 的上游贡献显示性能差异越来越多来自端到端服务栈选择,而非仅模型架构。
这些信号共同说明:Agent 基础设施的竞争已经从"谁有更好的模型 API"下沉到数据谱系、记忆管理、检索成本和服务内核。
2026-05-22 更新:AI Infra 的钱正在流向 Agent 执行层
来源:AINews 2026-05-22、AINews — New AI Infra unicorns
5 月下旬的基础设施信号不再只是“模型 API 更便宜”,而是 agent 执行所需的四个底座同时融资和产品化:
- 检索与知识入口:Exa 代表 web / company knowledge retrieval 正在从搜索功能变成 agent 的默认感知层。
- 向量与长上下文存储:TurboPuffer 等服务把 embedding / retrieval 的成本结构降到足以支撑高频 agent 查询。
- Serverless GPU / batch execution:Modal 这类平台把模型、工具和数据处理任务变成可弹性调度的执行环境,而非固定部署。
- 安全沙盒与 workspace:Daytona、CoreWeave Sandboxes、Gemini Managed Agents 等产品说明“可销毁、可审计、可恢复的执行环境”正在成为 agent 基础设施标配。
这组信号应与 Harness Engineering 联读:agent infra 的价值不在单点工具,而在能否把检索、执行、状态、权限和观测串成可重复的工作系统。
2026-04-29 更新:OpenAI × AWS Bedrock 托管代理 — "智能工厂"取代"Token 工厂"
来源:林芯 — OpenAI 牵手亚马逊 Bedrock 托管代理 / Stratechery 播客 (Ben Thompson 主持,Sam Altman + AWS Matt Garman)
OpenAI 与 AWS 宣布独家合作推出 Bedrock 托管代理,将前沿模型深度集成到 AWS 的 Agent 运行环境中。这是云平台 Agent 基础设施竞赛的关键一步——继 Google Gemini Enterprise Agent Platform 之后,AWS 联合 OpenAI 入局。
关键架构
- Bedrock 托管代理:建立在 AgentCore 之上的"托管体验",是 OpenAI × AWS 的独家联合产品
- AgentCore:底层原语,允许用户自选模型、配置记忆模块、安全执行环境、权限系统
- 数据隔离:整个系统运行在客户 VPC 中,数据被保护在 Bedrock 环境内,OpenAI 无法访问
- 混合算力:一部分 AWS 自研 Trainium 芯片,一部分 GPU
Sam Altman 的三个关键判断
1. AI 的下一阶段是"虚拟同事"
"我认为 AI 的下一阶段,是从'输入文本得到文本',甚至'输入代码得到代码',转向'在公司内部运行的智能代理,完成各种工作'。'虚拟同事'可能是目前最接近的说法,但还没有人找到一个真正准确的词。"
- Codex 是方向标(模型 + harness 的结合)
- 本地 vs 云端:短期本地易用(环境已配置、数据在本地),长期 Agent 运行在云上,支持高强度任务和关电脑后继续执行
2. 模型与 Harness 的融合
"我现在已经不再把'harness'和'模型'看成完全可以分离的东西......模型和 harness 未来会越来越融合;同样,预训练和后训练之间的界限也会逐渐模糊。"
- 系统架构可能被"重新设计",当前中间层可能只是"历史包袱"
- 双层 Agent 结构(一层连接数据源,一层用户交互)当前阶段合理,但随模型变聪明这些结构可能直接融入模型本身
→ 与 Model-Harness-Fit 的"模型-harness 不可分割"论一致,但 Sam 走得更远:harness 最终会被模型本身吸收
3. 从"Token 工厂"到"智能工厂"
"我们更像是一个'智能工厂'。我们只想用最低成本提供尽可能多的'智能单位'。至于这是通过更大的模型、较少的 token,还是更小的模型、更多的 token,或者是 GPU、Trainium,甚至其他方式实现,用户其实并不关心。"
- 计费模式演进:按 token 计费未来可能改变,用户只关心"事情有没有完成"
- GPT-5.5 例子:单 token 价格比 5.4 更高,但完成同样任务所需 token 数量大幅减少
- 需求弹性:只要价格足够低,对"智能"的需求几乎是无限的
AWS 的中立平台策略
Matt Garman: "越往上层走,选择就越多。不可能有一家公司掌控所有应用。"
- AWS 选择"合作伙伴成功,我们就成功" —— 倾向于"做大蛋糕"而非独占
- 与 Google 的全栈整合形成对照
- "大多数扩张中的初创公司依然运行在 AWS 上"
为什么重要
继 OpenAI 1220 亿融资 后,OpenAI 实质上拥有了三条云轨:自研 Stargate、Microsoft Azure、AWS Bedrock。从模型公司到"智能工厂"的转身,需要这种多云架构来支撑"虚拟同事"的规模化部署。
对企业用户:在 Bedrock 内运行 OpenAI 模型 + 客户 VPC 隔离,意味着合规敏感场景的 OpenAI 集成路径终于打通。
来源:AI 简报 2026-05-02 Afternoon — No Priors Podcast: Baseten CEO Tuhin Srivastava
Baseten CEO Tuhin Srivastava 在 No Priors 播客中讨论了 AI 推理基础设施的核心瓶颈:
- 推理紧缩(Inference Crunch):随着模型能力快速提升,推理需求增长速度超过基础设施供给
- 定制模型的崛起:企业越来越需要针对特定场景定制的模型,而非通用 API
- 推理云(Inference Cloud):Baseten 正在构建专门优化推理工作负载的云基础设施,支持模型定制和高效部署
这与行业趋势一致:Agent 基础设施正从"调用通用 API"转向"部署定制模型 + 优化推理管线"。