Notion Custom Agents 复盘
Notion AI 工程负责人 Sarah Sachs 和技术负责人 Simon Last 在 Latent Space 的访谈精华。Custom Agents 是 Notion 历史上转化率最高的新功能,但正式发布前三年重写了 5 次。
时间线
- 2022 年底:拿到 GPT-4 访问权限,开始构建"assistant"(agent 这个词还没流行)
- 2023:自己设计 XML 格式工具调用框架,fine-tune 模型使用
- 2024 年初:Claude Sonnet 3.6/3.7 出来后,正式开始做现在的 Agent
- 2025:发布第一版 Agent
- 2026:Custom Agents 正式发布
三次重大教训
1. 别给模型不必要的复杂度
最早用 JavaScript API 让模型调用工具 → 模型写代码太烂,走不通。
转向工具调用抽象时,太迁就 Notion 自己的数据模型,自己设计 XML 格式映射到 block 数据结构。模型根本不认识这套 XML,prompt 里硬塞,非常不自然。
后来的转变:
- Notion-style Markdown:模型认识的普通 Markdown + 少量扩展,不需要无损转换,够用就好
- SQLite 替代复杂 JSON 查询:模型对 SQL 非常熟悉,效果立竿见影
核心教训:别把你系统里不必要的复杂度暴露给模型,尽一切可能给它它想要的东西。
2. Evals 不只是测试,是要理解模型往哪里走
三层 eval 体系:
| 层级 | 目标 | 说明 |
|---|---|---|
| 回归测试 | CI 内运行,固定随机误差范围内达到通过率 | 基础质量守门 |
| 发布质量 evals | 每条用户旅程 80-90% 通过率 | 成绩单模式 |
| Frontier/Headroom evals | 主动将目标设在 30% 通过率 | 探索模型能力边界,理解 headroom |
**模型行为工程师(MBE)**新职能:
- 数据科学家 + PM + Prompt 工程师的混合体
- 理解模型能做什么、不能做什么
- 定义 headroom 和好用户旅程
- 需要直觉和品味,不一定是软件工程背景
Notion 的 eval 系统本身已被 agent harness 化:Agent 可端到端完成下载数据集、跑 eval、分析失败原因、调试、实现修复。人只需在外层观察。
3. MCP 够用,但 CLI 才是未来
Simon 看好 CLI 的原因:
- 终端环境天然有额外能力(分页、渐进式展示)
- 自举性:出问题后 agent 可在同一环境自己调试、自己修
- 对比:Chrome DevTools MCP transport 出问题,agent 完全失去浏览器能力,自己也修不了
Sarah 的补充:
- 能力和语言模型的使用要对齐。用语言来执行确定性任务,是一种浪费。
- 如果任务可用代码确定性完成,直接跑代码,一次性搞定,不要让语言模型绕一圈再调 MCP
- Notion Custom Agents 按用量计费,这种浪费直接转化为成本
其他关键观点
Coding Agent 是通往 AGI 的核心
Simon:"一切都是 coding agent。" Agent 可以自举自己的软件和能力,自己调试和维护。
内部"软件工厂"(Software Factory)方向:尽可能自动化的工作流,用于开发、调试、合并、审查和维护代码库,里面有一堆 Agent 在协作。
工程师的未来是管理 Agent
Simon:三年前人类敲所有代码;然后自动补全;然后 agent 填行;现在 agent 做更长程任务、调试、修复、验证、提 PR、合并部署。人类角色越来越多变成"观察和维护外层系统"。
Sarah:Notion 每个软件工程师今年都经历了某种身份危机。一位工程领导说:"突然意识到自己写代码的能力,不如委派任务和切换上下文的能力重要。"
但和管理者有关键区别:人类团队不能当作严谨系统对待(PR 不能有 blocked 状态然后自动触发下一步),但 Agent 团队可以。这是技术设计问题。
定价:Credits 抽象层
Notion 不用 token 直接计费的原因:
- 自部署开源模型按 GPU 计费、网页搜索按次计费、沙箱环境计费方式不同
- Credits 是比 token 更高一层的抽象
- 更重要的考量:如果不做用量计费,某些功能根本没法存在。例如数据库 autofill 如果每个操作都跑 agent 用最贵模型,成本会搞垮公司
Auto 模式的意义:不是最便宜,而是最适合这个任务的模型。Notion 甚至会在产品里提示当前选的模型贵不贵。
模型市场的"空挡"
在非常强但很贵和非常快但能力有限之间,中间地带几乎没有模型填满。
Notion 正在和开源模型实验室合作,思考如何用"Notion's Last Exam"填满这个智能-价格-延迟三角的中间地带。
Counterpoints & Gaps
- Notion 的 eval 体系成熟度需要大量投入(专职数据科学家+MBE+eval 工程师),小团队难以复制
- "CLI 是未来" 的观点与 MCP 生态的快速扩张存在张力
- 三年五次的重写周期表明,即使是顶级团队也难以一次预判 agent 产品的正确形态
Related
- product-trends/openclaw-getting-started
- harness-engineering/what-is-agent-harness
- harness-engineering/multi-agent-coordination-patterns
- product-trends/ai-era-pm-playbook