Notion Custom Agents 复盘

Notion AI 工程负责人 Sarah Sachs 和技术负责人 Simon Last 在 Latent Space 的访谈精华。Custom Agents 是 Notion 历史上转化率最高的新功能，但正式发布前三年重写了 5 次。

时间线

2022 年底：拿到 GPT-4 访问权限，开始构建"assistant"（agent 这个词还没流行）
2023：自己设计 XML 格式工具调用框架，fine-tune 模型使用
2024 年初：Claude Sonnet 3.6/3.7 出来后，正式开始做现在的 Agent
2025：发布第一版 Agent
2026：Custom Agents 正式发布

三次重大教训

1. 别给模型不必要的复杂度

最早用 JavaScript API 让模型调用工具 → 模型写代码太烂，走不通。

转向工具调用抽象时，太迁就 Notion 自己的数据模型，自己设计 XML 格式映射到 block 数据结构。模型根本不认识这套 XML，prompt 里硬塞，非常不自然。

后来的转变：

Notion-style Markdown：模型认识的普通 Markdown + 少量扩展，不需要无损转换，够用就好
SQLite 替代复杂 JSON 查询：模型对 SQL 非常熟悉，效果立竿见影

核心教训：别把你系统里不必要的复杂度暴露给模型，尽一切可能给它它想要的东西。

2. Evals 不只是测试，是要理解模型往哪里走

三层 eval 体系：

层级	目标	说明
回归测试	CI 内运行，固定随机误差范围内达到通过率	基础质量守门
发布质量 evals	每条用户旅程 80-90% 通过率	成绩单模式
Frontier/Headroom evals	主动将目标设在 30% 通过率	探索模型能力边界，理解 headroom

**模型行为工程师（MBE）**新职能：

数据科学家 + PM + Prompt 工程师的混合体
理解模型能做什么、不能做什么
定义 headroom 和好用户旅程
需要直觉和品味，不一定是软件工程背景

Notion 的 eval 系统本身已被 agent harness 化：Agent 可端到端完成下载数据集、跑 eval、分析失败原因、调试、实现修复。人只需在外层观察。

3. MCP 够用，但 CLI 才是未来

Simon 看好 CLI 的原因：

终端环境天然有额外能力（分页、渐进式展示）
自举性：出问题后 agent 可在同一环境自己调试、自己修
对比：Chrome DevTools MCP transport 出问题，agent 完全失去浏览器能力，自己也修不了

Sarah 的补充：

能力和语言模型的使用要对齐。用语言来执行确定性任务，是一种浪费。
如果任务可用代码确定性完成，直接跑代码，一次性搞定，不要让语言模型绕一圈再调 MCP
Notion Custom Agents 按用量计费，这种浪费直接转化为成本

其他关键观点

Coding Agent 是通往 AGI 的核心

Simon："一切都是 coding agent。" Agent 可以自举自己的软件和能力，自己调试和维护。

内部"软件工厂"（Software Factory）方向：尽可能自动化的工作流，用于开发、调试、合并、审查和维护代码库，里面有一堆 Agent 在协作。

工程师的未来是管理 Agent

Simon：三年前人类敲所有代码；然后自动补全；然后 agent 填行；现在 agent 做更长程任务、调试、修复、验证、提 PR、合并部署。人类角色越来越多变成"观察和维护外层系统"。

Sarah：Notion 每个软件工程师今年都经历了某种身份危机。一位工程领导说："突然意识到自己写代码的能力，不如委派任务和切换上下文的能力重要。"

但和管理者有关键区别：人类团队不能当作严谨系统对待（PR 不能有 blocked 状态然后自动触发下一步），但 Agent 团队可以。这是技术设计问题。

定价：Credits 抽象层

Notion 不用 token 直接计费的原因：

自部署开源模型按 GPU 计费、网页搜索按次计费、沙箱环境计费方式不同
Credits 是比 token 更高一层的抽象
更重要的考量：如果不做用量计费，某些功能根本没法存在。例如数据库 autofill 如果每个操作都跑 agent 用最贵模型，成本会搞垮公司

Auto 模式的意义：不是最便宜，而是最适合这个任务的模型。Notion 甚至会在产品里提示当前选的模型贵不贵。

模型市场的"空挡"

在非常强但很贵和非常快但能力有限之间，中间地带几乎没有模型填满。

Notion 正在和开源模型实验室合作，思考如何用"Notion's Last Exam"填满这个智能-价格-延迟三角的中间地带。

Counterpoints & Gaps

Notion 的 eval 体系成熟度需要大量投入（专职数据科学家+MBE+eval 工程师），小团队难以复制
"CLI 是未来" 的观点与 MCP 生态的快速扩张存在张力
三年五次的重写周期表明，即使是顶级团队也难以一次预判 agent 产品的正确形态

Notion Custom Agents 复盘

Notion Custom Agents 复盘

时间线

三次重大教训

1. 别给模型不必要的复杂度

2. Evals 不只是测试，是要理解模型往哪里走

3. MCP 够用，但 CLI 才是未来

其他关键观点

Coding Agent 是通往 AGI 的核心

工程师的未来是管理 Agent

定价：Credits 抽象层

模型市场的"空挡"

Counterpoints & Gaps

Sources

Evolution

Derived from source material

Notion Custom Agents 复盘

时间线

三次重大教训

1. 别给模型不必要的复杂度

2. Evals 不只是测试，是要理解模型往哪里走

3. MCP 够用，但 CLI 才是未来

其他关键观点

Coding Agent 是通往 AGI 的核心

工程师的未来是管理 Agent

定价：Credits 抽象层

模型市场的"空挡"

Counterpoints & Gaps

Related

Sources

Evolution

Derived from source material