Parallel Learning 内部 Agent 实战 — Voltaire
Meryll Dindin(Parallel Learning 工程 VP)的企业内部 Agent 落地记录。为几十人公司搭建"公司大脑",覆盖架构设计、信任建设和数据基础设施。
核心洞察
很多时候答错,不是模型不够强,而是路由错了。 收入问题就该进 BigQuery,不该进代码库 Agent。
Agent 连错三次,就没人再用了。 信任积累慢、崩塌快。
无聊的基础设施才是真正的护城河。 Voltaire 两周半搭完,底下的数据基础设施花了两年。
Voltaire 是什么
一个 Slack 机器人,员工在频道里 @它或私聊,它在对话线程里回复带来源的答案。不是 FAQ 匹配,也不是检索文档片段,而是:
- 规划哪些数据源相关
- 调度对应的 Agent 去查询
- 汇总结果,格式化成带引用的回答
架构关键:编排器看不到各个 Agent 的内部实现。调用 query_bigquery 拿回完整结果,BigQuery Agent 自己搞定表发现、SQL 生成、错误恢复和 PII 过滤。加新数据源时不用动推理层。
知识面(跨源推理)
| 数据源 | 用途 | Agent 能力 |
|---|---|---|
| BigQuery | 收入指标、学生成果、运营 KPI、CRM | 自然语言转 SQL,自动修正错误 |
| Google Drive | 25 万+ 文件,PDF、SOP、政策 | 离线知识图谱(SQLite),全文搜索+分类标签+权限感知 |
| Zendesk | 工单历史 | 运营洞察,找规律 |
| Linear + 代码库 | 产品和工程问题 | 直接从源码回答 |
| 会议记录 | Gemini 转录后编入索引 | 六个月的组织记忆,保留决定背后的推理 |
信任机制
- 每个回答都带来源 — SQL 查询可见,文档引用链到原文
- 受限数据的替代方案 — 不硬拒,给匿名 ID 的同类分析
- 知识路由层 — 轻量规划器先决定注入哪些知识文章、激活哪些 Agent。路由选对比选最好的模型更重要
实际效果
- CEO 不再打开 Salesforce 仪表盘,AE 会议前 30 秒拿到各区域反对意见模式
- 工单运营经理 从最大 AI 怀疑论者变成自动化成果分享者
- BDR 团队 钓鱼攻击调查从一整天缩短到一小时(Google Workspace 审计日志 AI 工作流)
- 商务拓展 280 个参会名单补全 CRM 映射和联系方式,从几天缩短到几分钟
数据基础设施
- ETL 管道把每个业务系统灌进 BigQuery(Salesforce、Zendesk + 十几个内部工具)
- dbt 标准化和文档化,字段级描述
- 知识图谱:域级委托爬取 Drive,解析 Google Group 成员关系为 RBAC,AI 标签分类 25 万+ 文件,构建搜索摘要和相似度边,打包成版本化 SQLite 快照
- Agent 只能看到请求用户有权限访问的文件
建议起步顺序
- 先搭数据层 — 业务系统数据灌进集中式仓库,给 schema 写字段级文档
- 从一个 Agent 做起 — 自然语言转 SQL 查数据仓库是 ROI 最高的切入点(结构化、可验证)
- 然后加文档检索 → 工单 → 代码 — 每加一个数据源都在放大跨源推理价值
- 最常见的错误:给 LLM 套个聊天壳,底下没有任何有锚点的数据
- 另一个错误:等数据"准备好"再动手 — 数据不会准备好的,现在就开始