Back/harness engineering

Parallel Learning 内部 Agent 实战 — Voltaire

Updated 2026-04-19
1 min read
232 words

Parallel Learning 内部 Agent 实战 — Voltaire

Meryll Dindin(Parallel Learning 工程 VP)的企业内部 Agent 落地记录。为几十人公司搭建"公司大脑",覆盖架构设计、信任建设和数据基础设施。

核心洞察

很多时候答错,不是模型不够强,而是路由错了。 收入问题就该进 BigQuery,不该进代码库 Agent。

Agent 连错三次,就没人再用了。 信任积累慢、崩塌快。

无聊的基础设施才是真正的护城河。 Voltaire 两周半搭完,底下的数据基础设施花了两年。

Voltaire 是什么

一个 Slack 机器人,员工在频道里 @它或私聊,它在对话线程里回复带来源的答案。不是 FAQ 匹配,也不是检索文档片段,而是:

  1. 规划哪些数据源相关
  2. 调度对应的 Agent 去查询
  3. 汇总结果,格式化成带引用的回答

架构关键:编排器看不到各个 Agent 的内部实现。调用 query_bigquery 拿回完整结果,BigQuery Agent 自己搞定表发现、SQL 生成、错误恢复和 PII 过滤。加新数据源时不用动推理层。

知识面(跨源推理)

数据源 用途 Agent 能力
BigQuery 收入指标、学生成果、运营 KPI、CRM 自然语言转 SQL,自动修正错误
Google Drive 25 万+ 文件,PDF、SOP、政策 离线知识图谱(SQLite),全文搜索+分类标签+权限感知
Zendesk 工单历史 运营洞察,找规律
Linear + 代码库 产品和工程问题 直接从源码回答
会议记录 Gemini 转录后编入索引 六个月的组织记忆,保留决定背后的推理

信任机制

  1. 每个回答都带来源 — SQL 查询可见,文档引用链到原文
  2. 受限数据的替代方案 — 不硬拒,给匿名 ID 的同类分析
  3. 知识路由层 — 轻量规划器先决定注入哪些知识文章、激活哪些 Agent。路由选对比选最好的模型更重要

实际效果

  • CEO 不再打开 Salesforce 仪表盘,AE 会议前 30 秒拿到各区域反对意见模式
  • 工单运营经理 从最大 AI 怀疑论者变成自动化成果分享者
  • BDR 团队 钓鱼攻击调查从一整天缩短到一小时(Google Workspace 审计日志 AI 工作流)
  • 商务拓展 280 个参会名单补全 CRM 映射和联系方式,从几天缩短到几分钟

数据基础设施

  • ETL 管道把每个业务系统灌进 BigQuery(Salesforce、Zendesk + 十几个内部工具)
  • dbt 标准化和文档化,字段级描述
  • 知识图谱:域级委托爬取 Drive,解析 Google Group 成员关系为 RBAC,AI 标签分类 25 万+ 文件,构建搜索摘要和相似度边,打包成版本化 SQLite 快照
  • Agent 只能看到请求用户有权限访问的文件

建议起步顺序

  1. 先搭数据层 — 业务系统数据灌进集中式仓库,给 schema 写字段级文档
  2. 从一个 Agent 做起 — 自然语言转 SQL 查数据仓库是 ROI 最高的切入点(结构化、可验证)
  3. 然后加文档检索 → 工单 → 代码 — 每加一个数据源都在放大跨源推理价值
  4. 最常见的错误:给 LLM 套个聊天壳,底下没有任何有锚点的数据
  5. 另一个错误:等数据"准备好"再动手 — 数据不会准备好的,现在就开始

Sources

Linked from