CrabTrap
来源:Brex / Pedro,2026-04-21
概述
CrabTrap 是 Brex 开源的 HTTP/HTTPS 代理,用于拦截 AI agent 发出的每个网络请求,并使用 LLM-as-a-judge 判断该请求是否符合该 agent 的允许流量策略。它旨在解决 agent 部署到生产环境时的核心安全难题:agent 需要真实凭证(API keys、OAuth tokens),但可能产生幻觉 destructive actions 或被 prompt-injected。
为什么现有方案不够
| 方案 | 局限 |
|---|---|
| MCP gateways | 只覆盖使用 MCP 协议的流量 |
| LLM provider guardrails | 绑定单一模型,不透明,难以自定义策略 |
| NVIDIA OpenShell | 偏向 per-sandbox egress control |
Brex 的观察:虽然 OpenClaw 是 GitHub 上增长最快的项目,但企业成功部署案例极少。CrabTrap 是 Brex 为改变这一现状而构建的基础设施。
架构:两阶段评估
Stage 1:静态规则
对 URL 进行确定性模式匹配(prefix、exact、glob),可限定 HTTP 方法。Deny 规则永远优先。静态规则编译为 cached regexps,微秒级执行。
Stage 2:LLM-as-a-judge
若静态规则未匹配,请求进入 LLM judge。Judge 接收完整请求上下文 + 分配给该 agent 的自然语言策略,返回结构化 JSON 决策(ALLOW 或 DENY)及原因。
Agent Request → CrabTrap Proxy
├── Static Rules (match → ALLOW/DENY)
└── LLM Judge (unmatched → ALLOW/DENY + reason)
传输层拦截
设置 HTTP_PROXY 和 HTTPS_PROXY 环境变量,无需 SDK、wrapper 或 per-tool 集成。对于 HTTPS,CrabTrap 执行 TLS interception:生成自签 CA 证书 per host,与客户端协商 TLS,再与上游建立独立 TLS 连接。可配合 iptables 规则阻止绕过代理的直接出站连接。
防 Prompt Injection 设计
Judge 接收的请求以结构化 JSON 呈现(method、URL、headers、body),用户控制内容被 escape 而非作为 raw text 插值。安全相关 headers 优先处理,总 header 内容限制 4KB;body 截断至 16KB 并附带警告;multipart 请求替换为结构化 summary。
策略生成与评估
Policy Builder(Agentic Loop)
不先写规则再希望匹配现实,而是观察现实并推断策略:
- 分析 agent 历史流量
- 采样代表性网络调用
- 起草匹配真实行为的策略
Eval System
在策略上线前,CrabTrap 可 replay 历史审计日志对抗 draft policy,报告哪些决策会变化。结果可按 method、URL、原决策、一致状态切片。并发 judge 调用使 replay 数千请求在几分钟内完成。所有历史请求记录于 PostgreSQL,通过 admin API 和 web dashboard 查询。
生产实践经验
-
从流量推导的策略出奇地强。 指向几天真实流量产生的策略在绝大多数 held-out 请求上匹配人类判断。从观察行为出发并编辑 down,远比从空白页开始有效。
-
Latency 是首个被问到的问题,但结果是非问题。 Agent 很快 settle into predictable traffic patterns,高流量模式变为静态规则后,LLM judge 只在长尾陌生端点触发。一个生产用例中,LLM 激活率低于 3%。
-
Proxy 成为发现工具,不仅是执行工具。 审计轨迹首次让 agent 产生的 noise 可见。Brex 开始用 denial logs 和流量分析不仅调整策略,还回去收紧 agent 本身——移除工具、砍掉整类浪费时间和 token 的请求。
开源动机
CrabTrap 是实验性的。Brex 开源的三个原因:
- 它是有用的基础设施——Brex 开始时没找到安全部署 harness 的方案
- 更多用户 surface 更多 edge cases 和模式
- 未来方向包括更深认证功能(SSO、RBAC)、escalation workflows、从 denial 模式推导策略建议
关联
- harness-engineering/ai-security-speed-mismatch — AI 安全与速度的不匹配
- harness-engineering/overview — Harness 工程总览