Harness Engineering — Overview
Harness Engineering 是构建 AI agent 运行环境的工程学科。核心论点:模型几乎无关紧要,Harness 就是一切。 同一个模型,在不同的 Harness 下,性能差距可达 64%(SWE-agent 论文数据)。
什么是 Harness
Harness 是语言模型运行的完整设计环境,包括:
- 可调用的工具
- 信息接收的格式
- 历史记录的压缩与管理方式
- 在错误级联前拦截错误的护栏
- 允许 agent 将工作移交给"未来的自己"而不丢失连贯性的脚手架
"接口不是便利层;对于语言模型 agent 来说,接口即思想。"
三个 Scaling 维度
来源:harness-engineering/three-scaling-dimensions(grapeot 的统一框架)
三家公司各自解决了不同维度的问题:
| 维度 | 代表 | 核心问题 |
|---|---|---|
| 时间 Scalability | harness-engineering/anthropic-long-running | 一个 agent 连续跑几小时如何保持方向和质量 |
| 空间 Scalability | Cursor 多 Agent 并行 | 几百个 agent 并行工作如何线性扩展 |
| 交互 Scalability | openai-symphony | 人如何用最少介入 steer 大量 agent 工作 |
三家收敛的共识
- 人类的核心工作从写代码转向设计 agent 的工作环境 — 设计环境、指定意图、构建反馈循环
- 知识必须版本化、存在于 repo 中 — agent 看不到的等于不存在
- 约束比指令有效 — 可执行的约束优于可解释的指令
- 完美主义是吞吐量的敌人 — 纠错比等待便宜
核心概念
- harness-engineering/aci — Agent-Computer Interface,SWE-agent 论文提出,64% 性能提升来自接口设计
- 上下文管理 — 上下文窗口管理,上下文窗口是"整个工作意识"而非 RAM
- harness-engineering/self-verification-loops — 自我验证循环,Evaluator 与 Generator 独立是关键
- harness-engineering/prompt-caching — Prompt Caching 作为一等约束,决定成本基线和交互延迟
- harness-engineering/continual-learning — Agent 三层持续学习:模型层、Harness 层、Context 层
- harness-engineering/fat-skills-fat-code-thin-harness — Garry Tan 的"胖技能、胖代码、瘦 harness"架构原则
- harness-engineering/your-harness-your-memory — Harrison Chase 论 harness 与记忆的深度耦合
- harness-engineering/harness-memory-bitter-lesson — Viv Trivedy 论上下文片段、经验记忆与搜索的 bitter lesson
- Agent Memory vs Context Substrate — 长期信息的两种根本范式:记忆后端 vs 上下文基底
- harness-engineering/multi-agent-coordination-patterns — 五种多智能体协作模式(Generator-Verifier / Orchestrator-Subagent / Agent Teams / Message Bus / Shared State)
- harness-engineering/openai-frontier-symphony — OpenAI Frontier 团队的"幽灵库"与 harness 工程实践
- harness-engineering/llm-training-pipeline-2026 — 大模型训练完整链路:预训练 → 后训练 → Agent 训练 → Harness 优化
与 Claude Code 的关系
claude-code/overview 是 Harness Engineering 的一个具体实现。Claude Code 的架构(bash + text editor 工具、skills 系统、CLAUDE.md schema)都是 Harness 设计原则的体现。见 claude-code/overview。
Harness 产品化新方向(2026-04-21)
wanman:面向普通人的 Agent Matrix
郭宇(@turingou)评价 wanman 是目前最丝滑、最傻瓜化的 harness 产品,真正面向非技术人员。
核心洞察:
- 当前大多数 harness(OpenClaw、Hermes)都是面向技术人员的产品
- wanman 的"不用动脑子"体验说明:agent 产品的下一个突破点在交互层简化
- 对普通用户而言,agent 的价值在于"完成任务"而非"可定制性"
- 这种产品化思路与 Cursor、Claude Code 等工具形成互补
Hermes Agent 搭建指南
Greg Isenberg 发布 Hermes agent 逐步搭建教程:
- 内置记忆(无需外部向量数据库)
- 40+ 工具开箱即用
- 支持手机端运行
- 与 OpenClaw 对比:Hermes 更偏向"个人助理",OpenClaw 更偏向"开发者工具"
gbrain soul-audit:面试式 Agent 配置
Vox 分享 gbrain 的 soul-audit skill:
- 6 阶段面试生成完全个性化的 agent
- Phase 1 Identity:这个 agent 对你意味着什么?
- 将 agent 配置从"写规则"转变为"回答问题"
- 与 Progressive Disclosure 理念一致
Counterpoints & Gaps
- Harness Engineering 解决的是头部需求(极复杂系统、大型基础设施)。对普通开发者,软件可能根本不需要几百个 agent 并行
- 更深远的影响可能在另一方向:让软件本身变得更简单、更一次性(grapeot 的观点)
- 随着模型能力提升,部分 Harness 组件会被淘汰(Anthropic 记录了从 Sonnet 4.5 到 Opus 4.6 的演化路径)
- 主观信号(方向对不对、命名好不好)无法通过 Harness 接入,是 Delegate 区间扩大的真正瓶颈(harness-engineering/copilot-vs-delegate)
Related
- harness-engineering/advisor-pattern
- harness-engineering/ai-security-speed-mismatch
- harness-engineering/bespoke-clis-for-codex
- harness-engineering/big-systems-advice
- harness-engineering/browser-harness
- harness-engineering/build-agent-framework-from-scratch
- harness-engineering/cloudflare-sandboxes
- harness-engineering/context-rot-companionship
- harness-engineering/continual-learning-layers
- harness-engineering/dan-shipper-specialization-context-rot
- harness-engineering/file-as-bus-pattern
- harness-engineering/google-agent-skill-patterns
- harness-engineering/harness-is-everything-detailed
- harness-engineering/harness-steering-orchestration-2026-04
- harness-engineering/headless-mac-mini-setup
- harness-engineering/multica-autopilot
- harness-engineering/nasa-artemis-fault-tolerant-computer
- harness-engineering/openclaw-clawchief
- harness-engineering/parallel-learning-internal-agent
- harness-engineering/portable-agents-adward28
- harness-engineering/quantization-turboquant-rotorquant
- harness-engineering/ralph-harness-framework
- harness-engineering/resolvers
- harness-engineering/systems-engineering-agentic
- harness-engineering/vercel-workflows
2026-04-21 生态动态
Hermes Agent(Greg Isenberg):
- 面向终端用户的个人 AI agent,内置记忆、40+ 工具、支持手机端
- 与 OpenClaw 的定位差异:Hermes 更偏向"个人助理",OpenClaw 更偏向"开发者工具"
- 代表 harness 产品化的一种方向:降低使用门槛,让非技术用户也能拥有持续学习个人偏好的 agent
wanman(郭宇 / @turingou):
- 被评价为"最丝滑、最傻瓜化的 harness 产品",真正面向普通人
- 与 OpenClaw、Hermes 等技术向产品形成鲜明对比
- 核心洞察:agent 产品的下一个突破点在交互层简化,而非功能堆叠
Conductor(Zhu Liang / @paradite_):
- 基于并行 agent 的高速度开发工作流工具,由 Airtable 团队构建
- 心智模型与 Copilot/Cursor 完全不同:核心优势是并行 agent 协同,而非单 agent 代码补全
- 代表空间 Scalability 维度的另一种实现路径
Sources
- 狠人揭秘ClaudeCode...Harness就是一切!
- Harness Engineering 在讨论什么:三个 Scaling 维度的统一框架
- 编程智能体的核心组件【译】
- Continual learning for AI agents
- Prompt Caching 作为 Harness 工程的一等约束
- Agent 自我改进的六条路
- 软件工程会走向黑暗工厂模式!
- 驾驭 Claude 的智能 构建应用的 3 个关键模式【译】
- 2026-02-28 27天交付商用Agent系统
- Lessons from Building Claude Code - How We Use Skills
- X Posts - Design Skills 完整列表
- 2026-03-18 Google Stitch - AI原生设计画布
- 2026-03-21 Karpathy NoPriors QA总结 1
- 2026-03-18 gstack - Garry Tan的思维方式
- google-agent-skill-patterns
- 2026-03-18 The Parasite Fallacy - 寄生虫谬论
- 2026-03-18 机械工程师 + Claude Code 碾压硅谷
- AI 时代 PM 新打法 - @_catwu
- 2026-03-18 AI超个性化系统构建指南
- 2026-04-10 Caspar B - Superpowers Skill Pack
- 2026-04-10 adward28 - Portable Agents
- Why Your “AI-First” Strategy Is Probably Wrong
- claude code 拆解
- How NASA Built Artemis II’s Fault-Tolerant Computer
- harness and memory
- I Went Through Every AI Memory Tool I Could Find. There Are Two Camps.
- We’ve Deployed 20+ AI Agents. Here Are the 10 Mistakes Almost Everyone Makes
- 驾驭 Claude 的智能 构建应用的 3 个关键模式【译】
- 2026-04-20
- 2026-04-19
- 2026-04-18
- 2026-04-13
- 2026-04-20