Harness Engineering — Overview

Harness Engineering 是构建 AI agent 运行环境的工程学科。核心论点：模型几乎无关紧要，Harness 就是一切。 同一个模型，在不同的 Harness 下，性能差距可达 64%（SWE-agent 论文数据）。

什么是 Harness

Harness 是语言模型运行的完整设计环境，包括：

可调用的工具
信息接收的格式
历史记录的压缩与管理方式
在错误级联前拦截错误的护栏
允许 agent 将工作移交给"未来的自己"而不丢失连贯性的脚手架

"接口不是便利层；对于语言模型 agent 来说，接口即思想。"

三个 Scaling 维度

来源：harness-engineering/three-scaling-dimensions（grapeot 的统一框架）

三家公司各自解决了不同维度的问题：

维度	代表	核心问题
时间 Scalability	harness-engineering/anthropic-long-running	一个 agent 连续跑几小时如何保持方向和质量
空间 Scalability	Cursor 多 Agent 并行	几百个 agent 并行工作如何线性扩展
交互 Scalability	openai-symphony	人如何用最少介入 steer 大量 agent 工作

三家收敛的共识

人类的核心工作从写代码转向设计 agent 的工作环境 — 设计环境、指定意图、构建反馈循环
知识必须版本化、存在于 repo 中 — agent 看不到的等于不存在
约束比指令有效 — 可执行的约束优于可解释的指令
完美主义是吞吐量的敌人 — 纠错比等待便宜

核心概念

harness-engineering/aci — Agent-Computer Interface，SWE-agent 论文提出，64% 性能提升来自接口设计
上下文管理 — 上下文窗口管理，上下文窗口是"整个工作意识"而非 RAM
harness-engineering/self-verification-loops — 自我验证循环，Evaluator 与 Generator 独立是关键
harness-engineering/prompt-caching — Prompt Caching 作为一等约束，决定成本基线和交互延迟
harness-engineering/continual-learning — Agent 三层持续学习：模型层、Harness 层、Context 层
harness-engineering/fat-skills-fat-code-thin-harness — Garry Tan 的"胖技能、胖代码、瘦 harness"架构原则
harness-engineering/your-harness-your-memory — Harrison Chase 论 harness 与记忆的深度耦合
harness-engineering/harness-memory-bitter-lesson — Viv Trivedy 论上下文片段、经验记忆与搜索的 bitter lesson
Agent Memory vs Context Substrate — 长期信息的两种根本范式：记忆后端 vs 上下文基底
harness-engineering/multi-agent-coordination-patterns — 五种多智能体协作模式（Generator-Verifier / Orchestrator-Subagent / Agent Teams / Message Bus / Shared State）
harness-engineering/openai-frontier-symphony — OpenAI Frontier 团队的"幽灵库"与 harness 工程实践
harness-engineering/llm-training-pipeline-2026 — 大模型训练完整链路：预训练 → 后训练 → Agent 训练 → Harness 优化

与 Claude Code 的关系

claude-code/overview 是 Harness Engineering 的一个具体实现。Claude Code 的架构（bash + text editor 工具、skills 系统、CLAUDE.md schema）都是 Harness 设计原则的体现。见 claude-code/overview。

Harness 产品化新方向（2026-04-21）

wanman：面向普通人的 Agent Matrix

来源：AI 简报 2026-04-21

郭宇（@turingou）评价 wanman 是目前最丝滑、最傻瓜化的 harness 产品，真正面向非技术人员。

核心洞察：

当前大多数 harness（OpenClaw、Hermes）都是面向技术人员的产品
wanman 的"不用动脑子"体验说明：agent 产品的下一个突破点在交互层简化
对普通用户而言，agent 的价值在于"完成任务"而非"可定制性"
这种产品化思路与 Cursor、Claude Code 等工具形成互补

Hermes Agent 搭建指南

来源：AI 简报 2026-04-21

Greg Isenberg 发布 Hermes agent 逐步搭建教程：

内置记忆（无需外部向量数据库）
40+ 工具开箱即用
支持手机端运行
与 OpenClaw 对比：Hermes 更偏向"个人助理"，OpenClaw 更偏向"开发者工具"

gbrain soul-audit：面试式 Agent 配置

来源：AI 简报 2026-04-21

Vox 分享 gbrain 的 soul-audit skill：

6 阶段面试生成完全个性化的 agent
Phase 1 Identity：这个 agent 对你意味着什么？
将 agent 配置从"写规则"转变为"回答问题"
与 Progressive Disclosure 理念一致

Counterpoints & Gaps

Harness Engineering 解决的是头部需求（极复杂系统、大型基础设施）。对普通开发者，软件可能根本不需要几百个 agent 并行
更深远的影响可能在另一方向：让软件本身变得更简单、更一次性（grapeot 的观点）
随着模型能力提升，部分 Harness 组件会被淘汰（Anthropic 记录了从 Sonnet 4.5 到 Opus 4.6 的演化路径）
主观信号（方向对不对、命名好不好）无法通过 Harness 接入，是 Delegate 区间扩大的真正瓶颈（harness-engineering/copilot-vs-delegate）

2026-04-21 生态动态

来源：AI 简报 2026-04-21

Hermes Agent（Greg Isenberg）：

面向终端用户的个人 AI agent，内置记忆、40+ 工具、支持手机端
与 OpenClaw 的定位差异：Hermes 更偏向"个人助理"，OpenClaw 更偏向"开发者工具"
代表 harness 产品化的一种方向：降低使用门槛，让非技术用户也能拥有持续学习个人偏好的 agent

wanman（郭宇 / @turingou）：

被评价为"最丝滑、最傻瓜化的 harness 产品"，真正面向普通人
与 OpenClaw、Hermes 等技术向产品形成鲜明对比
核心洞察：agent 产品的下一个突破点在交互层简化，而非功能堆叠

Conductor（Zhu Liang / @paradite_）：

基于并行 agent 的高速度开发工作流工具，由 Airtable 团队构建
心智模型与 Copilot/Cursor 完全不同：核心优势是并行 agent 协同，而非单 agent 代码补全
代表空间 Scalability 维度的另一种实现路径

Harness Engineering — Overview

Harness Engineering — Overview

什么是 Harness

三个 Scaling 维度

三家收敛的共识

核心概念

与 Claude Code 的关系

Harness 产品化新方向（2026-04-21）

wanman：面向普通人的 Agent Matrix

Hermes Agent 搭建指南

gbrain soul-audit：面试式 Agent 配置

Counterpoints & Gaps

2026-04-21 生态动态

Sources

Linked from

Harness Engineering — Overview

什么是 Harness

三个 Scaling 维度

三家收敛的共识

核心概念

与 Claude Code 的关系

Harness 产品化新方向（2026-04-21）

wanman：面向普通人的 Agent Matrix

Hermes Agent 搭建指南

gbrain soul-audit：面试式 Agent 配置

Counterpoints & Gaps

Related

2026-04-21 生态动态

Sources

Linked from