Wiring Skills Into Loops
来源:Voxyz (@Voxyz_ai),2026-04-02
核心论点
安装一个 skill 不等于你的 agent 学会了在正确的时间使用它。
真正让 agent 变强的是把 skills 连接成循环(loops) —— 每次运行后产生反馈,反馈自动优化规则,规则再提升下一次的输出质量。
渐进式确定性
Mike Taylor 将同一思想称为 incremental determinism:当任务重复出现时,先把成功会话沉淀为 skill,再把 skill 变成 evals,然后把稳定步骤迁移到 scripts、CLI 或 MCP,最后用真实样本与 eval 指标优化脚本。这个梯子是 sessions → skills → evals → scripts → optimized scripts。
该框架补充了 loop 视角。Loop 解释 skill 如何随反馈变好;渐进式确定性解释何时把一个模糊任务推向更确定、更便宜、更可测试的执行形态。第三次重复出现的任务适合写 skill;高频且可评分的任务适合加 eval;稳定且不需要判断的步骤适合用脚本替代模型调用。
五种 Loop 实践
1. Writing Loop — 让草稿越来越像你的风格
- Agent 按规则写草稿
- 人手动编辑
- 每晚对比 diff(改了什么、删了什么、加了什么)
- 同类修改积累到 10-15 次,提炼成候选规则写回 skill
- 6 个月从 v1.0 进化到 v1.3
2. Research Loop — 15 分钟拿到素材包
- 给 agent 方向,自动搜索 → 按互动数据排序 → 拉取完整原文
- 不查摘要(会漏关键数据),存完整原文
- 人花 10 分钟浏览判断
3. Review Loop — 虚拟读者预审
- 用不同 prompt 模拟不同读者:怀疑者、新手、潜在客户、同行
- 多个人设并行评审,逐段打分
- 关键不是绝对分数,而是趋势 —— 哪些段落持续低分
- 把改进点变成默认检查清单
4. Memory Loop — 三层记忆系统
| 层级 | 作用 | 内容 |
|---|---|---|
| Log layer | 每日工作日志 | 今天发生了什么、发现了什么 |
| Long-term rules | 经多次验证的规则 | 反复确认的经验 |
| Handoff layer | 会话状态快照 | 每次会话结束保存,下次读入 |
每晚自动 review:读取当天 log,提取关键发现,标记值得加入长期规则的内容。
5. Ops Loop — 定时任务链
三个 cron job 连成完整 loop:
- Heartbeat 发现内容 →
- Writing skill 起草 →
- 人编辑批准 →
- 系统记录 diff →
- Nightly review 提炼规律 →
- 规则写回 skill →
- 下次 Heartbeat 发现类似内容时,草稿质量已提升
三个环的定义
| 环 | 作用 |
|---|---|
| Scheduling | 定时触发,不用你主动开口 |
| Memory | 结果和经验写入文件,下次读入上下文 |
| Feedback | 对比本次输出和你的编辑,更新规则 |
最小启动配置
只需要两件事:
- Scheduled triggers — cron 定时任务
- Persistent context — 文件读写维持连续性
最小示例:
- nightly review 任务,每天运行,输出 review 文件
- morning briefing 任务,读取 review 输出并压缩推送
Key Takeaway
"Template 用一次就停,Loop 每转一圈都更准。"
不是 skills 的数量重要,而是 skills 之间的连接和反馈机制 重要。
Evidence across sources
| Source | Key Claim | Relevance |
|---|---|---|
| Voxyz - Wiring Agent Skills Into Loops | Skill 的价值来自 scheduling、memory、feedback 三个环,而不是单次模板化调用 | 定义 loop 机制 |
| Every 2026-04-27 You Are the Most Expensive Model | 重复任务应从会话沉淀为 skill,再进入 eval、script 与自动优化层级 | 定义从模糊会话到确定流程的升级路径 |
从提示词到循环:Claude Code 负责人的判断(2026-06-07)
Boris Cherny(Claude Code 负责人)用一句话概括了交互范式的转移:"我不再给 Claude 写提示词了。我运行的是能自己给 Claude 写提示词并决定怎么做的循环。"这与本文的 loop 框架一致,但把 loop 的抽象从工程技巧提升为产品形态——未来用户面对的不再是单次对话,而是持续运行的代理循环。
工程价值因此从 prompt craft 转向:
- 循环设计(触发条件、终止条件、失败恢复)
- 错误处理与状态管理
- 多轮反馈中的信息保留与更新
Steipete:未来不是更好的提示词,而是更好的循环(2026-06-08)
Peter Steinberger(@steipete)将这一范式转移表述为对 coding agent 的直接影响:手动给 agent 写提示词已成为任务规模扩大后的瓶颈。设计循环能让 agent 自我提示、迭代并在无需人工干预的情况下恢复。这一转变类似于从命令式基础设施向声明式基础设施的过渡。
Steipete 的 framing 与 Boris Cherny 的判断形成互补:Cherny 强调 loop 作为产品形态,Steipete 强调 loop 作为解决 scaling bottleneck 的工程方案。两者共同指向同一结论——prompt engineering 的边际收益递减,loop engineering 的边际收益上升。
自我改进 skill 的五步法(2026-06-07)
Peter Yang 提出让 skill 随时间自动改进的五步结构,可视为 Wiring Skills Into Loops 的具体实现:
- 示例:给 AI 展示重复任务的高质量输出样例。
- 触发描述:用固定句式写 skill 描述——"当用户想要[做某事]时使用"。
- Evals:创建 10 条针对常见错误的通过/失败检查。
- Memory:创建 memory 文件,记录每次运行后的一句话经验。
- Meta-skill:构建一个清理 skill,定期删除重复、过时指令和 AI slop。
这验证了 loop 的三个环在此处的映射:evals 对应 feedback,memory 对应 persistent context,meta-skill 对应 scheduled cleanup。
重复任务模板化:从清单到 skill 的升级路径(2026-06-07)
Voxyz_ai 提供一个可直接复制的提示词模板,把上周最烦人的重复任务转化为三层输出:今天的 checklist、今天的小脚本、长期的 skill。关键约束包括:
- 每次运行需要哪些输入(文件、数据、系统)
- 好结果的具体例子
- 权威来源与冲突解决规则
- AI 可直接执行的事项 vs 必须先询问的事项
这体现了渐进式确定性的落地版本:不是一次性写完美 skill,而是从 checklist 开始,经过三次成功重复后再升级为 skill。
关联
- harness-engineering/overview — Harness Engineering 总览
- harness-engineering/continual-learning — 持续学习框架
- harness-engineering/skill-engineering-as-algorithm — Skill 工程化设计
- claude-code/overview — Claude Code skills 系统