Skip to content
Back/Claude Code

Claude Code — Overview

View in Graph
Updated 2026-06-14
11 min read
2,665 words

Claude Code - Overview

Claude Code 这个 section 追踪的不只是 Anthropic 的编码工具,而是"本地 agent runtime 如何被用户、项目文件、skills、MCP、hooks 和外部工具持续塑形"。本页是主题地图,不承载完整来源摘录;长材料应留在 raw 或对应概念/实体页。

Core Questions

  • Claude Code 到底是 coding tool,还是一个可定制的通用 agent runtime?
  • Claude Code、Codex、Cursor、gstack、OpenClaw 这类工具的边界分别在哪里?
  • 哪些能力应该写进 CLAUDE.md、skills、MCP、hooks、CLI,哪些应该交给外部 workflow?
  • 当模型能力继续上升,哪些 harness 约束会被删除,哪些会成为长期基础设施?
  • 非工程师使用 Claude Code 时,真正需要学习的是代码、系统设计,还是任务分解和判断?

Key Concepts

  • Runtime, not editor:Claude Code 架构源码泄露分析七层记忆架构 共同说明 Claude Code 更接近可配置 runtime,而不是单一 IDE 功能。
  • Project files as control plane:Pawel Huryn — Agentic EngineeringGood AGENTS.mdDynamic Context Injection 把项目文件变成 agent 的可审查控制面。Karpathy 模板实测:4 条行为规则可将代码错误率从 ~40% 降至 ~3%;但超过 200 行后合规率急剧下降,最佳实践控制在 ~65 行。新增规则应针对 Agent 编排问题(硬 Token 预算、暴露冲突、长任务检查点),且每条规则必须追溯到真实失败案例,而非假设性预防(Mnilax, 2026-05-11)。
  • Skills as reusable behavior:Lessons from Building SkillsBuilding Skills Best PracticesSkills CollectionSuperpowers Skill Pack 是技能化工作流的核心入口。Skill files 正在成为"品味容器"--将审美偏好、代码风格、架构原则编码为可继承的结构化指令(emilkowalski, 2026-05-08)。Addy Osmani(Google Gemini 团队主管)将资深工程师的工作流程整理成标准化 Skill 库,验证了 skill 作为"老工程师操作手册"的工程价值(2026-05-09)。Perplexity 公开了构建 agent skill 的内部手册,提出 skill 设计需要不同于传统软件开发的思维模式,涵盖设计、精炼和维护全流程(2026-05-11)。mattpocockuk 的 grill-with-docs flow 展示了 skill 如何用于设计审查:让 AI 提出设计者无法回答的问题,暴露盲点(2026-05-11)。最新实践显示,与 agent 长期协作中积累的「共享语言」使 /grill-with-docs 能够以近乎完美的精确度描述复杂需求--例如精确指出「橙色接受按钮位置过低、被导航栏遮挡」这类人类设计者已习惯性忽视的 UI 缺陷(2026-05-17)。grill-with-docs → /prototype → rewind 的完整循环进一步将设计审查从静态文档审阅变为动态原型验证(2026-05-11)。agent-skills-eval 工具提供对比实验验证 SKILL.md 效果:同一 prompt 跑两遍(带技能/不带技能),再用评审模型对照断言打分,输出 JSON 制品 + HTML 报告(2026-05-11)。Skills vs Code 的抽象层之争:Lee Robinson 反驳"未来软件工程就是写 Markdown"的观点,指出代码仍然是正确的抽象层。面对 agent 生成的大量代码,解决方案不是放弃阅读,而是让代码库更可验证--通过快速稳定的测试、强类型语言、更好的架构抽象来降低审查负担。Skills 的作用是将个人工作风格变得对 agent 可读,而非取代代码本身(2026-05-13)。Skill 的评估框架:GeekCatX 提出顶级 skill 不是"会写 prompt",而是能否将方法论压缩成产品--包含结构、判断、流程、产品感,甚至作者的世界观。对 mattpocock/skills、alchaincyf/nuwa-skill、dontbesilent2025/dbskill 的评测验证了「结构+判断+流程+产品感」四个维度(2026-05-15)。Skill 的持续进化:mattpocockuk 的 /grill-me 成为其最受欢迎的技能,但他已停止将其用于代码审查,并推出了改进版本--说明 skill 需要随使用场景迭代,而非一次性发布即完成(2026-05-15)。Peter Yang 的 Codex skills 实践:Peter Yang 花费整天为创作者工作流设置 Codex 集成与 skills,得出结论——只要设置正确,任何知识工作可节省至少 50% 时间。这验证了 skills 作为"可复用行为"在真实工作流中的杠杆效应,也提示技能库的建设需要一次性投入但长期复利(2026-06-05)。Skill 的可训练化:Microsoft Research 提出 SkillOpt,将自然语言 skill 文档视为冻结 agent 的可训练外部状态,通过优化器模型在验证门控下编辑 skill 文件。在 GPT-5.5 上相比无 skill 提升 23.5 分(直接对话)、24.8 分(Codex)、19.1 分(Claude Code);在 6 个基准测试、7 个模型、52 个设置中全部达到最佳或并列最佳。学习到的 skill 可跨模型和 harness 迁移,零额外推理成本,已击败人工编写 skill、TextGrad、GEPA 和 EvoSkill(2026-05-25)。Skill 的 token 效率:steipete 发布 skill-cleaner,用于找出 agent skills 中 token 效率最差的部分,呼吁 skill 作者保持 token 高效,避免在 skill description 中写冗长内容(2026-05-25)。PM Skills v2.0 发布:Pawel Huryn 发布 PM Skills v2.0,包含 9 个插件、68 个 skill、42 个命令,MIT 协议,兼容 Cowork 和 Claude Code,代表非工程师使用 Claude Code 的技能生态继续扩展(2026-06-07)。从提示词到循环:Claude Code 负责人 Boris Cherny 表示"我不再给 Claude 写提示词了。我运行的是能自己给 Claude 写提示词并决定怎么做的循环。"这标志着工程价值从单次 prompt craft 转向循环设计、错误处理和状态管理(2026-06-07)。Matt Van Horn 的 Compound Engineering 工作流进一步验证了这种范式:他将 80% 的精力投入规划,代码成为最后才出现的产物;Every 的 Compound Engineering 插件会并行派出多个 agent 分别读取代码库、过往踩坑记录和外部最佳实践,汇总成带验收清单的 plan.md 作为永不丢失的存档点;语音输入消除了转录瓶颈,因为接收方是能理解上下文的 AI;上下文复利意味着每一份文档和决策都会成为下一次决策的弹药(2026-06-07)。
  • Mobile voice-driven development: Nick Dobos 展示了 Codex iOS 的后台 dictation 工作流——打开 Codex 启动语音输入后,切换到正在开发的 iOS 应用连续使用 10 分钟,期间 Codex 在后台持续监听;只需短暂切回 Codex 按下发送,即可让 agent 基于累积的语音上下文推送新构建。这使得开发过程 99% 在使用 App、1% 在 IDE 中,代表了移动 agent 开发从"看代码"向"体验产品并口述想法"的交互迁移(2026-06-07)。
  • Skill 维护检查表: Voxyz_ai 提出 skill 库会腐烂,需要主动修补:未触发→修复描述;误触发→缩小边界;引用旧状态→修复真相来源;重复错误→添加失败模式;模型已自然掌握→删除规则;长期未用→归档。最危险的 skill 是上次模型升级后没人更新过但仍在运行的那些(2026-06-07)。
  • Garry Tan 的 skillifying 工作流:Y-Combinator CEO Garry Tan 提出技能就是新的提示词,未来工作流是"做一次,输入 /skillify,然后永久固化"。推荐实践:克隆 GBrain(Postgres-backed 记忆 + 30 个技能),添加 GStack(23 个斜杠命令技能),然后将任何重复任务 skillify。这代表了从临时提示词向持久、可复用代理能力的转变(2026-06-08)。
  • Loop Engineering:Addy Osmani(Google Chrome 团队)提出从"手持工具"到"设计工厂"的范式转变——不再手动写 prompt,而是构建自动化循环(/loop/goal)让系统自主驱动智能体。六个构建块:自动化(循环心跳)、Worktree(并行隔离)、Skills(防止意图债务)、MCP(扩展边界)、Sub-agents(执行者-检查者分离)、外部记忆(补偿遗忘)。核心风险是"理解腐蚀"——循环越快,开发者对代码库了解越少。Boris Cherny:"我的工作是编写循环"(2026-06-09)。
  • Auto-Prompt Generation:Loop Engineering 的核心子技能——让循环系统自动生成 Prompt,而非人类逐轮编写。三种机制:模板填充(Template-Based,预定义模板+动态变量,适合结构化任务)、状态驱动(State-Driven,根据执行状态动态生成上下文感知 Prompt,适合多阶段项目)、反思进化(Reflective Evolution,让 AI 自己反思并改进 Prompt,适合探索性任务)。Codex /goal 的三层保护(零工具调用抑制、预算控制、完成审计)是生产级实现参考。Boris Cherny:"我不再给 Claude 写提示词了。我运行的是能自己给 Claude 写提示词并决定怎么做的循环。"(2026-06-10)。
  • Dynamic workflows for large-scale parallel execution:Dynamic Workflows 允许 Claude 在单会话中动态编排数十到数百个并行子代理,处理代码库级迁移、安全审计和框架重写等需要多天完成的任务。Bun 从 Zig 到 Rust 的移植(75 万行、99.8% 测试通过率、11 天完成)是首个公开的大规模验证案例。进度自动保存、中断后恢复、对抗性验证代理在结果汇总前进行交叉检查,使这一模式区别于简单的批量脚本执行(2026-05-29)。实际成本语境: Anthropic 官方警告 token 消耗极快,但对于原本需要团队 3 个月完成的代码库迁移,花 500 美元在一周内完成仍是极高性价比的交换(gregisenberg, 2026-05-29)。六大核心模式: Thariq Shihipar(功能作者)归纳了 classify-and-act、fan-out-and-synthesize、adversarial verification、generate-and-filter、tournament、loop-until-done 六种可组合模式,覆盖从任务路由、大规模并行、对抗验证到品味选择的完整光谱(2026-06-02)。失败模式针对性解决: 动态工作流专门解决 agentic laziness(部分完成即停止)、self-preferential bias(验证时偏袒自己)和 goal drift(多轮后丢失原始约束)三大单上下文窗口故障模式,通过隔离的子代理和专注目标来保持执行完整性(2026-06-02)。
  • /goal 命令实战指南
  • Session and memory management:Session ManagementContext Window OptimizationExtending Claude Sessions 连接到 Context Rot 和长任务恢复问题。handoff skill(mattpocock)将对话压缩为 handoff 文件,让新 agent 或 session 无缝接手(2026-05-09)。MCP 作用域管理成为关键实践:多 MCP 连接时 Claude 可能从无关 MCP 调用工具,需在 Skill frontmatter 中显式声明 allowed-tools 白名单(2026-05-09)。Claude Code 正式发布 agent view(2026-05-11):原生多会话管理界面,按左箭头或运行 claude agents 即可统管所有会话状态,无需切换上下文即可回复特定会话;任何运行中的 session 可通过 /bg 移至后台 agent view(2026-05-12)。这与 /goal(设定完成条件后 AI 持续工作)、/loop(定时循环)和 stop hooks(脚本触发停止)共同构成 agent 工作流控制体系。Codex 同步推出 /goal 原生 Kanban 看板,任务卡片随完成进度自动移动(2026-05-11)。Codex 进一步集成到 Chrome 浏览器(macOS / Windows),可在后台跨标签页使用网站和应用,无需接管浏览器(2026-05-12)。/goal 的 23 个实践场景:从复杂重构、架构清理、设计系统落地、依赖升级迁移、安全审计,到 monorepo 重组和文档生成,/goal 被验证为最接近"永不知疲倦的高级工程师"的功能。关键是在 Codex、Claude 和 Hermes 中设定明确的完成条件,让 agent 自主规划并持续执行(2026-05-13)。百问计划 + Linear 自动拆解工作流:在构建大功能前,先让 AI agent 提出 100+ 澄清问题(而非传统 plan mode 的 3-4 个),形成详尽计划后自动创建 20+ 条细粒度 Linear issue,后续只需反复对 AI 说「ok work on the next thing」即可进入自动驾驶式开发节奏。这代表了从"一次性计划"到"持续澄清-拆解-执行"的 agent 驱动交付模式(AlexFinn, 2026-05-26)。Codex 全自动重构实战:clairevo 展示了 Codex 自主规划完整重构、迭代执行、进行浏览器冒烟测试并修复回归问题的完整工作流。Codex 生成漂亮的 HTML 文档供人类 review 和协作,逐块迭代编码同时持续更新架构文档,每轮循环执行浏览器冒烟测试识别并修复功能和视觉回归(包括与当前代码无关的问题),自动维护 lint 和测试。人类只需输入 "ok what's next" 和偶尔授权集成。同时运行第二个 Codex 实例处理 /goal 任务(如清理 4000 封邮件),充分利用其多任务能力(2026-05-25)。Claude Code 夜间自动工作流:Anthropic 工程师演示了将 Claude Code 配置为异步后台服务的方法——利用 /goal 和持续会话保持上下文,配合 CI/CD 钩子或定时任务触发,在离线时持续构建、测试并交付成果,次日早晨直接审阅产出。22 分钟内可搭建完整工作流,适合批量重构、文档生成、测试补全、静态分析修复等可验证任务(zodchiii, 2026-05-30)。Claude Code 输出风格切换:运行 /config 可调整 output style(默认可能过于保守)。Learning 模式增加解释深度,适合防止"大脑生锈";Proactive 模式提升执行主动性,适合非编码自动化场景。不同任务类型应匹配不同风格,而非一刀切(svpino, 2026-06-01)。45 分钟构建 5 个专注 Agent:Anthropic 工程师现场演示从零构建 5 个专门 Agent(代码审查、测试、文档等日常手动任务),强调不是 prompt 一次就关闭标签页,而是建立自运行的系统,并提供可直接复用的模板(zodchiii, 2026-06-01)。Codex 设计师级审美实战:impeccable skill 综合表现优于 uiuxpromax;taste skill 的核心用法是 imagegen-frontend-web skill 生成设计参考图 + image-to-code skill 1:1 还原;Frontend App Builder skill(Codex 内置)流程更工程化,对颜色和图标还原度要求更严格(Saccc_c, 2026-06-01)。Codex QA 助手模式:教 Codex 成为 QA 助手,每次 commit 自动创建用户测试场景,通过 webVNC(crabbox)和 computer/browser use(peekaboo/mcporter)模拟真实用户操作,在后台运行测试并自动提交修复 PR。这代表 agent 从"辅助开发"向"全链路质量保障"的演进(steipete, 2026-06-01)。AI Code Review 实践(Review Forge):AI 代码产出速度极快,长时间不干预会导致系统质量下降变成黑盒。Review Forge 流程通过建立固定 review 检查清单、结构化审查每次改动、将 review 流程文档化,让团队对 AI 生成代码保持信心(vikingmute, 2026-06-01)。Agent 工作的"黑箱"问题与觉察机制:Anthropic 员工(trq212)调查发现,agent-heavy workflow 中最大的隐性成本不是 token 消耗,而是人类对 agent 产出的"觉察衰减"——AI 做了工作,但人类并不完全理解做了什么。 Suzanne 的方法在团队中脱颖而出:在每次重要的 agent 会话后设计明确的"检查"仪式,要求 agent 用人类自己的话来总结工作,再接收输出。这反映了 agent 密集型工作流中的一个更广泛模式:执行很便宜,但理解和一致性需要刻意练习(2026-06-02)。
  • Claude Code workflow 关键词误触发:mattpocockuk 发现说出 "workflow" 会意外触发 Claude Code 的 workflow 模式,启动大量子 agent。这反映了 AI 工具在上下文理解和用户意图识别方面仍有改进空间(2026-06-01)。
  • Codex Desktop 移除 "Copy as Markdown":OpenAI 在更新中移除了 Codex Desktop 的 "Copy as Markdown" 功能,该功能可导出完整对话记录为 Markdown。Simon Willison 认为这是 Codex 相比 Claude Code 的最大优势之一,已在 GitHub 提交 issue 反馈(2026-06-01)。
  • MCP evolution and optimization:Anthropic 官方博客回应 MCP 批评,提出 Tool Search(按需加载工具定义,减少 85% token 消耗)、程序化工具调用(在沙箱中处理工具返回结果再返给模型,减少 37% token)、以及 Cloudflare 的代码编排模式(2 个工具覆盖 2500 个 API 端点)。MCP 的定位明确为云端 Agent 的标准化接入层,与 CLI + Skills 形成互补:本地开发环境用 CLI + Skills,云端生产环境用 MCP + Skills(2026-04-23)。MCP 作为 Agent 互操作性的抽象层:MCP 的核心价值是抽象层而非简单工具连接,支持 Agent-to-Agent 交互、版本控制、评估工作流、通信协议等复杂场景。通过自改进循环让 orchestrator 自主设计复杂 Agent 交互方案,大部分 MCP 构建在开源环境中(omarsar0, 2026-05-30)。
  • Prompt caching 作为一等约束:Claude Code 团队将 prompt caching 视为 SEV 级别指标,cache hit rate 过低时直接宣布严重事故。核心原则:保持前缀稳定、追加优先于替换、用 messages 替代 system prompt 改动、对话中途不增删工具/切换模型。Prompt caching 不是成本优化,而是决定 agent 架构是否经济可行的约束(2026-04-30, 2026-05-02)。Opus 4.8 支持对话中更新系统提示且不破坏 Prompt Cache: Opus 4.8 新增能力,可在对话中途更新系统提示而不会打断 prompt cache。此前需要用 标签插入用户消息来绕过(RLanceMartin, 2026-05-29)。Opus 4.8 基准表现:在 Every 的 Senior Engineer Benchmark 上得分 63(高于 GPT-5.5 的 62 和 Opus 4.7 的 33.5),写作测试达 79.6 分——历史最高且 AI 痕迹更少。评测指出模型能力已超越围绕它构建的应用体验(Every, 2026-05-30)。
  • Interactive requirement extraction:Anthropic 工程师 Arnaud Doko 主张让 Claude 像面试官一样通过互动精准提取需求,而非由用户一次性详细指定。当 agent 运行时间从几分钟延伸到数小时,任务起始阶段的微小理解偏差会导致海量 token 浪费。Claude 通过追问、澄清和假设检验来缩小需求空间,这种"对话式需求工程"正在成为长程 agent 任务的标配前置步骤(2026-05-27)。
  • HTML artifacts as output layer:Thariq(trq212)和 Clara Vo 分别提出"HTML 是新的 Markdown"。Clara Vo 的具体工作流:让 Claude 在 HTML 文件里 brainstorm 想法并附带视觉化 mockup;选一个方向后创建 HTML 计划文件(包含摘录、mockup、代码);对不满意的部分创建可编辑的 HTML micro-app;最终用 HTML 的 design system 文件替代传统的 design.md。当 Agent 运行时间从几分钟变成几小时,HTML 比 Markdown 更容易阅读、滚动浏览,且模型不需要费劲地画 ASCII mockup(2026-05-20)。HTML artifacts 与 LLM Wiki 结合形成动态知识工作流:Markdown 负责存储,HTML 负责动态呈现和 agent 双向通信(omarsar0, 2026-05-09)。CSS 外部化到模板文件可将 token 消耗降低 44%(12116 → 6723 tokens),让 AI 生成 HTML 更经济(nicbstme, 2026-05-09)。Thariq 进一步将 HTML 用于规划、需求文档、代码审查和报告,主张 browser primitives 比框架更适合 Agent 操作界面(2026-05-11)。交互式 HTML Skill 进一步将 HTML 输出升级为可协作的审阅界面:Claude Code 生成静态 HTML 报告后启动本地服务器,用户可在浏览器中直接标注评论,模型根据评论实时迭代并引导查看变更,形成类似 Google Docs 的协作体验。这弥补了传统 AI coding 输出静态文件后难以快速迭代的痛点(paraschopra, 2026-05-26)。
  • Verification as native feature:Anthropic 工程师 Arnaud Doko 提出将验证内置于产品开发全过程,让验证成为 agent 的原生属性。这意味着 agent 不只是生成代码,还要在任务起始就建立可检查的约束条件,与人类共同驱动验证,或最终 headless 自动运行。这从"生成代码"推进到"生成可验证的代码",是 agentic coding 的下一阶段标准(2026-05-27)。 Claude DesignAwesome Design Skillbaoyu-design 使用指南Google Stitch 指向 AI 生成 UI 从"出图"走向"设计系统约束"。新出现的 Claude skill 可将界面截图直接转换为可交互的 UI 组件和 ready-to-use onboarding 流程,进一步缩短从设计到实现的距离(2026-05-11)。Agent-native 产品设计的早期实践已经出现:Ben Tossell 在自建邮件客户端时明确要求"为人类优化 UI,同时为 agent 暴露 hidden selectors/state/debug endpoints",让 agent 可以直接操作应用而人类用户无感知(2026-05-09)。这代表"双界面"架构--人类界面(直觉、美观)与 agent 界面(结构化、可操作)并行存在。
  • Office and cross-app integration:Claude for Excel, PowerPoint, Word 正式上线,Outlook 进入公开测试。核心特性是跨应用携带完整对话上下文,实现无缝跨应用工作流(2026-05-08)。
  • Claude Code for non-technical work:trq212 提出用 Claude Code 处理非技术工作的基本技巧——将相关文件放入一个文件夹,告诉 Claude 它可以写脚本和生成 HTML,即可让非技术人员利用 agent 完成数据分析、报告生成和流程自动化(2026-05-28)。Codex for Knowledge Work 五层模型:Katie Parrott 将 Codex 的使用划分为五个层级——一次性任务、模板化工作流、上下文增强、复合系统、自主运行,并提供了 13 个工作流模板和审核清单。核心洞察是将 Codex 从聊天工具升级为知识工作的操作系统,审核清单是让 agent 在完整工作日中保持可靠性的关键机制(Every, 2026-05-30)。
  • Product evolution and org transformation:Claude Code 负责人 Boris Cherny 透露,产品前六个月几乎无人使用,Opus 4 上线才是真正的转折点--说明模型能力是 agent runtime 被采纳的前提,而非相反(2026-05-09)。Salesforce 的 Claude Code Agentic 转型案例:Salesforce 发布详细案例,一个原本预估 231 天的迁移任务在 13 天内完成,一个 PR 交付 21 个端点且测试覆盖率达到 100%。产出增加的同时质量提升:尽管发布的 PR 更多,事故总数反而下降 5%。安全护栏和质量标准直接嵌入 Agentic 工作流中,证明产出与质量并非零和博弈。获得最大收益的团队正在彻底改变工作方式而非仅加速现有流程——关键问题是哪些步骤可以删除、哪些交接可以取消、哪些任务可以让 Agent 端到端负责(bcherny, 2026-05-30)。Anthropic 内部已形成 AI-native 组织形态:所有 agent 通过 Slack 实时协作,无人手写 SQL 和业务代码(2026-05-09)。Alex Albert(Research @Anthropic)披露,Anthropic 代码库中超过 80% 的合并代码现在由 Claude 编写,递归自我改进从理论假设变为可观测的工程现实(2026-06-05)。Claude Managed Agents 内置记忆功能进入公测,记忆以文件形式存储,开发者可导出、通过 API 管理,并完全控制 agent 跨会话保留的内容(2026-05-10)。Managed Agents 新增三项功能:Dreaming(自动回顾历史对话提取记忆)、Outcomes(用户定义成功标准,评分器自动评判 Agent 工作质量)、Multi-agent orchestration(主 Agent 拆解任务并委派给专业子 Agent)(2026-05-11)。Anthropic 的 Claude Code 负责人使用 AI 辅助在 2 天内发布了 49 个功能,自己一行代码未写,展示了 AI-native 开发流程的上限(2026-05-11)。Managed Agents 架构进一步将系统解耦为 brain(session)、harness(loop)和 hands(sandbox)三个虚拟化层,各层可独立替换;关键洞察是 harness 编码了对模型限制的假设,但这些假设会随着模型进化而过时(例如为缓解上下文焦虑添加的重置机制在新模型上成为死代码),设计遵循 OS 虚拟化模式--上层抽象稳定,下层实现自由变更(2026-05-11)。Codex 插件生态方向:各家顶尖 Agent 几乎同时收敛到三栏布局(左侧项目/会话、中间对话、右侧工作区)。Codex 4 月大版本的核心变化在右侧工作区,口号是"Codex for (almost) everything"。MCP 解决了"连接"问题,Skills 解决了"怎么做",但"用户二次编辑"的缺口始终没补上。把 Agent 做成平台、让社区贡献插件(类似 VSCode 和 Chrome 扩展市场),可能同时解决 Skill 无法商业化的问题和中小团队的"最后一公里"创新窗口(dotey, 2026-05-13)。Claude Code 2.1.168 发布:包含 CLI 错误修复和可靠性改进,继续完善桌面 agent runtime 的稳定性(2026-06-07)。Obsidian 作为个人 agent 入口:一位 builder 将 Obsidian 接入自动化管道,能把凌晨三点的 raw 想法变成已交付项目,人类只需参与约两分钟审核。流程是:想法丢进单条笔记 → 自动化分类 → 系统自动调研并起草方案 → 人类在 Claude Code 中审阅 → 一条命令提升为本地项目并由子代理执行。这代表了个人知识库(Obsidian)与 agent runtime(Claude Code)之间闭环工作流的成熟案例(2026-06-07)。 编辑器 Agent 竞争白热化:Cline 开源重建后的 SDK 和 CLI,新增 TUI、Agent Teams、定时任务和连接器,将自己定位为可复用的编码 agent 底层平台。Cursor 扩展云 Agent 功能,提供预配置开发环境、版本回滚、限定范围出站访问和隔离密钥。VS Code 原生引入 Agents 窗口和更好的多项目任务审查功能。这代表编码工具正在从"编辑器 + 插件"向"编辑器 + 原生 agent runtime"演进(2026-05-14)。Allie K. Miller 的 AI 现状观察:硅谷当前最大话题是 self-learning org,但多数企业领导者从未见过 Agent 实际运行。平均工程师目前更偏好 Codex 而非 Claude Code,CIO 们普遍担心 token maxxing 和成本失控。企业内部超级用户改变了工作方式但缺乏分享动力,最佳实践几乎无法流通——企业 AI 策略听起来像 2024 年底的创业公司策略,落后 2-3 年(alliekmiller, 2026-05-30)。Codex Hooks 与程序化访问令牌:OpenAI 发布 Codex 的 Hooks 机制,允许在任务关键点运行自定义脚本--工作前后验证、扫描 secrets、记录对话、按仓库定制行为。同时推出程序化访问令牌,支持 Business 和 Enterprise 团队将 Codex 集成到 CI、发布工作流和内部自动化中,并可设置过期和撤销。这标志着 Codex 从交互式助手向可自动化基础设施的演进(2026-05-15)。Claude Code /workflows:Daniel Miessler 透露 Claude Code 即将推出 /workflows 功能,将企业常规工作转化为按 SOP 执行的伪确定性工作流。所有工作本质上都是算法--即达成目标的一系列步骤,Skills 和 Cowork 已朝这个方向发展。人类的核心价值将转向:决定解决什么问题(品味、经验等)、从零构建新产品、从上层优化工作流。这更接近企业 AI 的"最终形态"--工作本身按 SOP 执行,人负责战略层面的判断(2026-05-25)。用 Claude Code 逆向工程 API:nikunj 展示了通过 browser_harness 嗅探网页网络请求来逆向工程内部 API 结构的工作流:让 Claude Code 打开目标页面,用户手动点击想要的数据区域,Claude 分析网络日志找出 API 结构和认证方式。大多数内部 API 使用 cookie 认证,通过试错可确定速率限制。应用场景包括旅行 CLI、网站监控(情报收集)以及各种需要程序化获取数据的 side project(2026-05-25)。GitHub Labels 驱动 Agent 工作流:mattpocockuk 提出通过 GitHub labels 触发 agent 动作(如 agent:implement、agent:update-branch、agent:review、agent:to-issues),实现更自然的 CI/CD 集成。GitHub Actions 监听 label 事件,调用对应 agent 执行。这本质上是 skill 设计问题--6 个月前尝试过但不喜欢,现在重新发现其价值(2026-05-25)。Anthropic CFO Krishna Rao 首谈财务与算力分配:Rao 在首个播客中披露,他两年前加入时 Anthropic 年营收约 2.5 亿美元,如今 run rate 已达 300 亿美元;他负责筹集约 750 亿美元并管理 Trainium、TPU 与 GPU 的采购分配。核心议题包括平台 vs 应用战略、前沿智能的回报持续上升、模型公司的投资者误解,以及 Anthropic 内部财务团队如何使用 Claude(2026-05-13)。Claude Code 额度政策转向:Anthropic 将 Claude Code 每周限额增加 50%(持续至 7 月 13 日),但同步大幅削减 Agent SDK 构建的第三方应用额度--6 月 15 日起,OpenClaw、Codepilot 等第三方工具的额度将折算为对应金额的 API 额度,实际削减达十几倍。Matt Pocock 指出这是 "10 倍削减程序化使用 disguised as 月度奖励",标志着 Anthropic 明确区分交互式编码助手与自动化 agent 使用场景(2026-05-13)。 开发者信任危机:Theo(T3 Stack 创建者)透露团队曾投入大量精力将 Claude Agent SDK 集成进 T3 Code,因为这是 Anthropic 唯一官方支持的路径。尽管遵循了所有正确实践,用户仍遭遇 40 倍速率限制削减。Theo 表示此前信任 Anthropic 的承诺,但这次经历让他"再也不会犯这个错误",并警告在 Anthropic 做出重大改变之前,任何员工声明都可能被视为"定时谎言"(2026-05-13)。这与额度政策转向共同构成 Anthropic 在开发者关系上的张力:一边鼓励生态集成,一边收缩程序化使用的资源承诺。 Claude Code 官方 setup 插件与 Agent Manager 角色:Anthropic 发布官方插件 claude-code-setup@claude-plugins-official,扫描项目后逐步推荐并自动设置 hooks、skills、MCP servers、subagents 和 automations,解决大多数用户使用 vanilla Claude Code 的体验混乱问题(2026-05-18)。与此同时,Anthropic 新设 Agent Manager 角色,负责管理 CLAUDE.md 层级、插件市场、权限和哪些 skills 上线,回应企业推广中"模型变好但 setup 不跟进、没有人 ownership"的普遍瓶颈。这标志着 agent 工具在企业落地已从"个人尝鲜"进入"组织治理"阶段(2026-05-18)。Claude Code 5 分钟循环编排:steipete 展示了一个简单但强大的循环——让 Codex 维护代码仓库,每 5 分钟唤醒一次,通过编排技能将工作分配到线程,实现并行化和自主控制。部分工作可以在无需人工干预的情况下自动完成。回复 Matthew Berman 时建议使用 /goal 重构直到对架构满意,每步后实时测试,并在 /tmp/refactor-{projectname}.md 中跟踪进度(steipete, 2026-06-13)。Codex Chrome DevTools 集成:Codex 新增 Developer Mode 可直接控制 Chrome DevTools,实现自主网络分析、JS 逆向工程和 IndexedDB 检查。实测可逆向工程 DeepSeek 聊天记录加载逻辑,发现其使用本地 IndexedDB 缓存而非实时服务端拉取。此前需要手动 DevTools 操作,现在一句提示词即可完成整个逆向工程工作流(LinearUncle, 2026-06-13)。
  • Agent-generated quality traps:Peter Yang 指出 agent 生成的 markdown 文件看似正常,但可能包含约 10% 的 slop(错误或不准确内容),警告不要盲目接受 agent 输出而不仔细审查(2026-05-10)。Claude Code 用户反馈长时间操作(可达 3 分钟)中缺乏进度状态和透明度,可观察性仍是桌面 agent 的关键短板(2026-05-10)。
  • 跨产品统一约束层:Anthropic Engineering 于 2026 年 6 月公开其跨产品 containment 架构,核心设计包括:(1) 统一的约束层,针对不同产品表面(消费者、企业、API)管理 Claude 的能力边界;(2) 基于上下文的每产品权限模型,而非一刀切的 guardrail;(3) 产品感知的安全护栏,使同一模型在不同 surface 上给出不同响应;(4) 跨产品记忆和上下文隔离的技术实现。这验证了 Alex Albert 此前提出的「模型与 harness 耦合设计」原则,也为多 surface AI 产品的安全治理提供了可复用的架构参考(2026-06-04)。
  • Security plugin for Claude Code: Anthropic 发布 security-guidance 插件,可在编码过程中实时识别并修复漏洞,通过 /plugins 从插件市场安装。该插件通过 pre-tool hook 运行,自动拦截 Write、Edit、MultiEdit 三类操作中的安全风险,覆盖 GitHub Actions 命令注入、Node.js child_process.exec() 不安全调用、eval() 和 new Function()、前端 XSS 向量、Python pickle 反序列化、Python os.system() 命令注入等 6 大类漏洞,已有 16 万安装量。警告为 session 级别,相同问题只提醒一次。这标志着 Claude Code 从纯代码生成向全生命周期开发支持扩展,与 /simplify 技能共同构成可扩展的 AI 开发工具平台(2026-05-28; 2026-05-26)。
  • Computer Use 生产集成最佳实践(Anthropic 官方):涵盖分辨率缩放(1280×720 默认 / Opus 4.7 支持 1080p)、点击坐标回缩放、adaptive thinking 力度选择(medium 为 4.6 sweet spot)、prompt injection 三层防御(训练时鲁棒性 + 实时分类器 + 红队测试)、缓存感知滚动缓冲区(keep_n=3, interval=25)与 server-side compaction(~150k 触发)、batch tools 和 advisor tool 的实验性模式,以及 Teach Mode(录制演示作为上下文回放)。分辨率缩放将 1920×1080 截图压缩为 1280×720 后发送给模型,接收坐标后回缩放到原始分辨率执行点击,平衡 token 消耗与操作精度(2026-05-28)。
  • Grill-me / grill-with-docs 的九条常见误区:(1) 输入的 prompt 本身就是错误的;(2) 期望 agent 能自动推断个人偏好;(3) 过度依赖单次对话而非迭代;(4) 没有为 agent 提供足够的上下文;(5) 没有明确指定输出格式;(6) 把 agent 当作搜索引擎而非思考伙伴;(7) 没有验证 agent 的输出;(8) 忽略 agent 的局限性;(9) 没有在对话中建立反馈循环。这些误区反映了用户从“工具使用者”向“协作者”角色转变中的认知惯性(2026-05-28)。
  • Design system prompt art:Anthropic 设计研究发现,5 位设计师在输入第一个 prompt 前就批准了设计系统,但只有 1 位在开场 prompt 中明确命名了这些系统--而这位是唯一完成生产级交付的人。Claude 不会自动"携带"已批准的设计系统,显式命名和引用是获得一致输出的前提(contraben, 2026-05-26)。
  • Micro-macro agent engineering:blackanger 用星际争霸的 Micro(微操)和 Macro(宏观)类比 Agent 工程--新手 agent 工程师倾向于让一个 agent 完美完成 100%(micro 上瘾),而老手会让五个 agent 各自完成 70% 以保住整体推进节奏。已死掉的输出是沉没成本,接受局部损失、保证全局节奏不被打断才是可扩展的姿态(2026-05-26)。
  • Remote agent runtime:levelsio 将 Claude Code 运行在 Hetzner VPS 上,通过 SSH/Mosh/Tmux 保持永不中断的会话;代码修改直接部署在服务器,自动提交 GitHub,MacBook 只做终端显示,续航大幅提升,且可通过手机 Termius 随时继续工作(2026-05-11)。这代表 Claude Code 从本地编辑器向远程常驻 agent runtime 的演进。
  • Auto Mode permission model:Claude Code 的 Auto Mode 采用四层权限模型:allow(完全自主)、soft_deny(上下文敏感 guardrail,根据请求合理性判断允许或拒绝)、hard_deny(绝对禁止,特定操作永远不会被允许)、environment(根据当前环境动态调整权限)。soft_deny 的典型行为:说 "force-push this branch" 会被拒绝,但补充 "because CI is failing and we need to unblock the team" 后会被允许;hard_deny 则不受上下文影响,始终拒绝。这代表 agent 自主性从"全有或全无"向精细化分层控制的演进(2026-05-17)。
  • Thinking mode vs writing mode:Noah Brier 将 Claude Code 接入 Obsidian 笔记库,实践 thinking mode(思维流、不追求可读性)与 writing mode(结构化输出)分离。Claude Projects 目录成为隐性代码共享空间(tacit code sharing),手机通过 remote agent 成为深度工作终端。关键在于"你永远不应该用自己的话复述 Claude 给你的东西"--让 AI 保持生成,人类保持判断(2026-05-16)。
  • Three-body moat:Anthropic 产品营销框架 - AI 产品的护城河不是单一维度,而是数据、模型、工作流(workflow)的三体叠加。模型和训练数据相对容易被模仿,但集成到复杂工作流中的深度绑定才是最难复制的(2026-05-16)。
  • Self-review loops:steipete 创建了 codex-review skill,让 Codex /review 命令自动循环运行直到不再发现 bug,形成零人工参与的自检闭环。该 skill 已开源在 agent-scripts 仓库中。关键限制在于:这种自动化 review 无法修复系统架构层面的问题,架构设计仍需要人类判断作为"master model"。这代表 agentic coding 从"生成"走向"生成+验证"的实用模式(2026-05-13)。 Codex Windows Sandbox 安全架构:OpenAI 公开 Codex Windows Sandbox 的技术实现,解决核心矛盾:如何让编码 agent 保持有用,同时避免开发者在"不断批准提示"和"完全机器访问"之间做选择。专门构建的 Windows sandbox 在隔离性与功能性之间寻找平衡,代表了 agent 运行时安全模型从"全有或全无"转向精细化沙箱策略的重要演进(2026-05-13)。
  • Personal OS pattern:Moritz 的四层架构(folders / tools / skills / routines)将 Claude Code 变成个人操作系统:soul.md 定义人格、user.md 记录用户画像、tools.md 管理 CLI/MCP/API、memory folder 存储长期记忆,配合 nightly dreaming job 自动回顾提取;代表了 agent 从项目工具向个人生活基础设施的渗透(2026-05-11)。Codex Knowledge Vault 模式进一步提出"Context Debt"概念:每次新 chat 重新解释自己的栈和目标是一种生产力税;解法是构建 Persistent Knowledge Layer,用 AGENTS.md 作为全局变量、inbox 作为原始 RAM、notes 作为个人维基、ideas 作为原创思考层、projects 作为执行层,配合每日/每周自动审计 prompt 实现自进化(ziwenxu_, 2026-05-10)。AI 职业教练的构建实践:Katie Parrott 分享了她用 ChatGPT/Claude 项目功能搭建个人职业教练的完整方法--上传得意作品和目标岗位 JD,定义行为风格(严厉批评者、苏格拉底式追问者等),特别警惕模型的谄媚倾向并要求对模糊计划直接 push back。核心 value 不是给出神谕般的答案,而是提供一个安放思考的地方,把焦虑的循环从脑子里拿出来 laid out 成具体问题。这种"结构化自言自语"代表了 agent 从任务执行工具向认知外部化基础设施的演进(Every, 2026-05-18)。Jason Liu(Codex 团队)的 Codex-maxxing 实践将 Codex 定位为知识工作的操作系统而非仅代码工具:为每个重要工作流创建 pinned megathread 并通过 compaction 保留历史决策;语音输入提供未经编辑的思考原始版本,Steering 允许在工具调用后注入下一条指令形成队列;以 Obsidian vault 作为 agent 的显式记忆层,用 GitHub 托管使 diff 成为记忆审查面;Heartbeats 实现线程级定时自动化(如每 30 分钟检查 Slack/Gmail 未回复消息并草拟回复);Goals 要求设定可验证的成功标准(如 Rich→Rust 迁移必须通过原库全部单元测试)而非仅积累 Markdown 计划;Side Panel 不只是预览,而是 inspect artifacts、operate web surfaces、review changes 的统一工作面,使 Codex 从聊天应用变为工作发生的地方(2026-05-18)。Codex App 极致省 token 技巧:通过置顶业务线 thread、checkpoint 收尾压缩、避免巨型 thread 里的短确认、控制搜索与截图输出量,可显著降低 Codex App 的 token 消耗。这代表了在 agent 高频使用场景下,"上下文卫生习惯"与工具配置同等重要(runes_leo, 2026-05-26)。
  • Tool switching dynamics:Morgan Linton 的 16 人工程团队从 Anthropic 全面迁移到 Codex + Cursor,原因是 Anthropic 的 token 消耗对中小团队过于昂贵(约 $2000/月/工程师),而 Codex 配合 GPT 5.5 在效率和成本上更具优势;这显示模型选择正在从"能力优先"转向"能力/成本比优先"(2026-05-11)。Ben Tossell 展示了更细粒度的工具切换策略:Codex 做初始搭建和原型,Factory 做 polish/UX/测试,在 Opus 和 GPT 5.5 之间灵活切换,Pi 用于日常 brainstorming;不同工具适合不同阶段,死守一个工具是反模式(2026-05-09)。前端/设计任务的模型选择:Peter Yang 指出 Codex 在利用浏览器自测方面表现出色,但任何与设计相关的前端任务,Claude 依然是赢家--说明工具切换不仅看通用能力,还要看任务类型与模型特长的匹配(petergyang, 2026-05-26)。Plan-first coding agent workflow: 宝玉提出用好 Coding Agent 的关键在开头——不要直接让 Agent 写代码,而是先让多个 Agent(Codex、Claude Code、Cursor)分别出设计方案,人工选优后再进入执行阶段,并分阶段验收。复杂 Plan 拆分为多个 Phases,每个 phase 写明要求和验证方法,保存为 Markdown 文档,用 /goal 把 plan 文件发给 Agent 按 Phases 执行(dotey, 2026-05-29)。Every 团队的模型切换实践:Dan Shipper 在 Opus 4.8 发布后从 Codex 切换回 Claude 进行 extra-high reasoning 任务,但 Codex 仍是日常主力。Kieran Klaassen 将部分 autonomous workflow 从 GPT-5.5 high 迁移至 Opus 4.8 extra-high,因为后者"表现更好且感觉 less mechanical"。这验证了模型选择应基于任务类型(迭代速度 vs 推理深度)而非品牌忠诚(Every, 2026-05-28)。
  • Non-engineer adoption:Non-Engineer's GuideClaude CoworkUsing Claude Code on Phone 记录非传统工程背景用户如何进入 agentic software。Claude Code for PMs:Pawel Huryn 提出 5 步零代码搭建方案--安装 VS Code 扩展并登录 Anthropic 账号;在 CLAUDE.md 中写入产品战略和价值主张;连接 Notion、Linear、Slack 等工作应用;安装 pm-skills 技能包(100+ PM 技能覆盖发现、PRD、发布、OKR、复盘)。核心洞察是 PM 无需编程背景即可将 Claude Code 嵌入日常产品管理工作,关键在于把产品上下文写进项目文件而非依赖单次 prompt(PawelHuryn, 2026-05-16)。Claude Cowork 的起源与产品取舍:Claude Code 最初是终端工具,但 Anthropic 发现非工程师也在想办法使用它——数据科学家自己安装 Node.js 和 API key 做分析,甚至有人用 Claude Code 监控番茄植株并控制营养供给。Claude Cowork 仅用八九天完成,且 100% 用 Claude Code 构建。关键取舍:不能把 Claude Code 简单搬到网页里,文件系统和本地工具是核心体验,浏览器体验不够顺手(Boris Cherny, 2026-06-08)。非工程师上手的自然路径:从数据分析到用 Claude Code 种番茄,需求信号推动产品向主流人群扩展(Boris Cherny, 2026-06-08)。Razorpay Slash 企业部署数据:印度支付巨头 Razorpay 的内部 AI 助手 Slash 通过 Slack 集成,六周内从 122 任务/周增长到 14,854 任务/周,45% 的 PR 零人工返工,2,150 个 PR 被提出,1,152 个被合并。250+ 非工程师上周运行数千次 session(占 11%),PM 用于支付基础设施研究、客户访谈和产品功能。安全团队通过 Slash 在组织规模上运行静态安全测试和修复,数千个发现被清除。这提供了企业级 agent 部署迄今最完整的量化证据:工程师提交 11+ Slash PR 的平均合并率 63% 无返工,新手平均 37%;人工 review 评论下降超 40%(shashank_kr, 2026-05-18)。
  • Feature flag 与 agent 增量交付:mattpocockuk 提出 feature flagging 作为替代 PR 的工作流--先合到 main 但禁用,逐步向选定用户开放,修复 bug 后再扩大范围,与 agent 的增量交付模式天然契合。agent 可以快速生成 flag 包裹的代码,逐步验证和迭代,降低每次变更的风险。这代表 agent 时代软件交付从"批量 PR 审查"向"持续灰度验证"的范式转移(2026-05-18)。
  • LLM wiki and personal knowledge:LLM Wiki PatternClaude + ObsidianExecutive Second Brain 是本 vault 方法论的直接来源。
  • Large codebase deployment patterns:Claude Code 通过 agentic search(实时遍历文件系统、grep、跟随引用)而非 RAG 来导航大型代码库,避免了嵌入管道滞后的问题。成功的规模化部署依赖三个配置模式:1)让代码库对 Claude 可导航(lean 分层的 CLAUDE.md、子目录初始化、按目录限定测试命令、.ignore 排除生成文件、LSP 符号级搜索);2)主动维护 CLAUDE.md 随模型能力进化(每 3-6 个月审查一次,移除过时的补偿性规则);3)指定 Claude Code 管理的 ownership(DX 团队预建基础设施、Agent Manager 角色负责配置和治理)(2026-05-14)。
  • Build tools to build more:Ben Tossell 在撰写 agents manual 的过程中,用 Codex 快速搭建了一个专用文本编辑工具(非通用编辑器),用于在构建内容时直接评论/删除文案,然后复制成整块作为 agent feedback。这体现了 AI 时代的默认工作模式:识别反复出现的摩擦点,用 agent 快速搭建专用小工具,而非寻找通用解决方案。核心洞察来自 Rick Rubin 的 "lazy workaholic" 概念——必须投入时间在作品中,即使感觉没有进展,直到 "suddenly things click"(Ben's Bites, 2026-06-04)。
  • Claude Code 2.1.172 发布(2026-06-10):子代理可生成嵌套子代理(最多 5 层),1M 上下文会话在无使用额度时自动压缩回标准限制,市场插件浏览器新增搜索栏。这代表多代理编排和上下文管理正从实验功能变为生产级原语(ClaudeCodeLog, 2026-06-10)。
  • Fable 5 的工厂隐喻:clairevo 提出使用 Fable 的正确方式是「把高级员工放进后屋几天」——给它一个技术债务或性能优化难题,让它自主运行数小时后秘密修复所有问题,应用变得飞速且无 bug。关键是不要让它参加会议,也不要让人读它的文档。这与 Mitchell Hashimoto 的观察一致:Fable 适合「后台运行数小时的深度优化」,不适合交互式日常开发(mitchellh, 2026-06-10; clairevo, 2026-06-10)。
  • Fable 5 作为规划者/编排器而非编码工具:skirano 提出 Fable 的优势在于规划和编排,而非原始实现。最佳实践是将实现委托给 Codex/Sonnet 等模型,再由 Fable 审查输出质量。这已成为作者发现的最强大模式(skirano, 2026-06-13)。
  • Codex Chrome DevTools 集成:Codex 新增 Developer Mode 可直接控制 Chrome DevTools,实现自主网络分析、JS 逆向工程和 IndexedDB 检查。实测可逆向工程 DeepSeek 聊天记录加载逻辑,发现其使用本地 IndexedDB 缓存而非实时服务端拉取。此前需要手动 DevTools 操作,现在一句提示词即可完成整个逆向工程工作流(LinearUncle, 2026-06-13)。
  • Claude Code 5 分钟循环编排:steipete 展示了一个简单但强大的循环——让 Codex 维护代码仓库,每 5 分钟唤醒一次,通过编排技能将工作分配到线程,实现并行化和自主控制。部分工作可以在无需人工干预的情况下自动完成。回复 Matthew Berman 时建议使用 /goal 重构直到对架构满意,每步后实时测试,并在 /tmp/refactor-{projectname}.md 中跟踪进度(steipete, 2026-06-13)。
  • Claude Design 最佳实践:宝玉系统总结了 Claude Design 的使用经验——(1) 加上 Design System(如 Adobe Spectrum 2)避免 AI 感设计;(2) 不要指望一次性完美,先搭架子再逐步调整;(3) 多用 Markup 局部修改;(4) 注意上下文管理,新任务创建新会话;(5) 用 Tweaks 尝试不同风格和导航。设计结果(HTML+CSS+React+data.js)是文本格式,可用 git 版本管理,用 git diff 跟踪变更。好的同步流程是单向的:Claude Design -> Code(dotey, 2026-06-10)。
  • Codex 浏览器双模式对比:Chrome 插件模式继承所有 Cookie、会话和扩展,适合内部工具和付费内容,但内存/CPU 占用高;内置浏览器是沙盒环境,轻量且快速,适合公开页面抓取和本地开发服务器调试。标注模式允许用户在渲染页面上点击元素并编写指令,Codex 直接执行。开发者模式支持性能分析、网络请求捕获和内置浏览器的控制台输出(dotey, 2026-06-14)。
  • Codex 为何没有 Claude Design 等价物:不是因为 harness 复杂,而是因为 GPT-5.5 的模型能力尚不足以支撑交互原型所需的系统架构与 UI/UX 设计。Claude Design 的 harness 已被逆向工程并复现(baoyu-design skill),但真正的挑战在于模型在渲染 UI 之前设计数据结构和状态管理的能力。Claude Opus 4.8 能交付流畅、保持状态的交互原型;GPT-5.5 的迭代常导致侧边栏、点赞和导航状态失效(dotey, 2026-06-14)。
  • Karpathy LLM-Wiki 模式实现为 Claude Code 插件:Andrej Karpathy 提出的让 LLM 维护个人笔记 Wiki 的想法已被实现为免费的 Claude Code 插件 claude-obsidian,将 Obsidian 笔记库转变为可查询、自我丰富的知识库。安装后,在 Claude Code 中输入 /wiki 即可让笔记可被 Claude 查询,每次阅读新内容时笔记都会通过自动链接和归档变得更加丰富(Av1dlive, 2026-06-14)。
  • Claude Code 逆向工程论文:UCL 研究人员逆向工程了泄露的 Claude Code 源码,发现只有 1.6% 是 AI 决策逻辑,98.4% 是运营基础设施。核心循环是一个简单的 while-true:调用模型、运行工具、重复。Harness 包含 7 模式权限系统(带 ML 分类器)、5 层上下文压缩管道,以及按上下文成本排序的四种扩展机制。子 Agent 仅向父 Agent 返回摘要文本,完整记录存储在侧链文件中;Agent 团队的成本约为标准会话的 7 倍 Token。恢复会话不会还原会话级权限,每次会话都需重新建立信任,这是设计上的有意为之(DailyDoseOfDS_, 2026-06-14)。

Main Tensions

  • Model capability vs harness discipline:模型越强,越容易误以为 prompt 就够了;但可复用、安全、可恢复的工作仍依赖项目文件、技能、权限和日志。
  • Local autonomy vs approval boundaries:YOLO/auto mode 能提高吞吐,但 destructive action、凭证、外部发布仍需要明确审批层。
  • Tool lock-in vs portable agent practice:Claude Code 的记忆、skills、hooks 带来锁定效应;Portable Agents 和 AGENTS.md 模式试图降低迁移成本。
  • Human taste vs agent execution:AI 可以完成更多执行,但产品判断、审美边界、取舍仍需要人类维护。
  • Context richness vs context rot:把所有历史都塞给 agent 会提高召回,也会引入过期偏好、错误记忆和冲突信号。

Current Judgments

  • Claude Code 的长期价值不在"会写代码",而在它把项目目录变成 agent 可读、可改、可审查的工作空间。
  • Skills 是比单次 prompt 更稳定的复用单位,但只有在触发条件、输入输出和验证方式明确时才值得沉淀。Skill files 还在进化成"品味容器"--可继承的审美和风格规则。
  • CLAUDE.md / AGENTS.md / project memory 的关键作用是约束判断,而不是堆背景资料。
  • 桌面 agent 的下一个竞争点是可观察性、恢复、并行和权限,而不是单纯模型分数。
  • 非工程师能否受益,取决于系统是否能把需求澄清、计划、执行和 review 拆成可检查阶段。

To Read / To Verify

Output Directions

  • 写一篇"Claude Code 不是编辑器,而是本地 agent runtime"的解释稿。
  • 做一个"CLAUDE.md / skills / MCP / hooks / automations 分工表"。
  • 输出非工程师使用 Claude Code 的 onboarding checklist。
  • 写一篇关于"project files as agent control plane"的方法论文章。
  • 从本 vault 的实践中总结一套可复制的 personal agent workspace 模板。

Architecture and Runtime

Skills and Project Instructions

Context, Memory, and Knowledge

Workflows and Orchestration

Product and Adoption Cases

Sources

Synthesized from 32 sources
  • A_Harness_for_Every_Task_Dynamic_Workflows_in_Claude_Code_BilingualSupporting source listed by this page.Whole pagemediumabsorb log
  • Claude比你更懂你的需求?Anthropic工程师公开内部用法:用HTML作为AI规范,反而比Markdown更省Token;让"验证"成为Agent的原生特性Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-04-29-18-06Supporting source listed by this page.Whole pagemediumabsorb log
  • You Don’t Know AI Coding A Non-Engineer’s Guide to Claude CodeSupporting source listed by this page.Whole pagemediumabsorb log
  • 2026-05-01 Claude Code for Product ManagersSupporting source listed by this page.Whole pagemediumabsorb log
  • Claude Code's Limits Are Generous. The Problem Is Your Harness.Supporting source listed by this page.Whole pagemediumabsorb log
  • Anthropic 最新博客:MCP 没死,它又来了Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-05-11 Elon doubled limitsSupporting source listed by this page.Whole pagemediumabsorb log
  • 2026-05-13 Learn the systemSupporting source listed by this page.Whole pagemediumabsorb log
  • 2026-05-14-18-40Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-05-14 Codex Rises, Claude Meters Programmatic UsageSupporting source listed by this page.Whole pagemediumabsorb log
  • 2026-05-14 Agents feedback tipSupporting source listed by this page.Whole pagemediumabsorb log
  • 9 Things People Get Wrong With grill-me and grill-with-docsSupporting source listed by this page.Whole pagemediumabsorb log
  • Claude Code 工程师:为什么使用HTML文件作为AI规范丨How I AISupporting source listed by this page.Whole pagemediumabsorb log
  • Claude Code 进阶指南Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-02-09-34Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-04-18-13Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-04 Build tools to build moreSupporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-05-18-12Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-07-15-28Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-07-15-43Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-07Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-07-16-04Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-07-18-09Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-08-09-45Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-09-00-23Supporting source listed by this page.Whole pagemediumabsorb log
  • Loop-Engineering-Addy-OsmaniSupporting source listed by this page.Whole pagemediumabsorb log
  • Loop-Engineering-实战指南-自动生成PromptSupporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-11-08-45Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-13-08-50Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-13-23-47Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-14-08-44Supporting source listed by this page.Whole pagemediumabsorb log

Evolution

1 event
  1. absorbed

    Derived from source material

    This page is currently synthesized from 32 sources.

    From A_Harness_for_Every_Task_Dynamic_Workflows_in_Claude_Code_Bilingual, Claude比你更懂你的需求?Anthropic工程师公开内部用法:用HTML作为AI规范,反而比Markdown更省Token;让"验证"成为Agent的原生特性, 2026-04-29-18-06, You Don’t Know AI Coding A Non-Engineer’s Guide to Claude Code, 2026-05-01 Claude Code for Product ManagersTo Claude Code — Overview
    Sources: raw/to-learn/A_Harness_for_Every_Task_Dynamic_Workflows_in_Claude_Code_Bilingual.md · raw/to-learn/Claude比你更懂你的需求?Anthropic工程师公开内部用法:用HTML作为AI规范,反而比Markdown更省Token;让"验证"成为Agent的原生特性.md · raw/briefing/AI Briefing/2026-04-29-18-06.md · raw/to-learn/You Don’t Know AI Coding A Non-Engineer’s Guide to Claude Code.md · raw/newsletters/Every/2026-05-01 Claude Code for Product Managers.md · raw/to-learn/Claude Code's Limits Are Generous. The Problem Is Your Harness..md · raw/to-learn/Anthropic 最新博客:MCP 没死,它又来了.md · raw/newsletters/Ben's Bites/2026-05-11 Elon doubled limits.md · raw/newsletters/Ben's Bites/2026-05-13 Learn the system.md · /Users/jean/Documents/Obsidian Vault/raw/briefing/AI Briefing/2026-05-14-18-40.md · /Users/jean/Documents/Obsidian Vault/raw/newsletters/AINews/2026-05-14 Codex Rises, Claude Meters Programmatic Usage.md · /Users/jean/Documents/Obsidian Vault/raw/newsletters/Ben's Bites/2026-05-14 Agents feedback tip.md · raw/to-learn/9 Things People Get Wrong With grill-me and grill-with-docs.md · raw/to-learn/Claude Code 工程师:为什么使用HTML文件作为AI规范丨How I AI.md · raw/to-learn/Claude Code 进阶指南.md · raw/briefing/AI Briefing/2026-06-02-09-34.md · raw/briefing/AI Briefing/2026-06-04-18-13.md · /Users/jean/Documents/Obsidian Vault/raw/newsletters/Ben's Bites/2026-06-04 Build tools to build more.md · raw/briefing/AI Briefing/2026-06-05-18-12.md · raw/briefing/AI Briefing/2026-06-07-15-28.md · raw/briefing/AI Briefing/2026-06-07-15-43.md · raw/briefing/AI Builders Digest/2026-06-07.md · raw/briefing/AI Briefing/2026-06-07-16-04.md · /Users/jean/Documents/Obsidian Vault/raw/briefing/AI Briefing/2026-06-07-18-09.md · raw/briefing/AI Briefing/2026-06-08-09-45.md · raw/briefing/AI Briefing/2026-06-09-00-23.md · raw/to-learn/Loop-Engineering-Addy-Osmani.md · raw/to-learn/Loop-Engineering-实战指南-自动生成Prompt.md · raw/briefing/AI Briefing/2026-06-11-08-45.md · raw/briefing/AI Briefing/2026-06-13-08-50.md · raw/briefing/AI Briefing/2026-06-13-23-47.md · raw/briefing/AI Briefing/2026-06-14-08-44.md

Linked from