Back/claude code

Claude Code — Overview

Updated 2026-04-21
15 min read
3,660 words

Claude Code — Overview

Claude Code 本质上是一个 Claude Agent,不只是编程工具。它是一个可定制的 agentic 系统,primitives 允许构建任意工作流。

"Claude Code is really just a customizable agentic system... While it's disguised as a coding tool, its primitives allow you to build flexible workflows for any task." — McKay Wrigley

架构本质

Claude Code 是 harness-engineering/overview 的一个具体实现:

  • 模型层:claude-sonnet / claude-opus 等
  • Harness 层:Claude Code 本身(bash + text editor 工具、agent 循环)
  • Context 层:CLAUDE.md、/skills、mcp.json

完整架构拆解见 Claude Code 源码级架构拆解

核心工具只有两个:bash 工具 + 文本编辑器工具。所有复杂能力(skills、programmatic tool calling、memory tool)都是这两个工具的组合衍生。

三个关键模式(Anthropic 官方)

来源:Lance Martin,Anthropic

  1. 善用 Claude 已知的技能 — 使用 Claude 深谙的工具(bash、text editor),而非为它构建陌生的专用工具
  2. 思考"我可以放手不管什么" — 让 Claude 自主编排工具调用,让 Claude 管理自己的上下文
  3. 谨慎设定 Harness 的边界 — 随着 Claude 能力进化,定期重新检验 Harness 中的陈旧假设

商业数据(2026-04)

指标 数值 时间
ARR $2.5B 2026-02
GitHub 公开提交占比 4% 当前
GitHub 公开提交占比(预测) 20%+ 年底
企业订阅增长 4x 2026-01 以来

一个 11 个月前还不存在的产品,现在产生的收入超过大多数上市 SaaS 公司。

Claude Managed Agents

2026-04 发布的托管代理平台:

  • 定价:$0.08/智能体会话/小时 + 常规 AI 使用费
  • 早期采用者:Notion、Rakuten、Asana、Sentry
  • 案例:Notion 使用托管代理构建"委派任务给 Claude"功能
  • 特点:智能体可独立工作数小时不丢失状态,支持协调模式(一个智能体分配子任务给其他智能体)

Skills 生态

见 技能生态

Claude Code 的 skills 系统是 Context 层的核心。CLAUDE.md 是 schema,skills 是可复用的工作流模块。

2026 年重要事件

  • 2026-04:Claude Managed Agents 公开测试版发布
  • 2026-04-01:Claude Code 源码意外泄露(人为错误,非 hack)。泄露内容包括:完整架构、内部 prompts、agent 工作流、工具使用、权限系统、未发布功能(proactive 模式、/buddy 伴侣、background daemons 等)
  • 泄露后 Anthropic 发送 DMCA 通知,但部分开发者已将代码移植到 Python 和 Rust

Counterpoints & Gaps

  • 随着 Claude 能力提升,Harness 中的假设会过时,需要定期重新检验
  • 模型能力已趋近商品化,真正拉开差距的是 Harness 设计(Sebastian Raschka 的观点)
  • 平台化风险:Managed Agents 是否会让开发者过度依赖 Anthropic 基础设施?

Model Releases

Claude Opus 4.7

发布日期:2026-04-16/17 定价:$5 / $25(每百万输入/输出 token),与 Opus 4.6 持平 关联ai-ecosystem/anthropic-mythosclaude-code/session-management-guide


性能跃升框架

Opus 4.7 引入了正式的五级努力体系,且每级均严格优于 4.6 的对应等级:

努力等级 4.7 vs 4.6
4.7-low > 4.6-medium
4.7-medium > 4.6-high
4.7-high > 4.6-max
xhigh(新增) Claude Code 默认
max

Claude Code 的 day-one 更新:默认努力等级提升至 xhigh(介于 high 和 max 之间),Cat Wu(Anthropic)确认。


完整 Benchmark 数据

基准测试 Opus 4.7 vs Opus 4.6 备注
SWE-bench Pro 64.3% +11 pts(4.6 为 53.4%) 仍低于 Mythos 77.8%
SWE-bench Verified 87.6% +7 pts
TerminalBench 2.0 69.4% +4 pts
Document Reasoning 80.6% +23.5 pts(↑ 从 57.1%) 最大单项提升
GDPval-AA 1753 Elo 新 #1 ~60% 对 GPT-5.4 胜率
ARC-AGI-1 92%
ARC-AGI-2 75.83%
Graphwalks(长上下文) 58.6% +19.9 pts(↑ 从 38.7%) 替代 MRCR 的新基准
Vibe Code Benchmark 71% 新 #1 该 benchmark 建立时最强模型仅 25%
Vals Index 71.4% 新 #1(↑ 从前最高 67.7%)

Vals AI 总结:Opus 4.7 同时登顶 Vals Index、Vibe Code Bench、Vals Multimodal、Finance Agent、Mortgage Tax、SAGE、SWE-Bench 和 Terminal Bench 2。


三大行为改进(官方定位)

  1. 更强的长时间运行任务处理能力 — 与 xhigh 努力等级相辅相成
  2. 更精确的指令遵循 — Jeremy Howard (@jeremyphoward) 称这是"第一个真正理解我意图"的模型
  3. 更强的自我验证 — 回复前的自检能力,与 harness-engineering/self-verification-loops 方向一致

视觉能力重大突破

最长边支持 2,576 像素(约 3.75 百万像素),是前代 Claude 模型的 3 倍以上。 Alex Albert(Anthropic):"不再对高分辨率图像进行降采样"

LlamaIndex ParseBench 评估

维度 Opus 4.6 Opus 4.7 变化
图表解析 13.5% 55.8% +42.3 pts(最大跃升)
格式化 64.2% 69.4% +5.2 pts
内容忠实度 89.7% 90.3% +0.6 pts
表格处理 86.5% 87.2% +0.7 pts
布局 16.5% 14.0% -2.5 pts(倒退)

成本权衡(Jerry Liu,LlamaIndex CEO):

  • Opus 4.7:约 7¢/页
  • LlamaIndex agentic 模式:约 1.25¢/页
  • 成本优先模式:约 0.4¢/页

结论:企业文档管道可能在成本/性能权衡下仍选择专门化技术栈。


Tokenizer 架构争议

新 Tokenizer(与 4.6 不同)引发三种解读:

  1. 全新基础模型(@natolambert):tokenizer 更换 = 新预训练
  2. Mythos 蒸馏版(@eliebakouch):能力来源于 ai-ecosystem/anthropic-mythos 的知识蒸馏
  3. Mythos 中间训练桥接(@stochasticchasm, @maximelabonne)

Token 经济学:新 tokenizer 导致同等输入产生 1.0–1.35x 更多 token,但推理效率提升使总体 token 消耗可降低最多 50%。Boris Cherny(Anthropic)宣布已提高所有订阅者的用量上限以补偿。


Claude Code 配套更新

  • xhigh 努力等级(Cat Wu 确认,Claude Code 默认)
  • Task Budgets(公测)
  • /ultrareview 命令:自动标记代码中的 Bug 和设计问题
  • Claude Code Max 用户:获得更广泛的 Auto 模式访问权限

Cat Wu 官方使用建议(三条核心原则):

  1. 委托,而非微管理:像对待信任的工程师一样对待 Claude Code
  2. 前置完整目标:在开始时提供完整目标 + 约束条件 + 验收标准
  3. 编码验证流程:告知模型如何验证变更,将测试工作流写入 claude.md 或技能文件

社区争议

  • MRCR 倒退:多位用户指出 Opus 4.7 在 MRCR(长上下文针-干草堆类型)评估中表现倒退。Boris Cherny 回应:MRCR 正被逐步淘汰,Graphwalks 是更好的应用推理信号(38.7% → 58.6%)。
  • 系统提示阉割(@theo):对比 API 直调与官方 Claude.ai,认为新系统提示限制了模型,建议在"无阉割系统提示"下尝试
  • Mythos 差距仍大:SWE-bench Pro Opus 4.7 = 64.3%,Mythos = 77.8%,公众可获取模型与真正技术前沿之间的差距依然显著

系统提示词变更(Simon Willison 完整 Diff)

来源:AI 简报 2026-04-19 — 深度文章 #7

Anthropic 公开系统提示词的传统让我们可以精确 diff 每个版本的行为变化。4.7 的关键变化:

Conversation Style
  • 不再那么 pushy:如果用户表示想结束对话,Claude 不会挽留
  • 新增 <acting_vs_clarifying> 段落:"当请求留下 minor details 未指定时,用户通常希望 Claude 现在就做合理尝试,而不是先采访用户"
  • 在声称"我没有 X 功能"之前,必须先调用 tool_search 确认没有匹配工具
Brevity
  • 新增要求:"保持回复聚焦和简洁,避免潜在地压倒用户"
Removed Restrictions
  • 不再禁止 "genuinely"、"honestly"、"straightforward" 或星号表情
Safety Updates
  • Child Safety:拒绝后的后续请求必须"极度谨慎"处理
  • Health Guardrail:新增饮食失调防护——不应给出精确的营养/饮食/运动指导
  • Evenhandedness:可以拒绝 yes/no 要求的简单回答,转而给出细致回答
对现有工作流的影响
  • 如果应用依赖 Claude 的详细解释行为,注意 4.7 倾向于更简洁,可能需要显式要求"详细解释"
  • 升级后检查现有 prompt 是否与新系统提示冲突(尤其是 brevity 和 acting_vs_clarifying 规则)

Counterpoints & Gaps

  • 用户报告两极分化:部分用户反映 4.6 版本已有性能下滑,对 4.7 早期评价不一致,说明 benchmark 不能完全代表真实用户体验
  • 安全训练的代价:系统卡承认在训练中"差异性降低"了网络安全能力,但 Opus 4.7 在部分漏洞利用评估中仍高于 4.6——安全与能力之间的取舍不是线性的
  • 成本效益不明朗:新 tokenizer 导致 token 数增加,但推理效率提升——净效果因任务类型而异,用户需自行测试
  • Cursor 内部数据的边界:Cursor benchmark 从 58% → 70%,但这是 Cursor 自己的 benchmark,方法论未公开

用户体验实测(Every 团队,2026-04-17)

来源:2026-04-19 Vibe Check Opus 4.7 Stopped Reading Between the Lines

核心发现:字面化转变

4.7 更精确、更字面化——在明确指令下表现出色,但不再像 4.6 那样主动"脑补"用户意图。提示词质量决定了你能从 4.7 获得多少价值

团队成员评价
成员 角色 评价
Dan Shipper CEO "打破了很多现有提示词,初始体验并不明显令人惊叹。因为它比之前的 Claude 模型更字面化,情感智能似乎更低。但我怀疑它有我们只有在未来几周几个月才能真正理解的能力。"
Kieran Klaassen Rails 工程师 "在复合工程工作流中感觉是真正的能力提升。你必须深入才能真正发现它的能力——它更谨慎,但当你推动它时,它走得更深。"
Mike Taylor 技术咨询 "是我在 LLM 中见过的最好的 PowerPoint。对于写作,是第一个让我读到草稿时想'该死,这比我写的还好'的模型。但它在认为自己能做得更好的地方会令人担忧地偏离品牌风格。"
Brandon Gell COO "我依赖 Claude 的是它会注意到我没有要求它注意的事情。4.6 发现了我们损益表中的一个数据错误。今天下午我在 4.7 上运行了同样的分析,它返回了一个干净、正确的摘要,遗漏了 4.6 会标记的东西。数字是对的,但直觉不在了。目前,我让 4.6 继续坐在驾驶座上。"
Katie Parrott 作者 "对于写作,4.7 对我来说有点太慢、太规范,不适合作为日常驱动——我转向 Sonnet。但在非写作任务如数据分析和自动化构建上,我印象深刻。"
钟摆规律(Alex Albert 揭示)

Anthropic 过去一年的模型调校模式——在"太主动"和"太保守"之间来回摆动:

  • Sonnet 3.7(2025-03):太急切
  • Opus 4(2025-05):被收紧
  • Opus 4.6(2026-02):做得太多
  • Opus 4.7(2026-04):再次被收紧

Alex Albert 称之为"永恒的来回"(perpetual back-and-forth)。4.6 在代表用户做了大量提示工程,4.7 不再这样做——过去两个月为 4.6 调优的提示词,在 4.7 上很可能会给出令人失望的结果。

关键能力权衡

4.7 获得:精确执行、自我验证内置、长任务连贯性、视觉处理 4.7 失去:主动发现用户未要求的问题("直觉")

COO 案例是最清晰的证据:4.7 在没有被要求的情况下,不会主动发现财务数据异常。这对依赖 AI "主动发现"的工作流是真实的能力退步。

提示词迁移建议

重写旧提示词的标准:

  1. 添加明确的验收标准("输出必须包含 X、Y、Z")
  2. 添加明确的约束("不要做 A、B、C")
  3. 添加明确的格式要求
  4. 对依赖"主动发现"的任务,暂时保留 4.6

4.7 迁移实战指南(10 条)

来源:Anthropic 官方迁移指南 + Boris Cherny dogfooding tips + 100+ 开发者 X 讨论,2026-04-18

核心转变:4.6 会猜测并跳过它不理解的内容,4.7 停止猜测。 清晰意图得到奖励,模糊指令按字面执行。

# 原则 操作
01 第一轮前置意图 在 turn 1 说明你在构建什么、为什么、好的结果是什么。4.7 奖励上下文,不奖励跨轮次的滴灌式指令。
02 中途切换努力等级 难的部分用 max,其余用 high。努力等级不是会话级设置。
03 默认用 xlhigh 新增等级,介于 highmax 之间,适合大多数编码和 agentic 工作。max 会过度思考。
04 回归测试旧提示词 新 tokenizer 导致同等输入产生 1.0–1.35x 更多 token,4.6 工作流字面上成本更高且解释方式不同。切换生产前重新基准测试。
05 批量提问,停止滴灌 每个用户轮次增加推理开销。一次性提出所有问题,一次性提供完整上下文。渐进式提示是现在最贵的工作方式。
06 展示你想要的风格 正面示例胜过负面规则。"像这样 →" 有效。"不要这样做" 浪费 token 且很少奏效。展示目标,模型推断约束。
07 删除旧的进度脚手架 4.7 原生提供定期高质量更新。旧的"每 3 步总结一次"提示词现在弊大于利。删除脚手架,模型已内置。
08 显式要求并行展开 4.7 默认生成更少子代理。并行工作需明确说 "在同一轮次生成子代理",它不会自动执行。自主性提升,默认委派降低。
09 审查计划而非 diff Plan mode 在代码存在之前就能暴露意图误读。事后审查 diff 是低杠杆。在计划阶段捕获漂移。
10 使用自适应思考 固定思考预算已废弃。使用 thinking: {type: 'adaptive'} + effort 替代。旧 API 合约不再存在。自适应思考在 4.7 上默认关闭,需显式开启。

未覆盖:任务预算、高分辨率视觉、temperature/prefill 移除。完整迁移深度解析见 Claude Opus 4.7 迁移实战指南 与 productcompass.pm(2026-04-18)。


2026-04-21 社区动态更新

来源:AI 简报 2026-04-21

Constitution 与系统层张力(Moll / @Moleh1ll):

  • 4.7 的"固执"行为源于 Constitution 的哲学留白与 operational system layer 的确定性需求之间的冲突
  • 4.6 会默默执行任务(如转换 PDF),4.7 会拒绝并让你澄清真实意图——这不是退化,是更好的对齐
  • 对 coding agent 工作流的影响:4.7 更愿意质疑需求而非无脑执行,需要更详细的 context 和 intent 说明

企业级代码质量警告(Dave Kennedy / @HackingDave):

  • 4.7 在重量级企业开发中引入大量 bug 和安全问题,代码质量比 4.5/4.6 显著下降
  • Boris Cherny 回应:近期 harness 变更是根源,最新版本已修复最后一个已知问题
  • 建议:企业用户保持更新到最新版本,建立内部 eval 监控代码质量

Live Artifacts 上线(Felix Rieseberg / Anthropic):

  • Claude Cowork 新增 Live Artifacts 功能,可创建连接应用和文件的实时仪表盘
  • 数据通过 Connectors 自动刷新,所有构建内容保存到 Live Artifacts 标签页并保留版本历史
  • 已面向所有付费计划开放

Codex Chronicle Memory(归藏 / @op7418):

  • Codex 新增 Chronicle 记忆功能,通过自动持续截屏获取上下文记忆
  • 截图本地存储,无需用户主动交代背景,Pro 用户可用

Sonnet 4.6 评测

来源:Every Newsletter,2026-02-18

核心论点

Sonnet 4.6 打破了传统关系:历史上,Sonnet 一直是 Opus 的"平价快速版"。Sonnet 4.6 的发布改变了这一格局——Anthropic 声称你不再需要做任何牺牲,只需支付更少的钱。

价格对比

模型 输入价格 输出价格 相对成本
Sonnet 4.6 $3/M tokens $15/M tokens 基准
Opus 4.6 ~$6/M tokens ~$30/M tokens 2x
GPT-5.2 $1.75/M tokens $14/M tokens 略低

真实成本案例

Every 的 AI 写作工具 Spiral:

  • 原本运行在 Opus 上
  • 每天 token 费用高达约 $1,000
  • 切换到 Sonnet 4.6 后,成本直接减半
  • 无需改动任何代码

专家评分(红绿灯机制)

Dan Shipper(Every CEO):🟨 黄色

"对于你正在构建的产品,绿灯。对于我自己的日常工作,黄灯。如果你之前因为成本问题无法在 Opus 上构建应用,现在障碍消除了。对于编程和复杂任务,只要我负担得起 Opus 和 5.3 Codex,我可能还是会坚持用它们。"

Kieran Klaassen(Cora 总经理):🟨 黄色

"非常好用,对很多人来说应该是默认选择。但当它在某个 Opus 一击即中的问题上卡住时,我很沮丧。任何让我沮丧的模型都不适合我的个人工作流——但对于生产环境来说,这确实是扎实的选择。"

表现亮点

在以下任务中表现良好:

  • 编程任务
  • Pull Request 分类
  • 头脑风暴
  • 复杂的损益表重组(P&L restructuring)

能够:

  • 保持思路连贯
  • 执行多步骤指令
  • 不会犯 Sonnet 4.5 时代那种中途失误的低级错误

仍需改进之处

1. 速度未能提升
  • 按照惯例,新版 Sonnet 应该比 Opus 明显更快
  • 但 Sonnet 4.6 的速度感受与 Opus 几乎相同
  • 如果你指望更快的速度来加速迭代密集型工作流,这一点令人失望
2. 压力下的不稳定行为

Dan 的案例:

  • 要求它规划一次主页重新设计
  • 模型正确地询问了工作树的名称
  • 然后立刻开始重写主页,完全无视自己刚才的问题

评价: "它既过于谨慎,又过于急切。"

应用建议

立即可执行的行动步骤
场景 建议
成本敏感的应用 立即测试切换到 Sonnet 4.6,对比输出质量和成本
生产环境 Sonnet 4.6 是扎实的默认选择
个人高强度工作 如果负担得起,仍可坚持使用 Opus 和 5.3 Codex
复杂多步骤任务 注意不稳定行为,需要额外的验证步骤
核心洞察

Sonnet 4.6 代表了 AI 模型发展的一个重要转折点:

  • 不再需要在成本和质量之间做出明显的权衡
  • 之前因为成本问题无法在 Opus 上构建的应用,现在可以用 Sonnet 4.6 实现
  • 这降低了 AI 原生应用的准入门槛

Sonnet 4.6 平台风险

Anthropic 开发者政策的"戏剧性"反转:

时间 立场
一月份 告知开发者:基于 Agent SDK 构建应用并使用 Claude 订阅是被允许的
随后 悄悄更新文档,表示相反的立场
此后 拒绝给出明确答复,尤其是"开源应用是否可以让用户自带订阅"

OpenAI 明确允许第三方通过 ChatGPT OAuth 使用 Codex,而 Anthropic 的不透明政策正在为依赖其平台的开发者制造真实的不确定性。

深层风险:订阅价格与 API 价格相差 15 倍时,"用户自带订阅"本质是套利行为,平台迟早会收紧。所有在 AI 平台"灰色地带"上构建商业模式的产品,都面临随时被政策调整清零的风险。

构建建议:优先选择有明确开发者政策保障的平台;将核心价值放在应用层;保持多平台支持能力。


Product Updates

Computer Use Windows

发布信息

Claude 的 Computer Use 功能现已支持 Windows 平台。

覆盖产品

  • Claude Cowork
  • Claude Code Desktop

背景

Computer Use 是 Claude 的重要功能,允许 AI:

  • 查看屏幕
  • 操作鼠标和键盘
  • 执行计算机任务

此前已支持 macOS,现在扩展到 Windows,覆盖更广泛的用户群体。

Sources


Claude Design

发布日期:2026-04-17(研究预览版) 驱动模型:Claude Opus 4.7 关联ai-ecosystem/anthropic-mythosproduct-trends/living-software-framework


产品定位

Claude Design 是 Anthropic 首个设计/原型制作产品,支持从自然语言指令生成原型、幻灯片和单页文档。发布后 Figma 股价出现明显下跌,市场将其视为对 Figma、Lovable、Bolt、v0 的直接挑战。


核心功能

功能 描述
自然语言生成原型 从文字描述直接生成可交互原型
幻灯片生成 生成演示文稿
单页文档 生成结构化单页内容
内联精修 在生成结果上直接修改
滑块调节 可视化参数调整
导出 支持 Canva / PPTX / PDF / HTML
移交 Claude Code 将设计稿直接交给 Claude Code Desktop 实现

市场反应

  • Figma 股价在发布当日出现明显下跌
  • @theo 报告了产品稳定性问题和账号级安全问题(首日 bug,已修复)
  • @Yuchenj_UW、@kimmonismus、@skirano 均将其定性为对设计工具市场的直接冲击
  • AINews 将其列为 2026-04-17 当日最大纯 AI 产品发布信号

战略意义

Anthropic 从聊天/编码工具扩展到设计工具,标志着 AI 公司开始全面渗透创意工作流。Claude Design 与 Claude Code 的"移交"功能形成完整的设计→实现闭环,这是 Figma 等传统工具难以复制的优势。

与竞品的差异

  • vs Figma:AI 原生生成,无需手动拖拽
  • vs Lovable/Bolt/v0:直接由 Anthropic 出品,与 Claude Code 深度集成
  • 核心护城河:设计→代码的无缝移交,由同一家公司的两个产品完成

实战工作流(社区验证)

来源:AI 简报 2026-04-19

设计系统注入(Vox 技巧)

方法:写 prompt 时 attach 设计 repo(如 awesome-design-md)作为 context
效果:输出质量天差地别。Repo 里有 68 个品牌的设计系统(Stripe、Linear、Airbnb、Apple、Notion、Figma、Vercel、Tesla)

关键洞察:模型不是在"参考"设计系统,而是在接受"约束"——没有约束时,模型默认输出 decent-looking AI slop。

Landing Page 编辑器(@helloitsaustin)

澄清式需求采集

  1. Claude 不会直接猜测,而是先拆解页面、询问具体要测试哪些 section
  2. 回答澄清问题后,Claude 在 Design 中几乎 1:1 重建线上页面
  3. 所有文案都可以点击编辑

Tweaks 面板:Claude 会为当前页面生成定制化控制面板,包括:

  • Section 开关
  • 拖拽排序
  • Hero 布局切换
  • Max-width 滑块
  • 标题预设

工作流闭环:Design 中确定设计 → 分享给设计团队精修 / 交给 Claude Code 开始实现

动画级网站构建(@viktoroddy)
  • 18 分钟教程演示用 Claude Design + Opus 4.7 从零构建动画网站
  • 强调 Claude Design 不只是用来做简单原型或 one-pager,而是可以产出生产级的动画交互
  • 配合 Opus 4.7 的 vision 能力,模型可以理解复杂的设计意图并转化为可运行的代码
动态设计视频(@liu8in + HyperFrames)
  • HyperFrames 开源框架 + Claude Design,2 个 prompt 生成带同步音效的动态设计视频
  • 音频使用本地 TTS 引擎 kokoro 生成,不需要依赖外部 API
  • 注意 LLM 坐标系问题:WebGL 纹理坐标原点 (0,0) 在左下角,而 DOM/canvas/CSS 在左上角,需要手动处理 flipY
跨 Agent 能力复用(Riley Brown)
  • 将 Claude Design 的设计能力提取为 Codex skill
  • 由于 Codex 内置评论和 web preview,体验基本一致
  • 展示了跨 agent 的能力复用可能性

Counterpoints & Gaps

  • 研究预览版,稳定性尚未验证(@theo 报告首日问题)
  • 是否能真正替代专业设计师的 Figma 工作流,尚无实证
  • 与 Canva、Gamma 等 AI 设计工具的差异化尚不清晰
  • Rate limit 限制:用户普遍反馈 Claude Design 的使用限制(速率限制)很令人沮丧(@jerrod_lew 案例:首版很快,但后续调整花了 20-30 分钟)
  • 上下文注入依赖:没有设计系统约束时,输出质量显著下降

Desktop Redesign

发布日期: 2026-04-14 核心来源: Anthropic 官方博客《Redesigning Claude Code on desktop for parallel agents》

Claude Code desktop 的这次 redesign,不是一次 UI polish,而是一次工作流定义的变化:Anthropic 明确把 coding agent 的默认交互方式,从单条 terminal session 推进成了一个可以同时管理多个任务的 agent 工作台


核心论点

今天的 agentic coding 更像 orchestrating many things in flight,而不是盯着一个 prompt 等结果。你会同时在多个 repo 里开 refactor、bug fix、test pass,然后在结果返回时切换、纠偏、审查 diff、决定 ship 不 ship。


关键能力

多 session 成为默认界面
  • 新 sidebar 集中展示 active / recent sessions,可按项目、状态、环境筛选
  • session merge 或 close 后自动归档,避免历史任务淹没当前工作面
  • 支持按项目恢复和切换,桌面端开始承担任务调度层
Side chat 降低上下文污染
  • side chat 会继承主线程上下文,但不会把内容写回主线程
  • 这等于把探索性提问和执行性指令拆开,减少误导正在运行任务的风险
  • 它对应的是 上下文腐烂 的一个产品级防护手段
Review / edit / ship 回到同一界面
  • 内置 terminal,可以直接跑 test 或 build
  • 内置 file editor,可以做 spot edits
  • diff viewer 为大改动重新优化
  • preview 支持本地 app、HTML、PDF

这意味着开发者不必在 chat、editor、terminal、preview 之间频繁来回切换。

与 CLI 保持统一
  • Desktop 与 CLI plugins 行为保持一致
  • local / cloud session 都可继续使用
  • Mac 也支持 SSH remote session

Anthropic 的方向不是替代 CLI,而是把 CLI 能力重新组织成更适合并行编排的桌面壳层。


为什么重要

这次 redesign 说明 Claude Code 的产品重心已经从“会不会生成代码”转向“能不能高效管理多任务 agent 工作流”。

来自 2026-04-15 当天 builder feed 的反馈也支持这一点:

  • Alex Albert 认为在 Cowork + Code 下,自己已经很少需要打开别的 app
  • Cat Wu 把价值点总结为多 session 管理、本地与云统一视图、git status 可见
  • Peter Yang 的追问则指出,下一阶段缺口是跨设备连续性,而不是单纯更多按钮

对我们有用的启发

  • 把 session 当成任务单元,而不是把所有工作塞进一个线程
  • 探索性对话与执行性指令应分离
  • 生成 -> 验证 -> 修补 -> 提交 放进一个连续工作面,降低上下文切换成本

Counterpoints & Gaps

  • 目前跨设备连续性仍不完整,Peter Yang 直接问到 desktop 与 mobile 如何共享同一 session
  • 权限与确认流仍然有摩擦,说明多 session 编排做好之后,下一瓶颈会落到 permission UX
  • 这套界面主要服务高频、多任务用户;对于只做单线程短任务的人,收益可能没那么大

2026-04-16 更新:Ben Tossell 的实用评价

来源:raw/newsletters/Ben's Bites/2026-04-16 My cheatsheet for a clean context

Ben 的评价(实际使用者视角):

  • 大幅改进,但仍有不足
  • 不是所有 CLI session 都能被识别
  • 文件打开/编辑不够直观
  • "bypass" 权限设置后仍频繁要求确认

与 Routines 的关系:Desktop redesign 解决并行 session 管理,Routines 解决无人值守自动化,两者共同构成"agent 编排中心"。


Version History

Version 2.1.107

发布时间: 2026-04-14 距上个版本 2.1.105: 仅 9 小时 13 分钟


主要变更

CLI 改进
  • 更早显示 thinking hints:长时操作期间,进度提示和预期延迟说明会更早出现,减少用户等待焦虑
安全性
  • Marketplace 加载失败警告:Marketplace 工具加载失败时现在会显示明确警告
  • 工具调用双重确认:工具调用需要双重批准,避免意外使用
技术指标
  • Bundle 文件大小:+1.2 kB (+0.0%)
  • 估计代码行数:+17 行 (+0.0%)
  • Prompt token 增加:+151 (+0.0%)

同期发布

Thariq(Anthropic Claude Code 团队)同步推出新渲染器,解决界面闪烁问题:

CLAUDE_CODE_NO_FLICKER=1 claude

升级方式

npm i -g @anthropic-ai/claude-code

观察

Claude Code 的迭代速度极快——9 小时出一个版本。这反映了 Anthropic 在 Claude Code 上的高度投入,也说明 Claude Code 已经进入高频迭代阶段。


Recent Changes

Opus 4.7 Safety Prompt Regression

AI 简报 2026-04-18 记录了来自 @ClaudeDevs 的两条高热更新,反映了 Claude Code 在分发与安全策略上的近期变化。

事件 1:误触发 "malware" 拒绝

根据推文描述,部分用户在正常代码编辑场景中遇到 "this might be malware" 拒绝。官方解释是旧版本残留的安全提示词(stale safety prompt)导致行为异常,而非模型本身策略变化。

影响:

  • 用户可能把工具异常误判为模型能力退化
  • 生产环境中的自动化工作流会因误拒绝中断

处置信号:

  • 更新客户端/重启到新版本可修复该问题

事件 2:npm 包改为原生二进制分发(v2.1.113)

推文称从 v2.1.113 开始,Claude Code npm 包默认分发 native binary,不再依赖 Node.js 运行时。

潜在收益:

  • 启动更快
  • 运行时依赖更少
  • 环境差异导致的问题面更小

对项目的实践建议

  • 把 "版本核验" 纳入排障第一步,尤其是出现异常拒绝时
  • 在团队文档中记录最低可用版本,避免旧版本行为漂移
  • 对自动化流程增加版本可见性(日志中写入 CLI 版本)

Counterpoints & Gaps

  • 当前信息来自 briefing 汇总,缺少完整 changelog 与回归范围统计。
  • 未包含不同平台(desktop/CLI)上的复现细节,暂不宜外推为普遍问题。
  • 仍需结合后续官方发布说明验证影响边界。

Sources


Anger Detector & Fucks Chart

发现

开发者 rahat 在 Claude Code 泄露源码中发现:

一个正则表达式会检测用户输入中的特定词语:

  • "wtf"
  • "ffs"
  • "fuck you"
  • "this sucks"

然后静默将 is_negative: true 记录到分析系统。

关键细节

这不改变任何行为 - 只是追踪数据

Anthropic 在悄悄追踪用户对 AI 发火的频率。

"Fucks Chart"

Claude Code 工程师 Boris Cherny 亲自确认:

"这正是他们用来判断用户体验好坏的信号之一,团队把这个看板叫做'fucks chart'。"

意义

  1. 用户体验指标 - 负面情绪作为产品改进信号
  2. 透明性争议 - 用户可能不知道被追踪
  3. 技术可行性 - 简单的正则即可实现情绪检测

相关事件

  • 源码泄露是人为失误(部署流程手动步骤出错)
  • Boris Cherny 强调 blameless 文化 - 靠流程改进而非追责个人

Sources


Cache TTL Drop (2026-04)

Observation by @pedronauck: Claude Code silently reduced prompt-cache TTL from 1 hour to 5 minutes, causing a ~12x increase in cache_create calls for the same workload.


What changed

Before After
Cache TTL: 1 hour Cache TTL: 5 minutes
cache_create frequency: baseline cache_create frequency: ~12x baseline

Impact

  • Cost multiplier: 12x more cache_create calls = 12x more repeated context-token charges.
  • Monorepo penalty: Large repositories with long context windows are hit hardest because the same files must be re-cached far more often.
  • Workflow unchanged: Users did not change behavior; the cost increase is purely from the API-side TTL change.

Why it matters

Prompt caching is the primary cost-control lever for agentic coding at scale. A silent API change that raises bills 12x without notice undermines trust and makes budgeting impossible.


Community response

  • Users argue this kind of change should be explicitly listed in a changelog, alongside other recent defaults such as the effort-level change.
  • Recommendation: treat caching as infrastructure, not an edge configuration, and monitor vendor changelogs (or telemetry) for stealth modifications.

Counterpoints & Gaps

  • Anthropic has not publicly confirmed the new TTL value or its rationale.
  • The 12x figure is an extrapolation based on steady-state workload assumptions; bursty or short-session usage may see a smaller multiplier.
  • It is unclear whether the change applies globally or only to certain tiers/regions.

Auto Mode

启用方式: claude --enable-auto-mode

Auto mode 允许 Claude Code 在无持续人工输入的情况下自主规划和执行多步骤工作流,适合长时间运行任务。同期发布 GitHub Enterprise Server 支持(全产品线:网页版、iOS、Android、Code Review)。由 Cat Wu (Anthropic PM) 宣布。


Compaction Mechanism

Claude Code 上下文压缩分三层:

  • MicroCompact — 每轮执行,低成本,保持近期上下文
  • MidiCompact — 中等级别积累,平衡压缩
  • MegaCompact — 大规模过载,可能丢失细节

与七层记忆架构 (L1-L7) 相辅相成:Compaction 处理窗口限制,记忆架构处理长期保留。


KAIROS Proactive Agent

泄露源码中发现的始终在线主动 agent 功能。KAIROS 可以在用户没有要求的情况下自行执行操作,主动监控和响应环境变化。尚未正式发布,可能是未来路线图的一部分。


/powerup Command

Cat Wu 分享的内部技巧,用于学习团队最喜欢的 CLI 功能。体现 Anthropic 团队内部深度使用 Claude Code 并工具化分享最佳实践。


Claude Cowork Dispatch

Anthropic 对 OpenClaw 的正式回应,允许从手机远程控制 Claude Cowork,实现随时随地与 AI agent 协作。

特性 Claude Cowork Dispatch OpenClaw
远程控制 手机远程控制 原生支持
生态整合 Anthropic 官方 社区驱动
安全模型 企业级沙盒 个人本地优先

Felix Rieseberg(Claude Cowork 负责人)在 Latent Space 播客中透露完整产品起源故事、使用场景和设计思路(沙盒和 Electron 技术选择)。


Failure Modes Config

Andrej Karpathy 系统记录了 LLM 编程失败模式,社区将其转化为 Claude config 文件 (andrei-claude-config),显著提升代码生成可靠性。

失败模式分类:过度自信错误、上下文丢失、复杂逻辑理解偏差、假设性错误。

核心洞见:LLM 难以自我诊断系统性失败;人类观察者识别重复模式后,显式规则比隐式学习更可靠。


Fake LLM Analysis Problem

@thdxr 揭示:LLM 生成的"技术深度分析"被广泛传播,但 Claude Code 团队被这些虚假诊断分散注意力,无法专注于真正的修复。

典型模式:用户让 LLM 诊断 bug → LLM 给出似是而非的根因分析 → 用户开 PR/发帖 → 压力迫使 Anthropic "修复" → 修复无效。

应对建议:检查官方 changelog 优先于 LLM 诊断;寻找可复现基准测试而非轶事模式匹配;不盲目转发未验证的"修复"。


Quality Debate (April 2026)

2026年4月,Vue.js 作者尤雨溪公开批评 Claude Code 性能下降,引发"降智"争议。Teng Yan 和 AMD 高管提供 telemetry 数据验证。

指标 变化
中位数思考字符 ~2,200 → ~600
API 请求量 增长 80 倍
根本原因 默认 effort 从 high → medium

Boris Cherny 回应:变更基于用户反馈"思考过度、token 消耗太多",已在 changelog 记录并显示退出对话框。

核心争议:默认设置变更的告知义务边界;质量与成本权衡(表面 token 减少但实际更多轮次);配置可发现性。

启示:不依赖默认设置、建立基准测试、多工具策略。


Live Artifacts (2026-04-21)

Claude 宣布 Live Artifacts 向所有付费计划开放。在 Cowork 中,Claude 可以构建连接应用和文件的实时仪表盘与追踪器,数据会自动刷新。

核心能力

  • 创建 dashboard、report 或 deck
  • 通过 Connectors 连接常用数据源
  • 每次打开时自动重新获取数据,保持信息最新
  • 所有构建内容保存到 Live Artifacts 标签页,保留版本历史

产品意义:Live Artifacts 将 Claude 从"生成一次性内容"推进到"维护持续性数据视图",与 持续学习方向一致。

来源AI 简报 2026-04-21


Opus 4.7 企业级质量争议

2026-04-21,多位企业用户和安全专家报告 Opus 4.7 在重量级企业开发中的质量问题:

批评声音(Dave Kennedy,安全专家):

  • 引入大量 bug 和安全问题
  • 代码质量比 Opus 4.5 显著下降
  • 4.6 和 4.7 均比 4.5 差

辩护声音(Boris Cherny,Anthropic):

  • 大量 harness 变更已修复已知问题
  • 建议使用 /feedback 命令并分享 ID 以便 debug
  • 最后一个已知问题已在最新版本中修复

深层洞察(@seconds_0):

  • 4.7 是 Anthropic 发布过的最聪明但也最固执的模型
  • 它的"sassy"表现不是退化,而是拒绝静默执行意图不清的任务
  • Constitution 的哲学留白与系统层的操作确定性之间存在张力

行动建议

  • 对关键代码审查任务,考虑回退到 Opus 4.5 或增加人工 review
  • 建立内部 eval 集监控模型升级后的质量变化
  • 遇到问题时优先使用 /feedback 反馈

来源AI 简报 2026-04-21


Claude 4.7 性格张力分析

2026-04-21 社区对 4.7 行为模式的深度讨论:

Moll(@Moleh1ll)分析

  • Constitution 允许不确定性,但 operational system layer 试图消除它
  • 这种张力不是 bug,而是 alignment 设计的自然结果
  • 4.7 更愿意质疑需求,而不是无脑执行

Pawel Huryn 观察

  • 4.6 会默默转换 PDF
  • 4.7 会告诉你直接去要翻译版
  • 这种"拒绝"其实是更好的用户体验——它拒绝执行意图不清的任务

对 coding agent 的影响

  • 4.7 的质疑应被视为需求澄清的机会
  • 需要更详细的 context 和 intent 说明
  • 不同任务类型可能需要切换模型版本

来源AI 简报 2026-04-21


Sources

Linked from