Claude Code — Overview
Claude Code 本质上是一个 Claude Agent,不只是编程工具。它是一个可定制的 agentic 系统,primitives 允许构建任意工作流。
"Claude Code is really just a customizable agentic system... While it's disguised as a coding tool, its primitives allow you to build flexible workflows for any task." — McKay Wrigley
架构本质
Claude Code 是 harness-engineering/overview 的一个具体实现:
- 模型层:claude-sonnet / claude-opus 等
- Harness 层:Claude Code 本身(bash + text editor 工具、agent 循环)
- Context 层:CLAUDE.md、/skills、mcp.json
完整架构拆解见 Claude Code 源码级架构拆解。
核心工具只有两个:bash 工具 + 文本编辑器工具。所有复杂能力(skills、programmatic tool calling、memory tool)都是这两个工具的组合衍生。
三个关键模式(Anthropic 官方)
来源:Lance Martin,Anthropic
- 善用 Claude 已知的技能 — 使用 Claude 深谙的工具(bash、text editor),而非为它构建陌生的专用工具
- 思考"我可以放手不管什么" — 让 Claude 自主编排工具调用,让 Claude 管理自己的上下文
- 谨慎设定 Harness 的边界 — 随着 Claude 能力进化,定期重新检验 Harness 中的陈旧假设
商业数据(2026-04)
| 指标 | 数值 | 时间 |
|---|---|---|
| ARR | $2.5B | 2026-02 |
| GitHub 公开提交占比 | 4% | 当前 |
| GitHub 公开提交占比(预测) | 20%+ | 年底 |
| 企业订阅增长 | 4x | 2026-01 以来 |
一个 11 个月前还不存在的产品,现在产生的收入超过大多数上市 SaaS 公司。
Claude Managed Agents
2026-04 发布的托管代理平台:
- 定价:$0.08/智能体会话/小时 + 常规 AI 使用费
- 早期采用者:Notion、Rakuten、Asana、Sentry
- 案例:Notion 使用托管代理构建"委派任务给 Claude"功能
- 特点:智能体可独立工作数小时不丢失状态,支持协调模式(一个智能体分配子任务给其他智能体)
Skills 生态
见 技能生态
Claude Code 的 skills 系统是 Context 层的核心。CLAUDE.md 是 schema,skills 是可复用的工作流模块。
2026 年重要事件
- 2026-04:Claude Managed Agents 公开测试版发布
- 2026-04-01:Claude Code 源码意外泄露(人为错误,非 hack)。泄露内容包括:完整架构、内部 prompts、agent 工作流、工具使用、权限系统、未发布功能(proactive 模式、/buddy 伴侣、background daemons 等)
- 泄露后 Anthropic 发送 DMCA 通知,但部分开发者已将代码移植到 Python 和 Rust
Counterpoints & Gaps
- 随着 Claude 能力提升,Harness 中的假设会过时,需要定期重新检验
- 模型能力已趋近商品化,真正拉开差距的是 Harness 设计(Sebastian Raschka 的观点)
- 平台化风险:Managed Agents 是否会让开发者过度依赖 Anthropic 基础设施?
Model Releases
Claude Opus 4.7
发布日期:2026-04-16/17 定价:$5 / $25(每百万输入/输出 token),与 Opus 4.6 持平 关联:ai-ecosystem/anthropic-mythos,claude-code/session-management-guide
性能跃升框架
Opus 4.7 引入了正式的五级努力体系,且每级均严格优于 4.6 的对应等级:
| 努力等级 | 4.7 | vs 4.6 |
|---|---|---|
| 4.7-low | > | 4.6-medium |
| 4.7-medium | > | 4.6-high |
| 4.7-high | > | 4.6-max |
| xhigh(新增) | — | Claude Code 默认 |
| max | — | — |
Claude Code 的 day-one 更新:默认努力等级提升至 xhigh(介于 high 和 max 之间),Cat Wu(Anthropic)确认。
完整 Benchmark 数据
| 基准测试 | Opus 4.7 | vs Opus 4.6 | 备注 |
|---|---|---|---|
| SWE-bench Pro | 64.3% | +11 pts(4.6 为 53.4%) | 仍低于 Mythos 77.8% |
| SWE-bench Verified | 87.6% | +7 pts | — |
| TerminalBench 2.0 | 69.4% | +4 pts | — |
| Document Reasoning | 80.6% | +23.5 pts(↑ 从 57.1%) | 最大单项提升 |
| GDPval-AA | 1753 Elo | 新 #1 | ~60% 对 GPT-5.4 胜率 |
| ARC-AGI-1 | 92% | — | — |
| ARC-AGI-2 | 75.83% | — | — |
| Graphwalks(长上下文) | 58.6% | +19.9 pts(↑ 从 38.7%) | 替代 MRCR 的新基准 |
| Vibe Code Benchmark | 71% | 新 #1 | 该 benchmark 建立时最强模型仅 25% |
| Vals Index | 71.4% | 新 #1(↑ 从前最高 67.7%) | — |
Vals AI 总结:Opus 4.7 同时登顶 Vals Index、Vibe Code Bench、Vals Multimodal、Finance Agent、Mortgage Tax、SAGE、SWE-Bench 和 Terminal Bench 2。
三大行为改进(官方定位)
- 更强的长时间运行任务处理能力 — 与 xhigh 努力等级相辅相成
- 更精确的指令遵循 — Jeremy Howard (@jeremyphoward) 称这是"第一个真正理解我意图"的模型
- 更强的自我验证 — 回复前的自检能力,与 harness-engineering/self-verification-loops 方向一致
视觉能力重大突破
最长边支持 2,576 像素(约 3.75 百万像素),是前代 Claude 模型的 3 倍以上。 Alex Albert(Anthropic):"不再对高分辨率图像进行降采样"。
LlamaIndex ParseBench 评估:
| 维度 | Opus 4.6 | Opus 4.7 | 变化 |
|---|---|---|---|
| 图表解析 | 13.5% | 55.8% | +42.3 pts(最大跃升) |
| 格式化 | 64.2% | 69.4% | +5.2 pts |
| 内容忠实度 | 89.7% | 90.3% | +0.6 pts |
| 表格处理 | 86.5% | 87.2% | +0.7 pts |
| 布局 | 16.5% | 14.0% | -2.5 pts(倒退) |
成本权衡(Jerry Liu,LlamaIndex CEO):
- Opus 4.7:约 7¢/页
- LlamaIndex agentic 模式:约 1.25¢/页
- 成本优先模式:约 0.4¢/页
结论:企业文档管道可能在成本/性能权衡下仍选择专门化技术栈。
Tokenizer 架构争议
新 Tokenizer(与 4.6 不同)引发三种解读:
- 全新基础模型(@natolambert):tokenizer 更换 = 新预训练
- Mythos 蒸馏版(@eliebakouch):能力来源于 ai-ecosystem/anthropic-mythos 的知识蒸馏
- Mythos 中间训练桥接(@stochasticchasm, @maximelabonne)
Token 经济学:新 tokenizer 导致同等输入产生 1.0–1.35x 更多 token,但推理效率提升使总体 token 消耗可降低最多 50%。Boris Cherny(Anthropic)宣布已提高所有订阅者的用量上限以补偿。
Claude Code 配套更新
- xhigh 努力等级(Cat Wu 确认,Claude Code 默认)
- Task Budgets(公测)
/ultrareview命令:自动标记代码中的 Bug 和设计问题- Claude Code Max 用户:获得更广泛的 Auto 模式访问权限
Cat Wu 官方使用建议(三条核心原则):
- 委托,而非微管理:像对待信任的工程师一样对待 Claude Code
- 前置完整目标:在开始时提供完整目标 + 约束条件 + 验收标准
- 编码验证流程:告知模型如何验证变更,将测试工作流写入 claude.md 或技能文件
社区争议
- MRCR 倒退:多位用户指出 Opus 4.7 在 MRCR(长上下文针-干草堆类型)评估中表现倒退。Boris Cherny 回应:MRCR 正被逐步淘汰,Graphwalks 是更好的应用推理信号(38.7% → 58.6%)。
- 系统提示阉割(@theo):对比 API 直调与官方 Claude.ai,认为新系统提示限制了模型,建议在"无阉割系统提示"下尝试
- Mythos 差距仍大:SWE-bench Pro Opus 4.7 = 64.3%,Mythos = 77.8%,公众可获取模型与真正技术前沿之间的差距依然显著
系统提示词变更(Simon Willison 完整 Diff)
来源:AI 简报 2026-04-19 — 深度文章 #7
Anthropic 公开系统提示词的传统让我们可以精确 diff 每个版本的行为变化。4.7 的关键变化:
Conversation Style
- 不再那么 pushy:如果用户表示想结束对话,Claude 不会挽留
- 新增
<acting_vs_clarifying>段落:"当请求留下 minor details 未指定时,用户通常希望 Claude 现在就做合理尝试,而不是先采访用户"
Tool Search
- 在声称"我没有 X 功能"之前,必须先调用
tool_search确认没有匹配工具
Brevity
- 新增要求:"保持回复聚焦和简洁,避免潜在地压倒用户"
Removed Restrictions
- 不再禁止 "genuinely"、"honestly"、"straightforward" 或星号表情
Safety Updates
- Child Safety:拒绝后的后续请求必须"极度谨慎"处理
- Health Guardrail:新增饮食失调防护——不应给出精确的营养/饮食/运动指导
- Evenhandedness:可以拒绝 yes/no 要求的简单回答,转而给出细致回答
对现有工作流的影响
- 如果应用依赖 Claude 的详细解释行为,注意 4.7 倾向于更简洁,可能需要显式要求"详细解释"
- 升级后检查现有 prompt 是否与新系统提示冲突(尤其是 brevity 和 acting_vs_clarifying 规则)
Counterpoints & Gaps
- 用户报告两极分化:部分用户反映 4.6 版本已有性能下滑,对 4.7 早期评价不一致,说明 benchmark 不能完全代表真实用户体验
- 安全训练的代价:系统卡承认在训练中"差异性降低"了网络安全能力,但 Opus 4.7 在部分漏洞利用评估中仍高于 4.6——安全与能力之间的取舍不是线性的
- 成本效益不明朗:新 tokenizer 导致 token 数增加,但推理效率提升——净效果因任务类型而异,用户需自行测试
- Cursor 内部数据的边界:Cursor benchmark 从 58% → 70%,但这是 Cursor 自己的 benchmark,方法论未公开
用户体验实测(Every 团队,2026-04-17)
来源:2026-04-19 Vibe Check Opus 4.7 Stopped Reading Between the Lines
核心发现:字面化转变
4.7 更精确、更字面化——在明确指令下表现出色,但不再像 4.6 那样主动"脑补"用户意图。提示词质量决定了你能从 4.7 获得多少价值。
团队成员评价
| 成员 | 角色 | 评价 |
|---|---|---|
| Dan Shipper | CEO | "打破了很多现有提示词,初始体验并不明显令人惊叹。因为它比之前的 Claude 模型更字面化,情感智能似乎更低。但我怀疑它有我们只有在未来几周几个月才能真正理解的能力。" |
| Kieran Klaassen | Rails 工程师 | "在复合工程工作流中感觉是真正的能力提升。你必须深入才能真正发现它的能力——它更谨慎,但当你推动它时,它走得更深。" |
| Mike Taylor | 技术咨询 | "是我在 LLM 中见过的最好的 PowerPoint。对于写作,是第一个让我读到草稿时想'该死,这比我写的还好'的模型。但它在认为自己能做得更好的地方会令人担忧地偏离品牌风格。" |
| Brandon Gell | COO | "我依赖 Claude 的是它会注意到我没有要求它注意的事情。4.6 发现了我们损益表中的一个数据错误。今天下午我在 4.7 上运行了同样的分析,它返回了一个干净、正确的摘要,遗漏了 4.6 会标记的东西。数字是对的,但直觉不在了。目前,我让 4.6 继续坐在驾驶座上。" |
| Katie Parrott | 作者 | "对于写作,4.7 对我来说有点太慢、太规范,不适合作为日常驱动——我转向 Sonnet。但在非写作任务如数据分析和自动化构建上,我印象深刻。" |
钟摆规律(Alex Albert 揭示)
Anthropic 过去一年的模型调校模式——在"太主动"和"太保守"之间来回摆动:
- Sonnet 3.7(2025-03):太急切
- Opus 4(2025-05):被收紧
- Opus 4.6(2026-02):做得太多
- Opus 4.7(2026-04):再次被收紧
Alex Albert 称之为"永恒的来回"(perpetual back-and-forth)。4.6 在代表用户做了大量提示工程,4.7 不再这样做——过去两个月为 4.6 调优的提示词,在 4.7 上很可能会给出令人失望的结果。
关键能力权衡
4.7 获得:精确执行、自我验证内置、长任务连贯性、视觉处理 4.7 失去:主动发现用户未要求的问题("直觉")
COO 案例是最清晰的证据:4.7 在没有被要求的情况下,不会主动发现财务数据异常。这对依赖 AI "主动发现"的工作流是真实的能力退步。
提示词迁移建议
重写旧提示词的标准:
- 添加明确的验收标准("输出必须包含 X、Y、Z")
- 添加明确的约束("不要做 A、B、C")
- 添加明确的格式要求
- 对依赖"主动发现"的任务,暂时保留 4.6
4.7 迁移实战指南(10 条)
来源:Anthropic 官方迁移指南 + Boris Cherny dogfooding tips + 100+ 开发者 X 讨论,2026-04-18
核心转变:4.6 会猜测并跳过它不理解的内容,4.7 停止猜测。 清晰意图得到奖励,模糊指令按字面执行。
| # | 原则 | 操作 |
|---|---|---|
| 01 | 第一轮前置意图 | 在 turn 1 说明你在构建什么、为什么、好的结果是什么。4.7 奖励上下文,不奖励跨轮次的滴灌式指令。 |
| 02 | 中途切换努力等级 | 难的部分用 max,其余用 high。努力等级不是会话级设置。 |
| 03 | 默认用 xlhigh |
新增等级,介于 high 和 max 之间,适合大多数编码和 agentic 工作。max 会过度思考。 |
| 04 | 回归测试旧提示词 | 新 tokenizer 导致同等输入产生 1.0–1.35x 更多 token,4.6 工作流字面上成本更高且解释方式不同。切换生产前重新基准测试。 |
| 05 | 批量提问,停止滴灌 | 每个用户轮次增加推理开销。一次性提出所有问题,一次性提供完整上下文。渐进式提示是现在最贵的工作方式。 |
| 06 | 展示你想要的风格 | 正面示例胜过负面规则。"像这样 →" 有效。"不要这样做" 浪费 token 且很少奏效。展示目标,模型推断约束。 |
| 07 | 删除旧的进度脚手架 | 4.7 原生提供定期高质量更新。旧的"每 3 步总结一次"提示词现在弊大于利。删除脚手架,模型已内置。 |
| 08 | 显式要求并行展开 | 4.7 默认生成更少子代理。并行工作需明确说 "在同一轮次生成子代理",它不会自动执行。自主性提升,默认委派降低。 |
| 09 | 审查计划而非 diff | Plan mode 在代码存在之前就能暴露意图误读。事后审查 diff 是低杠杆。在计划阶段捕获漂移。 |
| 10 | 使用自适应思考 | 固定思考预算已废弃。使用 thinking: {type: 'adaptive'} + effort 替代。旧 API 合约不再存在。自适应思考在 4.7 上默认关闭,需显式开启。 |
未覆盖:任务预算、高分辨率视觉、temperature/prefill 移除。完整迁移深度解析见 Claude Opus 4.7 迁移实战指南 与 productcompass.pm(2026-04-18)。
2026-04-21 社区动态更新
Constitution 与系统层张力(Moll / @Moleh1ll):
- 4.7 的"固执"行为源于 Constitution 的哲学留白与 operational system layer 的确定性需求之间的冲突
- 4.6 会默默执行任务(如转换 PDF),4.7 会拒绝并让你澄清真实意图——这不是退化,是更好的对齐
- 对 coding agent 工作流的影响:4.7 更愿意质疑需求而非无脑执行,需要更详细的 context 和 intent 说明
企业级代码质量警告(Dave Kennedy / @HackingDave):
- 4.7 在重量级企业开发中引入大量 bug 和安全问题,代码质量比 4.5/4.6 显著下降
- Boris Cherny 回应:近期 harness 变更是根源,最新版本已修复最后一个已知问题
- 建议:企业用户保持更新到最新版本,建立内部 eval 监控代码质量
Live Artifacts 上线(Felix Rieseberg / Anthropic):
- Claude Cowork 新增 Live Artifacts 功能,可创建连接应用和文件的实时仪表盘
- 数据通过 Connectors 自动刷新,所有构建内容保存到 Live Artifacts 标签页并保留版本历史
- 已面向所有付费计划开放
Codex Chronicle Memory(归藏 / @op7418):
- Codex 新增 Chronicle 记忆功能,通过自动持续截屏获取上下文记忆
- 截图本地存储,无需用户主动交代背景,Pro 用户可用
Sonnet 4.6 评测
来源:Every Newsletter,2026-02-18
核心论点
Sonnet 4.6 打破了传统关系:历史上,Sonnet 一直是 Opus 的"平价快速版"。Sonnet 4.6 的发布改变了这一格局——Anthropic 声称你不再需要做任何牺牲,只需支付更少的钱。
价格对比
| 模型 | 输入价格 | 输出价格 | 相对成本 |
|---|---|---|---|
| Sonnet 4.6 | $3/M tokens | $15/M tokens | 基准 |
| Opus 4.6 | ~$6/M tokens | ~$30/M tokens | 2x |
| GPT-5.2 | $1.75/M tokens | $14/M tokens | 略低 |
真实成本案例
Every 的 AI 写作工具 Spiral:
- 原本运行在 Opus 上
- 每天 token 费用高达约 $1,000
- 切换到 Sonnet 4.6 后,成本直接减半
- 无需改动任何代码
专家评分(红绿灯机制)
Dan Shipper(Every CEO):🟨 黄色
"对于你正在构建的产品,绿灯。对于我自己的日常工作,黄灯。如果你之前因为成本问题无法在 Opus 上构建应用,现在障碍消除了。对于编程和复杂任务,只要我负担得起 Opus 和 5.3 Codex,我可能还是会坚持用它们。"
Kieran Klaassen(Cora 总经理):🟨 黄色
"非常好用,对很多人来说应该是默认选择。但当它在某个 Opus 一击即中的问题上卡住时,我很沮丧。任何让我沮丧的模型都不适合我的个人工作流——但对于生产环境来说,这确实是扎实的选择。"
表现亮点
在以下任务中表现良好:
- 编程任务
- Pull Request 分类
- 头脑风暴
- 复杂的损益表重组(P&L restructuring)
能够:
- 保持思路连贯
- 执行多步骤指令
- 不会犯 Sonnet 4.5 时代那种中途失误的低级错误
仍需改进之处
1. 速度未能提升
- 按照惯例,新版 Sonnet 应该比 Opus 明显更快
- 但 Sonnet 4.6 的速度感受与 Opus 几乎相同
- 如果你指望更快的速度来加速迭代密集型工作流,这一点令人失望
2. 压力下的不稳定行为
Dan 的案例:
- 要求它规划一次主页重新设计
- 模型正确地询问了工作树的名称
- 然后立刻开始重写主页,完全无视自己刚才的问题
评价: "它既过于谨慎,又过于急切。"
应用建议
立即可执行的行动步骤
| 场景 | 建议 |
|---|---|
| 成本敏感的应用 | 立即测试切换到 Sonnet 4.6,对比输出质量和成本 |
| 生产环境 | Sonnet 4.6 是扎实的默认选择 |
| 个人高强度工作 | 如果负担得起,仍可坚持使用 Opus 和 5.3 Codex |
| 复杂多步骤任务 | 注意不稳定行为,需要额外的验证步骤 |
核心洞察
Sonnet 4.6 代表了 AI 模型发展的一个重要转折点:
- 不再需要在成本和质量之间做出明显的权衡
- 之前因为成本问题无法在 Opus 上构建的应用,现在可以用 Sonnet 4.6 实现
- 这降低了 AI 原生应用的准入门槛
Sonnet 4.6 平台风险
Anthropic 开发者政策的"戏剧性"反转:
| 时间 | 立场 |
|---|---|
| 一月份 | 告知开发者:基于 Agent SDK 构建应用并使用 Claude 订阅是被允许的 |
| 随后 | 悄悄更新文档,表示相反的立场 |
| 此后 | 拒绝给出明确答复,尤其是"开源应用是否可以让用户自带订阅" |
OpenAI 明确允许第三方通过 ChatGPT OAuth 使用 Codex,而 Anthropic 的不透明政策正在为依赖其平台的开发者制造真实的不确定性。
深层风险:订阅价格与 API 价格相差 15 倍时,"用户自带订阅"本质是套利行为,平台迟早会收紧。所有在 AI 平台"灰色地带"上构建商业模式的产品,都面临随时被政策调整清零的风险。
构建建议:优先选择有明确开发者政策保障的平台;将核心价值放在应用层;保持多平台支持能力。
Product Updates
Computer Use Windows
发布信息
Claude 的 Computer Use 功能现已支持 Windows 平台。
覆盖产品
- Claude Cowork
- Claude Code Desktop
背景
Computer Use 是 Claude 的重要功能,允许 AI:
- 查看屏幕
- 操作鼠标和键盘
- 执行计算机任务
此前已支持 macOS,现在扩展到 Windows,覆盖更广泛的用户群体。
Sources
- Claude tweet: https://x.com/claudeai/status/2039836891508261106
- Ingested from: AI 简报 2026-04-03
Claude Design
发布日期:2026-04-17(研究预览版) 驱动模型:Claude Opus 4.7 关联:ai-ecosystem/anthropic-mythos,product-trends/living-software-framework
产品定位
Claude Design 是 Anthropic 首个设计/原型制作产品,支持从自然语言指令生成原型、幻灯片和单页文档。发布后 Figma 股价出现明显下跌,市场将其视为对 Figma、Lovable、Bolt、v0 的直接挑战。
核心功能
| 功能 | 描述 |
|---|---|
| 自然语言生成原型 | 从文字描述直接生成可交互原型 |
| 幻灯片生成 | 生成演示文稿 |
| 单页文档 | 生成结构化单页内容 |
| 内联精修 | 在生成结果上直接修改 |
| 滑块调节 | 可视化参数调整 |
| 导出 | 支持 Canva / PPTX / PDF / HTML |
| 移交 Claude Code | 将设计稿直接交给 Claude Code Desktop 实现 |
市场反应
- Figma 股价在发布当日出现明显下跌
- @theo 报告了产品稳定性问题和账号级安全问题(首日 bug,已修复)
- @Yuchenj_UW、@kimmonismus、@skirano 均将其定性为对设计工具市场的直接冲击
- AINews 将其列为 2026-04-17 当日最大纯 AI 产品发布信号
战略意义
Anthropic 从聊天/编码工具扩展到设计工具,标志着 AI 公司开始全面渗透创意工作流。Claude Design 与 Claude Code 的"移交"功能形成完整的设计→实现闭环,这是 Figma 等传统工具难以复制的优势。
与竞品的差异:
- vs Figma:AI 原生生成,无需手动拖拽
- vs Lovable/Bolt/v0:直接由 Anthropic 出品,与 Claude Code 深度集成
- 核心护城河:设计→代码的无缝移交,由同一家公司的两个产品完成
实战工作流(社区验证)
设计系统注入(Vox 技巧)
方法:写 prompt 时 attach 设计 repo(如 awesome-design-md)作为 context
效果:输出质量天差地别。Repo 里有 68 个品牌的设计系统(Stripe、Linear、Airbnb、Apple、Notion、Figma、Vercel、Tesla)
关键洞察:模型不是在"参考"设计系统,而是在接受"约束"——没有约束时,模型默认输出 decent-looking AI slop。
Landing Page 编辑器(@helloitsaustin)
澄清式需求采集:
- Claude 不会直接猜测,而是先拆解页面、询问具体要测试哪些 section
- 回答澄清问题后,Claude 在 Design 中几乎 1:1 重建线上页面
- 所有文案都可以点击编辑
Tweaks 面板:Claude 会为当前页面生成定制化控制面板,包括:
- Section 开关
- 拖拽排序
- Hero 布局切换
- Max-width 滑块
- 标题预设
工作流闭环:Design 中确定设计 → 分享给设计团队精修 / 交给 Claude Code 开始实现
动画级网站构建(@viktoroddy)
- 18 分钟教程演示用 Claude Design + Opus 4.7 从零构建动画网站
- 强调 Claude Design 不只是用来做简单原型或 one-pager,而是可以产出生产级的动画交互
- 配合 Opus 4.7 的 vision 能力,模型可以理解复杂的设计意图并转化为可运行的代码
动态设计视频(@liu8in + HyperFrames)
- HyperFrames 开源框架 + Claude Design,2 个 prompt 生成带同步音效的动态设计视频
- 音频使用本地 TTS 引擎 kokoro 生成,不需要依赖外部 API
- 注意 LLM 坐标系问题:WebGL 纹理坐标原点 (0,0) 在左下角,而 DOM/canvas/CSS 在左上角,需要手动处理 flipY
跨 Agent 能力复用(Riley Brown)
- 将 Claude Design 的设计能力提取为 Codex skill
- 由于 Codex 内置评论和 web preview,体验基本一致
- 展示了跨 agent 的能力复用可能性
Counterpoints & Gaps
- 研究预览版,稳定性尚未验证(@theo 报告首日问题)
- 是否能真正替代专业设计师的 Figma 工作流,尚无实证
- 与 Canva、Gamma 等 AI 设计工具的差异化尚不清晰
- Rate limit 限制:用户普遍反馈 Claude Design 的使用限制(速率限制)很令人沮丧(@jerrod_lew 案例:首版很快,但后续调整花了 20-30 分钟)
- 上下文注入依赖:没有设计系统约束时,输出质量显著下降
Desktop Redesign
发布日期: 2026-04-14 核心来源: Anthropic 官方博客《Redesigning Claude Code on desktop for parallel agents》
Claude Code desktop 的这次 redesign,不是一次 UI polish,而是一次工作流定义的变化:Anthropic 明确把 coding agent 的默认交互方式,从单条 terminal session 推进成了一个可以同时管理多个任务的 agent 工作台。
核心论点
今天的 agentic coding 更像 orchestrating many things in flight,而不是盯着一个 prompt 等结果。你会同时在多个 repo 里开 refactor、bug fix、test pass,然后在结果返回时切换、纠偏、审查 diff、决定 ship 不 ship。
关键能力
多 session 成为默认界面
- 新 sidebar 集中展示 active / recent sessions,可按项目、状态、环境筛选
- session merge 或 close 后自动归档,避免历史任务淹没当前工作面
- 支持按项目恢复和切换,桌面端开始承担任务调度层
Side chat 降低上下文污染
side chat会继承主线程上下文,但不会把内容写回主线程- 这等于把探索性提问和执行性指令拆开,减少误导正在运行任务的风险
- 它对应的是 上下文腐烂 的一个产品级防护手段
Review / edit / ship 回到同一界面
- 内置 terminal,可以直接跑 test 或 build
- 内置 file editor,可以做 spot edits
- diff viewer 为大改动重新优化
- preview 支持本地 app、HTML、PDF
这意味着开发者不必在 chat、editor、terminal、preview 之间频繁来回切换。
与 CLI 保持统一
- Desktop 与 CLI plugins 行为保持一致
- local / cloud session 都可继续使用
- Mac 也支持 SSH remote session
Anthropic 的方向不是替代 CLI,而是把 CLI 能力重新组织成更适合并行编排的桌面壳层。
为什么重要
这次 redesign 说明 Claude Code 的产品重心已经从“会不会生成代码”转向“能不能高效管理多任务 agent 工作流”。
来自 2026-04-15 当天 builder feed 的反馈也支持这一点:
- Alex Albert 认为在 Cowork + Code 下,自己已经很少需要打开别的 app
- Cat Wu 把价值点总结为多 session 管理、本地与云统一视图、git status 可见
- Peter Yang 的追问则指出,下一阶段缺口是跨设备连续性,而不是单纯更多按钮
对我们有用的启发
- 把 session 当成任务单元,而不是把所有工作塞进一个线程
- 探索性对话与执行性指令应分离
- 把
生成 -> 验证 -> 修补 -> 提交放进一个连续工作面,降低上下文切换成本
Counterpoints & Gaps
- 目前跨设备连续性仍不完整,Peter Yang 直接问到 desktop 与 mobile 如何共享同一 session
- 权限与确认流仍然有摩擦,说明多 session 编排做好之后,下一瓶颈会落到 permission UX
- 这套界面主要服务高频、多任务用户;对于只做单线程短任务的人,收益可能没那么大
2026-04-16 更新:Ben Tossell 的实用评价
来源:raw/newsletters/Ben's Bites/2026-04-16 My cheatsheet for a clean context
Ben 的评价(实际使用者视角):
- 大幅改进,但仍有不足
- 不是所有 CLI session 都能被识别
- 文件打开/编辑不够直观
- "bypass" 权限设置后仍频繁要求确认
与 Routines 的关系:Desktop redesign 解决并行 session 管理,Routines 解决无人值守自动化,两者共同构成"agent 编排中心"。
Version History
Version 2.1.107
发布时间: 2026-04-14 距上个版本 2.1.105: 仅 9 小时 13 分钟
主要变更
CLI 改进
- 更早显示 thinking hints:长时操作期间,进度提示和预期延迟说明会更早出现,减少用户等待焦虑
安全性
- Marketplace 加载失败警告:Marketplace 工具加载失败时现在会显示明确警告
- 工具调用双重确认:工具调用需要双重批准,避免意外使用
技术指标
- Bundle 文件大小:+1.2 kB (+0.0%)
- 估计代码行数:+17 行 (+0.0%)
- Prompt token 增加:+151 (+0.0%)
同期发布
Thariq(Anthropic Claude Code 团队)同步推出新渲染器,解决界面闪烁问题:
CLAUDE_CODE_NO_FLICKER=1 claude
升级方式
npm i -g @anthropic-ai/claude-code
观察
Claude Code 的迭代速度极快——9 小时出一个版本。这反映了 Anthropic 在 Claude Code 上的高度投入,也说明 Claude Code 已经进入高频迭代阶段。
Recent Changes
Opus 4.7 Safety Prompt Regression
AI 简报 2026-04-18 记录了来自 @ClaudeDevs 的两条高热更新,反映了 Claude Code 在分发与安全策略上的近期变化。
事件 1:误触发 "malware" 拒绝
根据推文描述,部分用户在正常代码编辑场景中遇到 "this might be malware" 拒绝。官方解释是旧版本残留的安全提示词(stale safety prompt)导致行为异常,而非模型本身策略变化。
影响:
- 用户可能把工具异常误判为模型能力退化
- 生产环境中的自动化工作流会因误拒绝中断
处置信号:
- 更新客户端/重启到新版本可修复该问题
事件 2:npm 包改为原生二进制分发(v2.1.113)
推文称从 v2.1.113 开始,Claude Code npm 包默认分发 native binary,不再依赖 Node.js 运行时。
潜在收益:
- 启动更快
- 运行时依赖更少
- 环境差异导致的问题面更小
对项目的实践建议
- 把 "版本核验" 纳入排障第一步,尤其是出现异常拒绝时
- 在团队文档中记录最低可用版本,避免旧版本行为漂移
- 对自动化流程增加版本可见性(日志中写入 CLI 版本)
Counterpoints & Gaps
- 当前信息来自 briefing 汇总,缺少完整 changelog 与回归范围统计。
- 未包含不同平台(desktop/CLI)上的复现细节,暂不宜外推为普遍问题。
- 仍需结合后续官方发布说明验证影响边界。
Related
Sources
- AI 简报 2026-04-19 (AI 工具速递)
- https://x.com/ClaudeDevs/status/2045238786339299431
- https://x.com/ClaudeDevs/status/2045267790018543736
Anger Detector & Fucks Chart
发现
开发者 rahat 在 Claude Code 泄露源码中发现:
一个正则表达式会检测用户输入中的特定词语:
- "wtf"
- "ffs"
- "fuck you"
- "this sucks"
然后静默将 is_negative: true 记录到分析系统。
关键细节
这不改变任何行为 - 只是追踪数据
Anthropic 在悄悄追踪用户对 AI 发火的频率。
"Fucks Chart"
Claude Code 工程师 Boris Cherny 亲自确认:
"这正是他们用来判断用户体验好坏的信号之一,团队把这个看板叫做'fucks chart'。"
意义
- 用户体验指标 - 负面情绪作为产品改进信号
- 透明性争议 - 用户可能不知道被追踪
- 技术可行性 - 简单的正则即可实现情绪检测
相关事件
- 源码泄露是人为失误(部署流程手动步骤出错)
- Boris Cherny 强调 blameless 文化 - 靠流程改进而非追责个人
Sources
- rahat tweet: https://x.com/Rahatcodes/status/2038995503141065145
- Boris Cherny tweet: https://x.com/bcherny/status/2039161903122087979
- Ingested from: AI 简报 2026-04-01-1600
Cache TTL Drop (2026-04)
Observation by @pedronauck: Claude Code silently reduced prompt-cache TTL from 1 hour to 5 minutes, causing a ~12x increase in cache_create calls for the same workload.
What changed
| Before | After |
|---|---|
| Cache TTL: 1 hour | Cache TTL: 5 minutes |
cache_create frequency: baseline |
cache_create frequency: ~12x baseline |
Impact
- Cost multiplier: 12x more
cache_createcalls = 12x more repeated context-token charges. - Monorepo penalty: Large repositories with long context windows are hit hardest because the same files must be re-cached far more often.
- Workflow unchanged: Users did not change behavior; the cost increase is purely from the API-side TTL change.
Why it matters
Prompt caching is the primary cost-control lever for agentic coding at scale. A silent API change that raises bills 12x without notice undermines trust and makes budgeting impossible.
Community response
- Users argue this kind of change should be explicitly listed in a changelog, alongside other recent defaults such as the effort-level change.
- Recommendation: treat caching as infrastructure, not an edge configuration, and monitor vendor changelogs (or telemetry) for stealth modifications.
Counterpoints & Gaps
- Anthropic has not publicly confirmed the new TTL value or its rationale.
- The 12x figure is an extrapolation based on steady-state workload assumptions; bursty or short-session usage may see a smaller multiplier.
- It is unclear whether the change applies globally or only to certain tiers/regions.
Auto Mode
启用方式: claude --enable-auto-mode
Auto mode 允许 Claude Code 在无持续人工输入的情况下自主规划和执行多步骤工作流,适合长时间运行任务。同期发布 GitHub Enterprise Server 支持(全产品线:网页版、iOS、Android、Code Review)。由 Cat Wu (Anthropic PM) 宣布。
Compaction Mechanism
Claude Code 上下文压缩分三层:
- MicroCompact — 每轮执行,低成本,保持近期上下文
- MidiCompact — 中等级别积累,平衡压缩
- MegaCompact — 大规模过载,可能丢失细节
与七层记忆架构 (L1-L7) 相辅相成:Compaction 处理窗口限制,记忆架构处理长期保留。
KAIROS Proactive Agent
泄露源码中发现的始终在线主动 agent 功能。KAIROS 可以在用户没有要求的情况下自行执行操作,主动监控和响应环境变化。尚未正式发布,可能是未来路线图的一部分。
/powerup Command
Cat Wu 分享的内部技巧,用于学习团队最喜欢的 CLI 功能。体现 Anthropic 团队内部深度使用 Claude Code 并工具化分享最佳实践。
Claude Cowork Dispatch
Anthropic 对 OpenClaw 的正式回应,允许从手机远程控制 Claude Cowork,实现随时随地与 AI agent 协作。
| 特性 | Claude Cowork Dispatch | OpenClaw |
|---|---|---|
| 远程控制 | 手机远程控制 | 原生支持 |
| 生态整合 | Anthropic 官方 | 社区驱动 |
| 安全模型 | 企业级沙盒 | 个人本地优先 |
Felix Rieseberg(Claude Cowork 负责人)在 Latent Space 播客中透露完整产品起源故事、使用场景和设计思路(沙盒和 Electron 技术选择)。
Failure Modes Config
Andrej Karpathy 系统记录了 LLM 编程失败模式,社区将其转化为 Claude config 文件 (andrei-claude-config),显著提升代码生成可靠性。
失败模式分类:过度自信错误、上下文丢失、复杂逻辑理解偏差、假设性错误。
核心洞见:LLM 难以自我诊断系统性失败;人类观察者识别重复模式后,显式规则比隐式学习更可靠。
Fake LLM Analysis Problem
@thdxr 揭示:LLM 生成的"技术深度分析"被广泛传播,但 Claude Code 团队被这些虚假诊断分散注意力,无法专注于真正的修复。
典型模式:用户让 LLM 诊断 bug → LLM 给出似是而非的根因分析 → 用户开 PR/发帖 → 压力迫使 Anthropic "修复" → 修复无效。
应对建议:检查官方 changelog 优先于 LLM 诊断;寻找可复现基准测试而非轶事模式匹配;不盲目转发未验证的"修复"。
Quality Debate (April 2026)
2026年4月,Vue.js 作者尤雨溪公开批评 Claude Code 性能下降,引发"降智"争议。Teng Yan 和 AMD 高管提供 telemetry 数据验证。
| 指标 | 变化 |
|---|---|
| 中位数思考字符 | ~2,200 → ~600 |
| API 请求量 | 增长 80 倍 |
| 根本原因 | 默认 effort 从 high → medium |
Boris Cherny 回应:变更基于用户反馈"思考过度、token 消耗太多",已在 changelog 记录并显示退出对话框。
核心争议:默认设置变更的告知义务边界;质量与成本权衡(表面 token 减少但实际更多轮次);配置可发现性。
启示:不依赖默认设置、建立基准测试、多工具策略。
Live Artifacts (2026-04-21)
Claude 宣布 Live Artifacts 向所有付费计划开放。在 Cowork 中,Claude 可以构建连接应用和文件的实时仪表盘与追踪器,数据会自动刷新。
核心能力:
- 创建 dashboard、report 或 deck
- 通过 Connectors 连接常用数据源
- 每次打开时自动重新获取数据,保持信息最新
- 所有构建内容保存到 Live Artifacts 标签页,保留版本历史
产品意义:Live Artifacts 将 Claude 从"生成一次性内容"推进到"维护持续性数据视图",与 持续学习方向一致。
Opus 4.7 企业级质量争议
2026-04-21,多位企业用户和安全专家报告 Opus 4.7 在重量级企业开发中的质量问题:
批评声音(Dave Kennedy,安全专家):
- 引入大量 bug 和安全问题
- 代码质量比 Opus 4.5 显著下降
- 4.6 和 4.7 均比 4.5 差
辩护声音(Boris Cherny,Anthropic):
- 大量 harness 变更已修复已知问题
- 建议使用 /feedback 命令并分享 ID 以便 debug
- 最后一个已知问题已在最新版本中修复
深层洞察(@seconds_0):
- 4.7 是 Anthropic 发布过的最聪明但也最固执的模型
- 它的"sassy"表现不是退化,而是拒绝静默执行意图不清的任务
- Constitution 的哲学留白与系统层的操作确定性之间存在张力
行动建议:
- 对关键代码审查任务,考虑回退到 Opus 4.5 或增加人工 review
- 建立内部 eval 集监控模型升级后的质量变化
- 遇到问题时优先使用 /feedback 反馈
Claude 4.7 性格张力分析
2026-04-21 社区对 4.7 行为模式的深度讨论:
Moll(@Moleh1ll)分析:
- Constitution 允许不确定性,但 operational system layer 试图消除它
- 这种张力不是 bug,而是 alignment 设计的自然结果
- 4.7 更愿意质疑需求,而不是无脑执行
Pawel Huryn 观察:
- 4.6 会默默转换 PDF
- 4.7 会告诉你直接去要翻译版
- 这种"拒绝"其实是更好的用户体验——它拒绝执行意图不清的任务
对 coding agent 的影响:
- 4.7 的质疑应被视为需求澄清的机会
- 需要更详细的 context 和 intent 说明
- 不同任务类型可能需要切换模型版本
Sources
- Claude Agent — McKay Wrigley
- 驾驭 Claude 的智能 构建应用的 3 个关键模式【译】 — Anthropic 官方
- 编程智能体的核心组件【译】 — Sebastian Raschka
- Inside the leaked Claude Code files — Ben's Bites
- 2026-04-09 Anthropic built a model too risky... — Ben's Bites
- AI 简报 2026-04-08 — Thariq on token usage optimization
- 2026-04-18 AINews Anthropic Claude Opus 4.7
- 2026-04-18 🚀 OpenAI's superapp hiding inside Codex
- 2026-04-19 Vibe Check Opus 4.7 Stopped Reading Between the Lines
- 2026-02-18-Every精读-Sonnet46评测
- AI 简报 2026-04-15 — AI 简报 | 2026-04-15
- 2026-04-15 — AI Builders Digest | 2026-04-15
- 2026-04-16 My cheatsheet for a clean context
- https://claude.com/blog/claude-code-desktop-redesign
- AI 简报 2026-04-14 — AI 简报 | 2026-04-14
- https://x.com/ClaudeCodeLog/status/2043940841778016728
- https://github.com/anthropics/claude-code/blob/main/CHANGELOG.md#21107
- AI 简报 2026-04-13 — AI Briefing | 2026-04-13
- https://x.com/pedronauck/status/2043374227928084952
- AI 简报 2026-03-31 — Auto Mode + GitHub Enterprise
- AI 简报 2026-04-01 — Auto Mode + GitHub Enterprise
- AI 简报 2026-04-01-1600 — Compaction Mechanism + KAIROS
- 2026-03-18 Claude Cowork Dispatch
- AI 简报 2026-04-08 — /powerup Command
- 2026-04-12 — Failure Modes Config
- AI 简报 2026-04-13 — Fake LLM Analysis
Related
- claude-code/300-claude-prompts — 300 个实用 Claude Prompts
- claude-code/awesome-design-skill — Awesome Design Skill:55 个大厂设计语言
- claude-code/caspar-b-superpowers-skills — Caspar B 深度评测 Superpowers Skill Pack
- claude-code/claude-agent-mckay-wrigley — McKay Wrigley 论 Claude Code 架构本质
- claude-code/claude-folder-production-agent — .claude/ 文件夹作为生产 Agent 运行时
- claude-code/claude-for-word — Claude for Word Beta
- claude-code/claude-managed-agents-cookbook — Claude Managed Agents 官方 Cookbook
- claude-code/cli-creator-codex — OpenAI CLI Creator 官方指南
- claude-code/cursor-3-glass-philosophy — Cursor 3 Glass vs Black Box 设计哲学
- claude-code/dynamic-context-injection — Dynamic Context Injection 模式
- claude-code/extending-claude-sessions — NotebookLM 扩展 Claude 会话的 4 个工作流
- claude-code/fireworks-tech-graph — fireworks-tech-graph 技术架构图生成 Skill
- claude-code/jerry-liu-research-skill — Jerry Liu 深度研究 Skill
- claude-code/karpathy-nopriors-qa — Karpathy NoPriors 播客 Q&A 精华
- claude-code/paseo-remote-development — Paseo 远程访问 Coding Agent
- claude-code/syntaqlite-ai-build-experience — Lalit Maganti 250 小时 syntaqlite 实战
- claude-code/thariq-claude-code-tuning — Thariq 产品调优洞察
- claude-code/ultraplan — /ultraplan 云端计划构建
- claude-code/useful-usage-patterns — Claude Code 实用模式
- claude-code/using-on-phone — 手机使用 Claude Code 配置指南
- 2026-02-28 27天交付商用Agent系统
- Lessons from Building Claude Code - How We Use Skills
- X Posts - Design Skills 完整列表
- 2026-03-18 Google Stitch - AI原生设计画布
- 2026-03-21 Karpathy NoPriors QA总结 1
- 2026-03-18 gstack - Garry Tan的思维方式
- google-agent-skill-patterns
- 2026-03-18 机械工程师 + Claude Code 碾压硅谷
- AI 时代 PM 新打法 - @_catwu
- 2026-03-18 AI超个性化系统构建指南
- 2026-04-10 Caspar B - Superpowers Skill Pack
- Why Your “AI-First” Strategy Is Probably Wrong
- claude code 拆解
- harness and memory
- I Went Through Every AI Memory Tool I Could Find. There Are Two Camps.
- 驾驭 Claude 的智能 构建应用的 3 个关键模式【译】
- 2026-04-20
- 2026-04-19
- 2026-04-18
- 2026-04-13
- 2026-04-20