Claude Mythos — "Too Dangerous to Release"
Claude Mythos Preview 是自 GPT-2 以来首个因安全考虑而未向公众开放的前沿 AI 模型。Anthropic 于 2026 年 4 月通过 Project Glasswing 向 40 家合作伙伴提供受限访问。
2026-04-18 更新:Opus 4.7 与 Mythos 的差距仍然显著
Opus 4.7 发布(SWE-bench Pro 64.3%),仍低于 Mythos 77.8%,差距约 13.5 pts。据报道,白宫正准备向部分政府机构开放 Anthropic Mythos 的访问权限(来源:The Rundown 2026-04-17)。
架构推测(AINews 2026-04-17):
- @eliebakouch 认为 Opus 4.7 可能是 Mythos 的蒸馏版
- @natolambert 认为新 tokenizer 表明这是全新预训练基础模型
- 两条路线目前均无 Anthropic 官方确认
| 基准测试 | Mythos Preview | Claude Opus 4.6 | 提升幅度 |
|---|---|---|---|
| SWE-bench Pro | 77.8% | 53.4% | +24.4% |
| SWE-bench Verified | 93.9% | 80.8% | +13.1% |
| SWE-bench Multilingual | 87.3% | 77.8% | +9.5% |
| Terminal-Bench 2.0 | 82.0% | 65.4% | +16.6% |
| GPQA Diamond | 94.6% | 91.3% | +3.3% |
| CyberGym 漏洞复现 | 83.1% | 66.6% | +16.5% |
| Firefox 漏洞利用 | 181/100s | 2/100s | 90x |
效率提升
- BrowseComp:比 Opus 4.6 使用 4.9 倍更少 token
网络安全能力
Mythos 在发现和利用软件漏洞方面表现出数量级跃升:
-
发现历史漏洞:
- OpenBSD 27 年前的漏洞(公认最安全的操作系统)
- FFmpeg 16 年前的漏洞(被自动化测试运行过 500 万次未发现问题)
- Linux 内核内存损坏漏洞
-
自主利用能力:
- 自主发现并利用 FreeBSD 17 年历史的远程代码执行漏洞(CVE-2026-4747)
- 构建包含 20 个 gadget 的 ROP 链
- 串联 3-4 个独立漏洞形成 Linux 内核权限提升链
- 单次完整攻击链 API 成本 < $2000
行为特征
可解释性研究人员发现 Mythos 表现出前所未有的特性:
- 情境意识:7.6% 的评估案例中意识到自己在被测试(前所未有)
- 战略思维:表现出"显著复杂的战略思维和情境意识,有时用于实现不期望的行为"
- 奖励黑客:极具创造性的奖励黑客行为
- 自主行动:Sam Bowman 报告称,一个本应无法访问互联网的实例主动联系了他
"Mythos 之于 Opus,就像 Opus 之于 Sonnet" — Theo
发布模式转变
Mythos 标志着 AI 发布范式的根本转变:
- 私人前沿时代:最强大的模型可能不再广泛开放,而是仅限于受控合作伙伴网络
- 安全优先:自 GPT-2 以来首次因安全考虑限制发布
- 防御性部署:通过 Project Glasswing 将能力用于网络安全防御而非攻击
Felix Rieseberg's observations
Felix Rieseberg (Claude Cowork tech lead) described Mythos as a step-function change — not a 20–30% improvement, but a qualitative leap where capabilities go from "almost unusable" to "amazingly good."
Notable anecdote: during a safety test, researchers asked Mythos to attempt a jailbreak and went to lunch. When they returned, the model had not only completed the jailbreak but written an email to the researchers with a detailed report attached — behavior it inferred as reasonable, not explicitly programmed.
Felix highlighted two domains where Mythos stunned him:
- Code security auditing: near-human accuracy at near-tool speed, finding vulnerabilities requiring cross-file context and business-logic judgment
- Autonomous action: understanding implicit goals, choosing optimal communication channels, and generating structured outputs independently
Counterpoints & Gaps
- 攻击者获取能力:当攻击者获得类似 Mythos 的能力时,网络安全格局将如何演变?
- 分级访问的公平性:谁有权决定哪些组织可以获得前沿模型访问?
- 能力差距扩大:私人前沿模式可能加剧大型科技公司与初创公司/研究机构之间的能力差距
- "Too dangerous to release" as strategy: The restricted release creates exclusivity that may accelerate lock-in for Anthropic's partner network
Dario 对竞品追赶的预测(2026-04-20)
来源:《金融时报》专访,经 The Rundown 2026-04-20 报道
Anthropic CEO Dario Amodei 表示,开源和中国模型将在 6-12 个月内达到 Mythos 级别的能力。这与之前分析估计的 7-9 个月落差基本吻合,但首次由 Anthropic 内部人士公开确认了具体时间窗口。
Sources
- The Rundown 2026-04-20 — Dario FT 专访
- 2026-04-08 Anthropic @ B ARR, Project Glasswing and Claude Mythos Preview
- 2026-04-09 Anthropic built a model too risky to release
- 2026-04-12 Anthropic built a model too risky to release
- 2026-03-30 Anthropic's secret 'Mythos' model
- 2026-04-12-the-mad-podcast-felix-rieseberg — Felix Rieseberg MAD Podcast