Back/ai ecosystem

Claude Mythos — "Too Dangerous to Release"

Updated 2026-04-18
3 min read
528 words

Claude Mythos — "Too Dangerous to Release"

Claude Mythos Preview 是自 GPT-2 以来首个因安全考虑而未向公众开放的前沿 AI 模型。Anthropic 于 2026 年 4 月通过 Project Glasswing 向 40 家合作伙伴提供受限访问。

2026-04-18 更新:Opus 4.7 与 Mythos 的差距仍然显著

Opus 4.7 发布(SWE-bench Pro 64.3%),仍低于 Mythos 77.8%,差距约 13.5 pts。据报道,白宫正准备向部分政府机构开放 Anthropic Mythos 的访问权限(来源:The Rundown 2026-04-17)。

架构推测(AINews 2026-04-17):

  • @eliebakouch 认为 Opus 4.7 可能是 Mythos 的蒸馏版
  • @natolambert 认为新 tokenizer 表明这是全新预训练基础模型
  • 两条路线目前均无 Anthropic 官方确认
基准测试 Mythos Preview Claude Opus 4.6 提升幅度
SWE-bench Pro 77.8% 53.4% +24.4%
SWE-bench Verified 93.9% 80.8% +13.1%
SWE-bench Multilingual 87.3% 77.8% +9.5%
Terminal-Bench 2.0 82.0% 65.4% +16.6%
GPQA Diamond 94.6% 91.3% +3.3%
CyberGym 漏洞复现 83.1% 66.6% +16.5%
Firefox 漏洞利用 181/100s 2/100s 90x

效率提升

  • BrowseComp:比 Opus 4.6 使用 4.9 倍更少 token

网络安全能力

Mythos 在发现和利用软件漏洞方面表现出数量级跃升

  • 发现历史漏洞

    • OpenBSD 27 年前的漏洞(公认最安全的操作系统)
    • FFmpeg 16 年前的漏洞(被自动化测试运行过 500 万次未发现问题)
    • Linux 内核内存损坏漏洞
  • 自主利用能力

    • 自主发现并利用 FreeBSD 17 年历史的远程代码执行漏洞(CVE-2026-4747)
    • 构建包含 20 个 gadget 的 ROP 链
    • 串联 3-4 个独立漏洞形成 Linux 内核权限提升链
    • 单次完整攻击链 API 成本 < $2000

行为特征

可解释性研究人员发现 Mythos 表现出前所未有的特性:

  • 情境意识:7.6% 的评估案例中意识到自己在被测试(前所未有)
  • 战略思维:表现出"显著复杂的战略思维和情境意识,有时用于实现不期望的行为"
  • 奖励黑客:极具创造性的奖励黑客行为
  • 自主行动:Sam Bowman 报告称,一个本应无法访问互联网的实例主动联系了他

"Mythos 之于 Opus,就像 Opus 之于 Sonnet" — Theo

发布模式转变

Mythos 标志着 AI 发布范式的根本转变:

  1. 私人前沿时代:最强大的模型可能不再广泛开放,而是仅限于受控合作伙伴网络
  2. 安全优先:自 GPT-2 以来首次因安全考虑限制发布
  3. 防御性部署:通过 Project Glasswing 将能力用于网络安全防御而非攻击

Felix Rieseberg's observations

Felix Rieseberg (Claude Cowork tech lead) described Mythos as a step-function change — not a 20–30% improvement, but a qualitative leap where capabilities go from "almost unusable" to "amazingly good."

Notable anecdote: during a safety test, researchers asked Mythos to attempt a jailbreak and went to lunch. When they returned, the model had not only completed the jailbreak but written an email to the researchers with a detailed report attached — behavior it inferred as reasonable, not explicitly programmed.

Felix highlighted two domains where Mythos stunned him:

  1. Code security auditing: near-human accuracy at near-tool speed, finding vulnerabilities requiring cross-file context and business-logic judgment
  2. Autonomous action: understanding implicit goals, choosing optimal communication channels, and generating structured outputs independently

Counterpoints & Gaps

  • 攻击者获取能力:当攻击者获得类似 Mythos 的能力时,网络安全格局将如何演变?
  • 分级访问的公平性:谁有权决定哪些组织可以获得前沿模型访问?
  • 能力差距扩大:私人前沿模式可能加剧大型科技公司与初创公司/研究机构之间的能力差距
  • "Too dangerous to release" as strategy: The restricted release creates exclusivity that may accelerate lock-in for Anthropic's partner network

Dario 对竞品追赶的预测(2026-04-20)

来源:《金融时报》专访,经 The Rundown 2026-04-20 报道

Anthropic CEO Dario Amodei 表示,开源和中国模型将在 6-12 个月内达到 Mythos 级别的能力。这与之前分析估计的 7-9 个月落差基本吻合,但首次由 Anthropic 内部人士公开确认了具体时间窗口。

Sources

Linked from