GPT-5.5 ("Spud") — 模型评估

来源：Every.to / Vibe Check（2026-04-23）+ The Rundown AI（2026-04-24，OpenAI 官方发布报道）

GPT-5.5-Cyber：网络安全专用模型 (2026-04-30)

来源：AI 简报 2026-04-30

OpenAI 开始向关键网络安全防御者推出 GPT-5.5-Cyber。

定位：首个公开定位为"网络安全专用"的前沿模型。

推出策略：

限定受众、与政府合作确定可信访问机制
符合 Karpathy 判断：LLM 在可验证领域（漏洞发现）能力极强

含义：AI 安全攻防进入新阶段——攻击面和防御面同时升级。

OpenAI 官方发布（2026-04-24）

来源：The Rundown 2026-04-24

OpenAI 正式发布代号 "Spud" 的 GPT-5.5，公司将其定位为"new class of intelligence"。在多项行业 benchmark 上登顶，在 AI 模型前沿榜上反超 Anthropic。

官方定位与价格：

API 定价：输入 $5/百万 token、输出 $30/百万 token —— OpenAI 称其为"前沿编码模型中具备竞争力价格的一半"（half the cost of competitive frontier coding models）
与 GPT-5.4 速度持平，效率有所提升
分阶段在 ChatGPT 各订阅层级与 Codex 中推出，提供 Thinking 与 Pro 两个变体
发布期间承诺"慷慨用量"（generous usage）

关键技术细节：

OpenAI 团队用 Codex 与 GPT-5.5 自身重写了其 GPU 代码，以改进底层基础设施
部分得分与 Claude Mythos 相当

发布时点的竞争背景：

OpenAI 这次发布为本周一系列更新画上句号
Claude Code 同期遭遇数月以来最严重的速率限制（rate limit）与质量降级投诉风波
Anthropic 于 4 月 23 日发布事故复盘，将 Claude Code 质量投诉追溯到 3 个独立 bug，并因此为受影响订阅者重置使用限额（postmortem）
The Rundown 评价：在 Anthropic 数月主导后风向再度转变，"重燃此前几次发布有点失却的'魔力'"

🔗 https://openai.com/index/introducing-gpt-5-5/

生态分发与"effort calibration"主题（2026-04-25）

来源：AINews 2026-04-25

GPT-5.5 与 GPT-5.5 Pro 在发布当周即推入 API 与几乎所有主流 agent 产品：Cursor、GitHub Copilot、Codex/OpenAI API、OpenRouter、Perplexity、Devin、Droid、Fleet、Deep Agents。

第三方基准登顶

基准 / 平台	GPT-5.5 表现	来源
CursorBench	72.8%（#1）	@cursor_ai
Terminal-Bench（Cline）	82.7（#1）	@cline
LisanBench（非思考模式）	medium 模式登顶，比 GPT-5.4 medium 少用 45.6% tokens 且分数更高	@scaling01
Perplexity Computer	复杂任务少用 56% tokens	@OpenAIDevs

"Effort calibration"成为新叙事

社区反复提到 GPT-5.5 的核心优势不是"更聪明"，而是用更少 token 达到同等或更好结果：

@almmaasoglu："有史以来读过最好的 LLM 代码，更简洁、更不防御"
@KentonVarda：从一条 6 年前的注释中抓到了 Cap'n Proto RPC 的深层 corner case
@willdepue："评测让人失望，但在 Codex 复杂技术项目中印象深刻"
@omarsar0：从 Claude Code 切到 Codex/GPT-5.5 平滑，得益于"更好的 effort calibration"

意义：GPT-5.5 释放了"少 token 同等或更高质量"的代际跃迁——编码 agent 进入"effort 校准"和"用量经济"主导的新阶段。@nrehiew_ 观察"使用上限现在比小幅前沿差异更重要"，@HamelHusain："Codex 订阅结构让人很难不用"。

竞争动态与 OpenAI 的挑衅（2026-04-26）

来源：Every Context Window 2026-04-26

GPT-5.5 发布当周，Anthropic 因算力压力测试将 Claude Code 从 $20 Pro 计划中移除。OpenAI 高管在 X 上主动发起嘲讽攻势：

Thomas Sottiaux 发推挑衅 Anthropic 的定价困境
Sam Altman 以 "ok boomer" 隔空回应

OpenAI 的基础设施叙事：

Every 团队内部辩论中，Naveen Naidu（OpenAI 派）的核心论点是：Anthropic 模型虽强，但"在生产环境里烧算力太凶"。OpenAI 在基础设施层面更扎实，GPT-5.5 是一款 Token 高效模型。OpenAI 在大笔投入基础设施后想方设法让用户多用产品，而 Anthropic 则因供给不足被迫收缩。

竞争天平：

Anthropic 有更强的 agentic 产品（Claude Code、Cowork、Skills）
OpenAI 有更扎实的基础设施和更低的 per-task 成本
短期内，可用性优势可能转化为产品胜利

社区评测与定价信号（2026-04-28）

来源：AINews 2026-04-28

第三方评测更新

基准 / 条件	GPT-5.5 表现	对比
WeirdML (no-thinking)	67.1%	GPT-5.4: 57.4%；Opus 4.7 no-thinking: 76.4%
LMSYS Arena — Code	#9	—
LMSYS Arena — Document	#6	—
LMSYS Arena — Text	#7	—
LMSYS Arena — Math	#3	—
LMSYS Arena — Search	#2	—
LMSYS Arena — Vision	#5	—
LMSYS Arena — Expert	#5	—

评测覆盖范围：当前 LMSYS 评测覆盖 medium/high reasoning，xHigh 仍在等待中。

实践者反馈

硬编码任务（GPU kernel）：@gdb 评价积极
No-thinking 模式问题：@htihle 报告存在 "compressed CoT leakage" 和畸形输出
使用倍数记录（@Hangsiin）：GPT-5.4 fast = 2x，GPT-5.5 fast = 2.5x；5.4-mini 和 GPT-5.3-Codex 便宜得多
定价辩护（@sama）：Codex $20 仍具很强价值

行业定价信号

GitHub Copilot 6 月 1 日起按量计费：这是 agentic 工作流消耗 runtime 远超传统代码补全的直接信号。编码 agent 的 token 经济学正从"定额订阅"转向"用量计价"。

成本感知评估研究

@dair_ai 强调的新研究：编码 agent 在 SWE-bench Verified 上的 token 消耗可达聊天/代码推理的 ~1000 倍，相同任务运行间用量可变化 30 倍，且更多花费并不单调提升准确率。这与 Copilot 定价变化共同指向：agent runtime 经济学将成为产品设计的核心约束。

团队真实反馈：一周后的混合评价（2026-05-01）

来源：Every.to 2026-05-01、AINews 2026-05-01

总体判断：GPT-5.5 仍是比 Opus 4.7 更快速、稳定、可信赖的日常专业工作模型，但对已有 Claude 生态（agent 工作流、skills、工具集成）的用户，迁移到 Codex 存在真实门槛。

使用者	背景	反馈
Kieran Klaassen (Cora GM)	工作量在 Codex 与 Claude Code 之间均分	GPT-5.5 是「听话的 workhorse」，在多任务与规划上仍弱于 Opus 4.7；通过「屏幕录像 → Codex agent 夜间提 PR → 晨间审查」实现 24 PR/天（此前 2–3 PR/天）
Austin Tedesco (Every 增长)	已开始劝朋友从 Claude Code 转 Codex	朋友普遍抵触，觉得「太麻烦，真有那么好吗？」
Natalia Quintero (Every 咨询)	团队有成熟的 Claude agent「Claudie」	同场撰写销售提案，Claudie 完胜 GPT-5.5；迁移需时间与测试
Mike Taylor (Every 技术咨询)	没时间做迁移	「Claude 已经按我喜欢的方式配置好了，Codex 有些东西不一样」

Codex for Work 扩展（AINews 2026-05-01）：OpenAI 将 Codex 重新定位为面向知识工作的通用计算机使用代理，支持文档、幻灯片、表格、研究和规划等工作流。核心更新包括 42% 更快的 CUA、Microsoft/Google/Salesforce 套件集成、/chronicle 和 /goal 自主规划指令、dynamic UI（根据任务自动路由 UI 体验）。

核心定位（Every 团队视角）

GPT-5.5 是 OpenAI 最新发布的前沿模型，其最大特点是打破了传统前沿模型"能力越强、代价越大"的权衡定律。它在速度、协作性、写作能力和代码能力上同时提升，被 Every 团队评价为"顶级资深工程师，且易于交谈"。

关键数据

Senior Engineer Benchmark

Every 新推出的基准测试，衡量模型像资深工程师一样重写烂代码库的能力：

模型	得分	备注
GPT-5.5 (extra high reasoning)	62.5	—
Opus 4.7 (类似推理水平)	low 30s	低 30 多分
人类资深工程师	80-90	仍显著领先

其他基准

基准	得分
Terminal-Bench 2.0	82.7%
SWE-Bench Pro	58.6%
GDPval	84.9%
OSWorld-Verified	78.7%
CyberGym	81.8%
BrowseComp	84.4%
FrontierMath Tier 1–3	51.7%

技术特点

全新预训练

基于全新的预训练（pre-train），而非仅在旧模型上增加后训练（post-training）
新预训练改变模型的底层能力重心；后训练只改变行为模式
这解释了为什么 GPT-5.5 在速度、写作和代码上同时提升——不是简单的"调参"，而是底层能力分布的改变

速度与体验

速度是最明显的变化：比 Opus 4.7 快得多，传达出低摩擦的胜任感
更易于迭代、保持在循环中，并信任其完成日常专业工作
默认 Medium 推理级别（与 GPT-5.4 默认无推理不同）
Extra high reasoning 模式下会花更多时间规划和审查、提出更多问题

定价

版本	Input	Output
GPT-5.5 标准	$5 / 1M	$30 / 1M
GPT-5.5 Pro	$30 / 1M	$180 / 1M
GPT-5.4	$2.50 / 1M	$15 / 1M
Opus 4.7	$5 / 1M	$25 / 1M

OpenAI 的论点：对于更难的任务，更好的推理和更少的重试可以降低每个完成任务的总体成本，即使每 token 价格更高。

团队实测反馈

Dan Shipper（CEO）——"新日常主力"

"GPT-5.5 是我的新日常主力模型。从 vibe coding 到严肃工程，每个编码任务我都先选它。也是我大多数其他代理性知识工作任务（从电子表格到研究）的主要模型。"

Kieran Klaassen（工程负责人）——"混合评价"

"GPT-5.5 感觉非常有能力，你能看到它在更努力地思考。规划和审查周期更长，在最佳任务上感觉与 Opus 4.7 相似。但我对产品工作持混合态度：它能构建深度功能，但设计不总是能整合在一起。细节往往很好，整体却感觉随机。"

Mike Taylor（咨询负责人）——"需要完成工作时的选择"

"GPT-5.5 是我在需要不用盯着就能完成工作时会选择的模型。它不如 Opus 华丽，但更自然、更易接近、更客户就绪。对于仪表板、课程大纲、活动执行文档和普通咨询文档，我更信任它。Opus 仍有更多锋芒，对于我个人投入的高风险任务，这正是我想要的——尤其是 PowerPoint、犀利文案或给客户留下印象。"

Katie Parrott（作者）——"写作工作流切换"

"我几乎一年没碰 ChatGPT 写作了，但现在改变了：我正在把写作工作流切换到 GPT-5.5。这个模型让我对文章结构的信心比 Opus 4.7 更高：思路推进更清晰，草稿更容易修改。它仍然有一些 AI 味道——过渡过于平滑、结构过度使用——而且 Opus 在犀利框架上可能更好。但 GPT-5.5 具备我每天写作所需的速度和对反馈的敏感度。"

Naveen Naidu（Codex 重度用户）——"信任度质变"

"GPT-5.5 改变了我对 Codex 的信任程度。我用它处理自己的原生 iOS 和 Mac 待办应用、Monologue 后端工作、MCP、认证网站、iOS 和 Mac 客户端工作、支持草稿和生产调试。旧版 Codex 对真正工程已经感觉很棒了。现在我几乎把它作为所有事情的默认模型。"

关键洞察

1. 与 Opus 4.7 的协作模式

GPT-5.5 表现最佳的情况是执行由 Opus 4.7 撰写的计划。这暗示了一个反直觉的协作模式：

Opus 4.7 负责"规划"（架构设计、任务拆分）
GPT-5.5 负责"执行"（快速实现、迭代）

2. "低摩擦胜任感"新标准

团队反复提到 GPT-5.5 的"低摩擦"（low-friction competence）——不是最惊艳，但最不容易让人沮丧。Mike Taylor 将其描述为"不用思考就能使用的工作"，Naveen 称之为"信任度质变"。

3. OpenAI 重新聚焦"工作"场景

长期以来，OpenAI 似乎在四处出击：Sora 做视频、Atlas 做浏览器、消费者 ChatGPT 功能、创意媒体工具等。与此同时，Anthropic 专注于工作场景，Claude 成为编码代理、长时工程任务和专业工作流的默认选择。

GPT-5.5 给了 OpenAI 急需的东西：一个快速、可靠的专业工作主力模型。

局限性

仍然可能乏味、在 Ruby 上挣扎
在 PowerPoint 演示、空间构图和雄心勃勃的原型方面落后于 Opus 4.7
有"AI 味道"——过渡过于平滑、结构过度使用
可能过于探索性，需要更严格的指令才能保持正轨

落地建议

模型分工协作法：让 Opus 4.7 负责规划，GPT-5.5 负责执行
写作工作流迁移：如果你之前因写作质量离开 ChatGPT，现在可以重新评估
Codex + GPT-5.5 全栈代理：选择一个端到端任务，尝试在 Codex 中一次性完成
推理级别策略化使用：日常快速迭代用 medium，复杂架构审查用 extra high
Prompt 库更新：给 GPT-5.5 更清晰的结构指令，但不需要像对 4.7 那样过度详细

2026-05-02 更新：社区实际使用反馈

来源：AI 简报 2026-05-02 Afternoon

@nummanali：9 小时连贯工作

@nummanali 报告 GPT-5.5 在 ML 库上完成了 9 小时 49 秒的连贯工作，这是目前公开报道的最长单次 Agent 会话之一。证明了 GPT-5.5 在长时任务上的稳定性显著优于前代模型。

@theo：Opus 4.7 vs GPT-5.5 的"vibe"差异

@theo 描述了两者的编码体验差异：

GPT-5.5：更聪明、能帮你解block，但有时会以愚蠢的方式卡住，且会在上下文管理上有问题（"strangles itself with context"）
Opus 4.7：更稳定、更可靠的长上下文管理，但在突破瓶颈方面不如 GPT-5.5 激进

实际含义：选择模型时需要权衡 —— 需要突破复杂问题时选 GPT-5.5，需要稳定长时运行选 Opus 4.7。

Altman 谈 GPT-5.5: 直觉更强与原创科学贡献 (2026-05-02)

来源：Sam Altman NothingButTech 访谈 2026-05-02

"直觉更强"（Intuition）

Sam Altman 对 GPT-5.5 的概括从 "smarter, faster, more context" 修正为更准确的描述：直觉更强。

真正的体验差异不是某个 benchmark 分数，而是一次做对的概率大幅上升：

以前请求模型做一件事经常跑偏
现在它能更频繁地一次做对，因为它能更准确地判断用户想要什么
在执行中能感知自己是否走在正确方向上

这与 Every 团队此前评价的"低摩擦胜任感"（low-friction competence）一致。

原创数学贡献

Altman 确认 GPT-5.4 已经开始在数学领域产出原创性贡献：

解决了至少一个匈牙利数学家 Erdős 提出的、存在 60 年的猜想
有数学家预测 2026 年将成为 AI 贡献首次通过数学期刊同行评审的年份
核心能力不是记住训练数据，而是推理过程本身

这意味着"预测模型只能重复训练数据、不可能产出新东西"的判断被证伪。

GPT-5.5 的三种能力来源

Altman 认为让 AI 变聪明有三条路：

造更多算力 — 最确定，只需要钱和复杂供应链
算法突破 — 回报最高，但方向和时间不可预测
更好的数据 — 居中，范围最广。模型证明新定理后，下一轮训练就多了一条新素材，递归式知识增长已经在发生

2026-04-29 更新：GPT-5.5 新基准与 AWS Bedrock 上线

来源：AINews 2026-04-29、AI 简报 2026-04-29 Morning

Epoch Capabilities Index： GPT-5.5 Pro 达到 159，FrontierMath 新高达成：Tiers 1–3 为 52%，Tier 4 为 40%（含两个此前无模型解决的 Tier 4 问题）。

ARC-AGI-3 测试： Greg Kamradt 已完成 GPT-5.5 和 Opus 4.7 的 ARC-AGI-3 测试，失败模式正在分析中。

AWS Bedrock 上线： GPT-5.5、Codex 和 Managed Agents 正式通过 Amazon Bedrock 提供（限量预览）。此前企业使用 OpenAI 模型基本只能走 Azure；AWS 客户现在可在熟悉环境中直接调用。Codex 周活用户已超 400 万。

OpenAI 财务争议：《华尔街日报》报道 OpenAI 未能达到营收和用户增长目标，CFO Sarah Friar 对其巨额支出提出质疑。OpenAI 称该报道"荒谬"。

Sam Altman 暗示 GPT-6： Sam Altman 推文预热 GPT-6，AINews 编辑团队称"GPT-6 的炒作已经开始"。