GPT-5.5 ("Spud") — 模型评估
来源:Every.to / Vibe Check(2026-04-23)+ The Rundown AI(2026-04-24,OpenAI 官方发布报道)
GPT-5.5-Cyber:网络安全专用模型 (2026-04-30)
OpenAI 开始向关键网络安全防御者推出 GPT-5.5-Cyber。
定位:首个公开定位为"网络安全专用"的前沿模型。
推出策略:
- 限定受众、与政府合作确定可信访问机制
- 符合 Karpathy 判断:LLM 在可验证领域(漏洞发现)能力极强
含义:AI 安全攻防进入新阶段——攻击面和防御面同时升级。
OpenAI 官方发布(2026-04-24)
OpenAI 正式发布代号 "Spud" 的 GPT-5.5,公司将其定位为"new class of intelligence"。在多项行业 benchmark 上登顶,在 AI 模型前沿榜上反超 Anthropic。
官方定位与价格:
- API 定价:输入 $5/百万 token、输出 $30/百万 token —— OpenAI 称其为"前沿编码模型中具备竞争力价格的一半"(half the cost of competitive frontier coding models)
- 与 GPT-5.4 速度持平,效率有所提升
- 分阶段在 ChatGPT 各订阅层级与 Codex 中推出,提供 Thinking 与 Pro 两个变体
- 发布期间承诺"慷慨用量"(generous usage)
关键技术细节:
- OpenAI 团队用 Codex 与 GPT-5.5 自身重写了其 GPU 代码,以改进底层基础设施
- 部分得分与 Claude Mythos 相当
发布时点的竞争背景:
- OpenAI 这次发布为本周一系列更新画上句号
- Claude Code 同期遭遇数月以来最严重的速率限制(rate limit)与质量降级投诉风波
- Anthropic 于 4 月 23 日发布事故复盘,将 Claude Code 质量投诉追溯到 3 个独立 bug,并因此为受影响订阅者重置使用限额(postmortem)
- The Rundown 评价:在 Anthropic 数月主导后风向再度转变,"重燃此前几次发布有点失却的'魔力'"
🔗 https://openai.com/index/introducing-gpt-5-5/
生态分发与"effort calibration"主题(2026-04-25)
GPT-5.5 与 GPT-5.5 Pro 在发布当周即推入 API 与几乎所有主流 agent 产品:Cursor、GitHub Copilot、Codex/OpenAI API、OpenRouter、Perplexity、Devin、Droid、Fleet、Deep Agents。
第三方基准登顶
| 基准 / 平台 | GPT-5.5 表现 | 来源 |
|---|---|---|
| CursorBench | 72.8%(#1) | @cursor_ai |
| Terminal-Bench(Cline) | 82.7(#1) | @cline |
| LisanBench(非思考模式) | medium 模式登顶,比 GPT-5.4 medium 少用 45.6% tokens 且分数更高 | @scaling01 |
| Perplexity Computer | 复杂任务少用 56% tokens | @OpenAIDevs |
"Effort calibration"成为新叙事
社区反复提到 GPT-5.5 的核心优势不是"更聪明",而是用更少 token 达到同等或更好结果:
- @almmaasoglu:"有史以来读过最好的 LLM 代码,更简洁、更不防御"
- @KentonVarda:从一条 6 年前的注释中抓到了 Cap'n Proto RPC 的深层 corner case
- @willdepue:"评测让人失望,但在 Codex 复杂技术项目中印象深刻"
- @omarsar0:从 Claude Code 切到 Codex/GPT-5.5 平滑,得益于"更好的 effort calibration"
意义:GPT-5.5 释放了"少 token 同等或更高质量"的代际跃迁——编码 agent 进入"effort 校准"和"用量经济"主导的新阶段。@nrehiew_ 观察"使用上限现在比小幅前沿差异更重要",@HamelHusain:"Codex 订阅结构让人很难不用"。
竞争动态与 OpenAI 的挑衅(2026-04-26)
来源:Every Context Window 2026-04-26
GPT-5.5 发布当周,Anthropic 因算力压力测试将 Claude Code 从 $20 Pro 计划中移除。OpenAI 高管在 X 上主动发起嘲讽攻势:
- Thomas Sottiaux 发推挑衅 Anthropic 的定价困境
- Sam Altman 以 "ok boomer" 隔空回应
OpenAI 的基础设施叙事:
Every 团队内部辩论中,Naveen Naidu(OpenAI 派)的核心论点是:Anthropic 模型虽强,但"在生产环境里烧算力太凶"。OpenAI 在基础设施层面更扎实,GPT-5.5 是一款 Token 高效模型。OpenAI 在大笔投入基础设施后想方设法让用户多用产品,而 Anthropic 则因供给不足被迫收缩。
竞争天平:
- Anthropic 有更强的 agentic 产品(Claude Code、Cowork、Skills)
- OpenAI 有更扎实的基础设施和更低的 per-task 成本
- 短期内,可用性优势可能转化为产品胜利
社区评测与定价信号(2026-04-28)
第三方评测更新
| 基准 / 条件 | GPT-5.5 表现 | 对比 |
|---|---|---|
| WeirdML (no-thinking) | 67.1% | GPT-5.4: 57.4%;Opus 4.7 no-thinking: 76.4% |
| LMSYS Arena — Code | #9 | — |
| LMSYS Arena — Document | #6 | — |
| LMSYS Arena — Text | #7 | — |
| LMSYS Arena — Math | #3 | — |
| LMSYS Arena — Search | #2 | — |
| LMSYS Arena — Vision | #5 | — |
| LMSYS Arena — Expert | #5 | — |
评测覆盖范围:当前 LMSYS 评测覆盖 medium/high reasoning,xHigh 仍在等待中。
实践者反馈
- 硬编码任务(GPU kernel):@gdb 评价积极
- No-thinking 模式问题:@htihle 报告存在 "compressed CoT leakage" 和畸形输出
- 使用倍数记录(@Hangsiin):GPT-5.4 fast = 2x,GPT-5.5 fast = 2.5x;5.4-mini 和 GPT-5.3-Codex 便宜得多
- 定价辩护(@sama):Codex $20 仍具很强价值
行业定价信号
GitHub Copilot 6 月 1 日起按量计费:这是 agentic 工作流消耗 runtime 远超传统代码补全的直接信号。编码 agent 的 token 经济学正从"定额订阅"转向"用量计价"。
成本感知评估研究
@dair_ai 强调的新研究:编码 agent 在 SWE-bench Verified 上的 token 消耗可达聊天/代码推理的 ~1000 倍,相同任务运行间用量可变化 30 倍,且更多花费并不单调提升准确率。这与 Copilot 定价变化共同指向:agent runtime 经济学将成为产品设计的核心约束。
团队真实反馈:一周后的混合评价(2026-05-01)
来源:Every.to 2026-05-01、AINews 2026-05-01
总体判断:GPT-5.5 仍是比 Opus 4.7 更快速、稳定、可信赖的日常专业工作模型,但对已有 Claude 生态(agent 工作流、skills、工具集成)的用户,迁移到 Codex 存在真实门槛。
| 使用者 | 背景 | 反馈 |
|---|---|---|
| Kieran Klaassen (Cora GM) | 工作量在 Codex 与 Claude Code 之间均分 | GPT-5.5 是「听话的 workhorse」,在多任务与规划上仍弱于 Opus 4.7;通过「屏幕录像 → Codex agent 夜间提 PR → 晨间审查」实现 24 PR/天(此前 2–3 PR/天) |
| Austin Tedesco (Every 增长) | 已开始劝朋友从 Claude Code 转 Codex | 朋友普遍抵触,觉得「太麻烦,真有那么好吗?」 |
| Natalia Quintero (Every 咨询) | 团队有成熟的 Claude agent「Claudie」 | 同场撰写销售提案,Claudie 完胜 GPT-5.5;迁移需时间与测试 |
| Mike Taylor (Every 技术咨询) | 没时间做迁移 | 「Claude 已经按我喜欢的方式配置好了,Codex 有些东西不一样」 |
Codex for Work 扩展(AINews 2026-05-01):OpenAI 将 Codex 重新定位为面向知识工作的通用计算机使用代理,支持文档、幻灯片、表格、研究和规划等工作流。核心更新包括 42% 更快的 CUA、Microsoft/Google/Salesforce 套件集成、/chronicle 和 /goal 自主规划指令、dynamic UI(根据任务自动路由 UI 体验)。
核心定位(Every 团队视角)
GPT-5.5 是 OpenAI 最新发布的前沿模型,其最大特点是打破了传统前沿模型"能力越强、代价越大"的权衡定律。它在速度、协作性、写作能力和代码能力上同时提升,被 Every 团队评价为"顶级资深工程师,且易于交谈"。
关键数据
Senior Engineer Benchmark
Every 新推出的基准测试,衡量模型像资深工程师一样重写烂代码库的能力:
| 模型 | 得分 | 备注 |
|---|---|---|
| GPT-5.5 (extra high reasoning) | 62.5 | — |
| Opus 4.7 (类似推理水平) | low 30s | 低 30 多分 |
| 人类资深工程师 | 80-90 | 仍显著领先 |
其他基准
| 基准 | 得分 |
|---|---|
| Terminal-Bench 2.0 | 82.7% |
| SWE-Bench Pro | 58.6% |
| GDPval | 84.9% |
| OSWorld-Verified | 78.7% |
| CyberGym | 81.8% |
| BrowseComp | 84.4% |
| FrontierMath Tier 1–3 | 51.7% |
技术特点
全新预训练
- 基于全新的预训练(pre-train),而非仅在旧模型上增加后训练(post-training)
- 新预训练改变模型的底层能力重心;后训练只改变行为模式
- 这解释了为什么 GPT-5.5 在速度、写作和代码上同时提升——不是简单的"调参",而是底层能力分布的改变
速度与体验
- 速度是最明显的变化:比 Opus 4.7 快得多,传达出低摩擦的胜任感
- 更易于迭代、保持在循环中,并信任其完成日常专业工作
- 默认 Medium 推理级别(与 GPT-5.4 默认无推理不同)
- Extra high reasoning 模式下会花更多时间规划和审查、提出更多问题
定价
| 版本 | Input | Output |
|---|---|---|
| GPT-5.5 标准 | $5 / 1M | $30 / 1M |
| GPT-5.5 Pro | $30 / 1M | $180 / 1M |
| GPT-5.4 | $2.50 / 1M | $15 / 1M |
| Opus 4.7 | $5 / 1M | $25 / 1M |
OpenAI 的论点:对于更难的任务,更好的推理和更少的重试可以降低每个完成任务的总体成本,即使每 token 价格更高。
团队实测反馈
Dan Shipper(CEO)——"新日常主力"
"GPT-5.5 是我的新日常主力模型。从 vibe coding 到严肃工程,每个编码任务我都先选它。也是我大多数其他代理性知识工作任务(从电子表格到研究)的主要模型。"
Kieran Klaassen(工程负责人)——"混合评价"
"GPT-5.5 感觉非常有能力,你能看到它在更努力地思考。规划和审查周期更长,在最佳任务上感觉与 Opus 4.7 相似。但我对产品工作持混合态度:它能构建深度功能,但设计不总是能整合在一起。细节往往很好,整体却感觉随机。"
Mike Taylor(咨询负责人)——"需要完成工作时的选择"
"GPT-5.5 是我在需要不用盯着就能完成工作时会选择的模型。它不如 Opus 华丽,但更自然、更易接近、更客户就绪。对于仪表板、课程大纲、活动执行文档和普通咨询文档,我更信任它。Opus 仍有更多锋芒,对于我个人投入的高风险任务,这正是我想要的——尤其是 PowerPoint、犀利文案或给客户留下印象。"
Katie Parrott(作者)——"写作工作流切换"
"我几乎一年没碰 ChatGPT 写作了,但现在改变了:我正在把写作工作流切换到 GPT-5.5。这个模型让我对文章结构的信心比 Opus 4.7 更高:思路推进更清晰,草稿更容易修改。它仍然有一些 AI 味道——过渡过于平滑、结构过度使用——而且 Opus 在犀利框架上可能更好。但 GPT-5.5 具备我每天写作所需的速度和对反馈的敏感度。"
Naveen Naidu(Codex 重度用户)——"信任度质变"
"GPT-5.5 改变了我对 Codex 的信任程度。我用它处理自己的原生 iOS 和 Mac 待办应用、Monologue 后端工作、MCP、认证网站、iOS 和 Mac 客户端工作、支持草稿和生产调试。旧版 Codex 对真正工程已经感觉很棒了。现在我几乎把它作为所有事情的默认模型。"
关键洞察
1. 与 Opus 4.7 的协作模式
GPT-5.5 表现最佳的情况是执行由 Opus 4.7 撰写的计划。这暗示了一个反直觉的协作模式:
- Opus 4.7 负责"规划"(架构设计、任务拆分)
- GPT-5.5 负责"执行"(快速实现、迭代)
2. "低摩擦胜任感"新标准
团队反复提到 GPT-5.5 的"低摩擦"(low-friction competence)——不是最惊艳,但最不容易让人沮丧。Mike Taylor 将其描述为"不用思考就能使用的工作",Naveen 称之为"信任度质变"。
3. OpenAI 重新聚焦"工作"场景
长期以来,OpenAI 似乎在四处出击:Sora 做视频、Atlas 做浏览器、消费者 ChatGPT 功能、创意媒体工具等。与此同时,Anthropic 专注于工作场景,Claude 成为编码代理、长时工程任务和专业工作流的默认选择。
GPT-5.5 给了 OpenAI 急需的东西:一个快速、可靠的专业工作主力模型。
局限性
- 仍然可能乏味、在 Ruby 上挣扎
- 在 PowerPoint 演示、空间构图和雄心勃勃的原型方面落后于 Opus 4.7
- 有"AI 味道"——过渡过于平滑、结构过度使用
- 可能过于探索性,需要更严格的指令才能保持正轨
落地建议
- 模型分工协作法:让 Opus 4.7 负责规划,GPT-5.5 负责执行
- 写作工作流迁移:如果你之前因写作质量离开 ChatGPT,现在可以重新评估
- Codex + GPT-5.5 全栈代理:选择一个端到端任务,尝试在 Codex 中一次性完成
- 推理级别策略化使用:日常快速迭代用 medium,复杂架构审查用 extra high
- Prompt 库更新:给 GPT-5.5 更清晰的结构指令,但不需要像对 4.7 那样过度详细
2026-05-02 更新:社区实际使用反馈
@nummanali:9 小时连贯工作
@nummanali 报告 GPT-5.5 在 ML 库上完成了 9 小时 49 秒的连贯工作,这是目前公开报道的最长单次 Agent 会话之一。证明了 GPT-5.5 在长时任务上的稳定性显著优于前代模型。
@theo:Opus 4.7 vs GPT-5.5 的"vibe"差异
@theo 描述了两者的编码体验差异:
- GPT-5.5:更聪明、能帮你解block,但有时会以愚蠢的方式卡住,且会在上下文管理上有问题("strangles itself with context")
- Opus 4.7:更稳定、更可靠的长上下文管理,但在突破瓶颈方面不如 GPT-5.5 激进
实际含义:选择模型时需要权衡 —— 需要突破复杂问题时选 GPT-5.5,需要稳定长时运行选 Opus 4.7。
Altman 谈 GPT-5.5: 直觉更强与原创科学贡献 (2026-05-02)
来源:Sam Altman NothingButTech 访谈 2026-05-02
"直觉更强"(Intuition)
Sam Altman 对 GPT-5.5 的概括从 "smarter, faster, more context" 修正为更准确的描述:直觉更强。
真正的体验差异不是某个 benchmark 分数,而是一次做对的概率大幅上升:
- 以前请求模型做一件事经常跑偏
- 现在它能更频繁地一次做对,因为它能更准确地判断用户想要什么
- 在执行中能感知自己是否走在正确方向上
这与 Every 团队此前评价的"低摩擦胜任感"(low-friction competence)一致。
原创数学贡献
Altman 确认 GPT-5.4 已经开始在数学领域产出原创性贡献:
- 解决了至少一个匈牙利数学家 Erdős 提出的、存在 60 年的猜想
- 有数学家预测 2026 年将成为 AI 贡献首次通过数学期刊同行评审的年份
- 核心能力不是记住训练数据,而是推理过程本身
这意味着"预测模型只能重复训练数据、不可能产出新东西"的判断被证伪。
GPT-5.5 的三种能力来源
Altman 认为让 AI 变聪明有三条路:
- 造更多算力 — 最确定,只需要钱和复杂供应链
- 算法突破 — 回报最高,但方向和时间不可预测
- 更好的数据 — 居中,范围最广。模型证明新定理后,下一轮训练就多了一条新素材,递归式知识增长已经在发生
2026-04-29 更新:GPT-5.5 新基准与 AWS Bedrock 上线
来源:AINews 2026-04-29、AI 简报 2026-04-29 Morning
Epoch Capabilities Index: GPT-5.5 Pro 达到 159,FrontierMath 新高达成:Tiers 1–3 为 52%,Tier 4 为 40%(含两个此前无模型解决的 Tier 4 问题)。
ARC-AGI-3 测试: Greg Kamradt 已完成 GPT-5.5 和 Opus 4.7 的 ARC-AGI-3 测试,失败模式正在分析中。
AWS Bedrock 上线: GPT-5.5、Codex 和 Managed Agents 正式通过 Amazon Bedrock 提供(限量预览)。此前企业使用 OpenAI 模型基本只能走 Azure;AWS 客户现在可在熟悉环境中直接调用。Codex 周活用户已超 400 万。
OpenAI 财务争议: 《华尔街日报》报道 OpenAI 未能达到营收和用户增长目标,CFO Sarah Friar 对其巨额支出提出质疑。OpenAI 称该报道"荒谬"。
Sam Altman 暗示 GPT-6: Sam Altman 推文预热 GPT-6,AINews 编辑团队称"GPT-6 的炒作已经开始"。