Skip to content
Back/AI Ecosystem

GPT-5.5 ("Spud") — 模型评估

View in Graph
Updated 2026-05-02
5 min read
1,207 words

GPT-5.5 ("Spud") — 模型评估

来源:Every.to / Vibe Check(2026-04-23)+ The Rundown AI(2026-04-24,OpenAI 官方发布报道)


GPT-5.5-Cyber:网络安全专用模型 (2026-04-30)

来源:AI 简报 2026-04-30

OpenAI 开始向关键网络安全防御者推出 GPT-5.5-Cyber。

定位:首个公开定位为"网络安全专用"的前沿模型。

推出策略

  • 限定受众、与政府合作确定可信访问机制
  • 符合 Karpathy 判断:LLM 在可验证领域(漏洞发现)能力极强

含义:AI 安全攻防进入新阶段——攻击面和防御面同时升级。

OpenAI 官方发布(2026-04-24)

来源:The Rundown 2026-04-24

OpenAI 正式发布代号 "Spud" 的 GPT-5.5,公司将其定位为"new class of intelligence"。在多项行业 benchmark 上登顶,在 AI 模型前沿榜上反超 Anthropic。

官方定位与价格

  • API 定价:输入 $5/百万 token、输出 $30/百万 token —— OpenAI 称其为"前沿编码模型中具备竞争力价格的一半"(half the cost of competitive frontier coding models)
  • 与 GPT-5.4 速度持平,效率有所提升
  • 分阶段在 ChatGPT 各订阅层级与 Codex 中推出,提供 Thinking 与 Pro 两个变体
  • 发布期间承诺"慷慨用量"(generous usage)

关键技术细节

  • OpenAI 团队用 Codex 与 GPT-5.5 自身重写了其 GPU 代码,以改进底层基础设施
  • 部分得分与 Claude Mythos 相当

发布时点的竞争背景

  • OpenAI 这次发布为本周一系列更新画上句号
  • Claude Code 同期遭遇数月以来最严重的速率限制(rate limit)与质量降级投诉风波
  • Anthropic 于 4 月 23 日发布事故复盘,将 Claude Code 质量投诉追溯到 3 个独立 bug,并因此为受影响订阅者重置使用限额(postmortem
  • The Rundown 评价:在 Anthropic 数月主导后风向再度转变,"重燃此前几次发布有点失却的'魔力'"

🔗 https://openai.com/index/introducing-gpt-5-5/


生态分发与"effort calibration"主题(2026-04-25)

来源:AINews 2026-04-25

GPT-5.5 与 GPT-5.5 Pro 在发布当周即推入 API 与几乎所有主流 agent 产品:Cursor、GitHub Copilot、Codex/OpenAI API、OpenRouter、Perplexity、Devin、Droid、Fleet、Deep Agents

第三方基准登顶

基准 / 平台 GPT-5.5 表现 来源
CursorBench 72.8%(#1) @cursor_ai
Terminal-Bench(Cline) 82.7(#1) @cline
LisanBench(非思考模式) medium 模式登顶,比 GPT-5.4 medium 少用 45.6% tokens 且分数更高 @scaling01
Perplexity Computer 复杂任务少用 56% tokens @OpenAIDevs

"Effort calibration"成为新叙事

社区反复提到 GPT-5.5 的核心优势不是"更聪明",而是用更少 token 达到同等或更好结果

  • @almmaasoglu:"有史以来读过最好的 LLM 代码,更简洁、更不防御"
  • @KentonVarda:从一条 6 年前的注释中抓到了 Cap'n Proto RPC 的深层 corner case
  • @willdepue:"评测让人失望,但在 Codex 复杂技术项目中印象深刻"
  • @omarsar0:从 Claude Code 切到 Codex/GPT-5.5 平滑,得益于"更好的 effort calibration"

意义:GPT-5.5 释放了"少 token 同等或更高质量"的代际跃迁——编码 agent 进入"effort 校准"和"用量经济"主导的新阶段。@nrehiew_ 观察"使用上限现在比小幅前沿差异更重要",@HamelHusain:"Codex 订阅结构让人很难不用"。


竞争动态与 OpenAI 的挑衅(2026-04-26)

来源:Every Context Window 2026-04-26

GPT-5.5 发布当周,Anthropic 因算力压力测试将 Claude Code 从 $20 Pro 计划中移除。OpenAI 高管在 X 上主动发起嘲讽攻势:

OpenAI 的基础设施叙事

Every 团队内部辩论中,Naveen Naidu(OpenAI 派)的核心论点是:Anthropic 模型虽强,但"在生产环境里烧算力太凶"。OpenAI 在基础设施层面更扎实,GPT-5.5 是一款 Token 高效模型。OpenAI 在大笔投入基础设施后想方设法让用户多用产品,而 Anthropic 则因供给不足被迫收缩。

竞争天平

  • Anthropic 有更强的 agentic 产品(Claude Code、Cowork、Skills)
  • OpenAI 有更扎实的基础设施和更低的 per-task 成本
  • 短期内,可用性优势可能转化为产品胜利

社区评测与定价信号(2026-04-28)

来源:AINews 2026-04-28

第三方评测更新

基准 / 条件 GPT-5.5 表现 对比
WeirdML (no-thinking) 67.1% GPT-5.4: 57.4%;Opus 4.7 no-thinking: 76.4%
LMSYS Arena — Code #9
LMSYS Arena — Document #6
LMSYS Arena — Text #7
LMSYS Arena — Math #3
LMSYS Arena — Search #2
LMSYS Arena — Vision #5
LMSYS Arena — Expert #5

评测覆盖范围:当前 LMSYS 评测覆盖 medium/high reasoning,xHigh 仍在等待中。

实践者反馈

  • 硬编码任务(GPU kernel):@gdb 评价积极
  • No-thinking 模式问题:@htihle 报告存在 "compressed CoT leakage" 和畸形输出
  • 使用倍数记录(@Hangsiin):GPT-5.4 fast = 2x,GPT-5.5 fast = 2.5x;5.4-mini 和 GPT-5.3-Codex 便宜得多
  • 定价辩护(@sama):Codex $20 仍具很强价值

行业定价信号

GitHub Copilot 6 月 1 日起按量计费:这是 agentic 工作流消耗 runtime 远超传统代码补全的直接信号。编码 agent 的 token 经济学正从"定额订阅"转向"用量计价"。

成本感知评估研究

@dair_ai 强调的新研究:编码 agent 在 SWE-bench Verified 上的 token 消耗可达聊天/代码推理的 ~1000 倍,相同任务运行间用量可变化 30 倍,且更多花费并不单调提升准确率。这与 Copilot 定价变化共同指向:agent runtime 经济学将成为产品设计的核心约束。


团队真实反馈:一周后的混合评价(2026-05-01)

来源:Every.to 2026-05-01AINews 2026-05-01

总体判断:GPT-5.5 仍是比 Opus 4.7 更快速、稳定、可信赖的日常专业工作模型,但对已有 Claude 生态(agent 工作流、skills、工具集成)的用户,迁移到 Codex 存在真实门槛。

使用者 背景 反馈
Kieran Klaassen (Cora GM) 工作量在 Codex 与 Claude Code 之间均分 GPT-5.5 是「听话的 workhorse」,在多任务与规划上仍弱于 Opus 4.7;通过「屏幕录像 → Codex agent 夜间提 PR → 晨间审查」实现 24 PR/天(此前 2–3 PR/天)
Austin Tedesco (Every 增长) 已开始劝朋友从 Claude Code 转 Codex 朋友普遍抵触,觉得「太麻烦,真有那么好吗?」
Natalia Quintero (Every 咨询) 团队有成熟的 Claude agent「Claudie」 同场撰写销售提案,Claudie 完胜 GPT-5.5;迁移需时间与测试
Mike Taylor (Every 技术咨询) 没时间做迁移 「Claude 已经按我喜欢的方式配置好了,Codex 有些东西不一样」

Codex for Work 扩展(AINews 2026-05-01):OpenAI 将 Codex 重新定位为面向知识工作的通用计算机使用代理,支持文档、幻灯片、表格、研究和规划等工作流。核心更新包括 42% 更快的 CUA、Microsoft/Google/Salesforce 套件集成、/chronicle 和 /goal 自主规划指令、dynamic UI(根据任务自动路由 UI 体验)。

核心定位(Every 团队视角)

GPT-5.5 是 OpenAI 最新发布的前沿模型,其最大特点是打破了传统前沿模型"能力越强、代价越大"的权衡定律。它在速度、协作性、写作能力和代码能力上同时提升,被 Every 团队评价为"顶级资深工程师,且易于交谈"。


关键数据

Senior Engineer Benchmark

Every 新推出的基准测试,衡量模型像资深工程师一样重写烂代码库的能力:

模型 得分 备注
GPT-5.5 (extra high reasoning) 62.5
Opus 4.7 (类似推理水平) low 30s 低 30 多分
人类资深工程师 80-90 仍显著领先

其他基准

基准 得分
Terminal-Bench 2.0 82.7%
SWE-Bench Pro 58.6%
GDPval 84.9%
OSWorld-Verified 78.7%
CyberGym 81.8%
BrowseComp 84.4%
FrontierMath Tier 1–3 51.7%

技术特点

全新预训练

  • 基于全新的预训练(pre-train),而非仅在旧模型上增加后训练(post-training)
  • 新预训练改变模型的底层能力重心;后训练只改变行为模式
  • 这解释了为什么 GPT-5.5 在速度、写作和代码上同时提升——不是简单的"调参",而是底层能力分布的改变

速度与体验

  • 速度是最明显的变化:比 Opus 4.7 快得多,传达出低摩擦的胜任感
  • 更易于迭代、保持在循环中,并信任其完成日常专业工作
  • 默认 Medium 推理级别(与 GPT-5.4 默认无推理不同)
  • Extra high reasoning 模式下会花更多时间规划和审查、提出更多问题

定价

版本 Input Output
GPT-5.5 标准 $5 / 1M $30 / 1M
GPT-5.5 Pro $30 / 1M $180 / 1M
GPT-5.4 $2.50 / 1M $15 / 1M
Opus 4.7 $5 / 1M $25 / 1M

OpenAI 的论点:对于更难的任务,更好的推理和更少的重试可以降低每个完成任务的总体成本,即使每 token 价格更高。


团队实测反馈

Dan Shipper(CEO)——"新日常主力"

"GPT-5.5 是我的新日常主力模型。从 vibe coding 到严肃工程,每个编码任务我都先选它。也是我大多数其他代理性知识工作任务(从电子表格到研究)的主要模型。"

Kieran Klaassen(工程负责人)——"混合评价"

"GPT-5.5 感觉非常有能力,你能看到它在更努力地思考。规划和审查周期更长,在最佳任务上感觉与 Opus 4.7 相似。但我对产品工作持混合态度:它能构建深度功能,但设计不总是能整合在一起。细节往往很好,整体却感觉随机。"

Mike Taylor(咨询负责人)——"需要完成工作时的选择"

"GPT-5.5 是我在需要不用盯着就能完成工作时会选择的模型。它不如 Opus 华丽,但更自然、更易接近、更客户就绪。对于仪表板、课程大纲、活动执行文档和普通咨询文档,我更信任它。Opus 仍有更多锋芒,对于我个人投入的高风险任务,这正是我想要的——尤其是 PowerPoint、犀利文案或给客户留下印象。"

Katie Parrott(作者)——"写作工作流切换"

"我几乎一年没碰 ChatGPT 写作了,但现在改变了:我正在把写作工作流切换到 GPT-5.5。这个模型让我对文章结构的信心比 Opus 4.7 更高:思路推进更清晰,草稿更容易修改。它仍然有一些 AI 味道——过渡过于平滑、结构过度使用——而且 Opus 在犀利框架上可能更好。但 GPT-5.5 具备我每天写作所需的速度和对反馈的敏感度。"

"GPT-5.5 改变了我对 Codex 的信任程度。我用它处理自己的原生 iOS 和 Mac 待办应用、Monologue 后端工作、MCP、认证网站、iOS 和 Mac 客户端工作、支持草稿和生产调试。旧版 Codex 对真正工程已经感觉很棒了。现在我几乎把它作为所有事情的默认模型。"


关键洞察

1. 与 Opus 4.7 的协作模式

GPT-5.5 表现最佳的情况是执行由 Opus 4.7 撰写的计划。这暗示了一个反直觉的协作模式:

  • Opus 4.7 负责"规划"(架构设计、任务拆分)
  • GPT-5.5 负责"执行"(快速实现、迭代)

2. "低摩擦胜任感"新标准

团队反复提到 GPT-5.5 的"低摩擦"(low-friction competence)——不是最惊艳,但最不容易让人沮丧。Mike Taylor 将其描述为"不用思考就能使用的工作",Naveen 称之为"信任度质变"。

3. OpenAI 重新聚焦"工作"场景

长期以来,OpenAI 似乎在四处出击:Sora 做视频、Atlas 做浏览器、消费者 ChatGPT 功能、创意媒体工具等。与此同时,Anthropic 专注于工作场景,Claude 成为编码代理、长时工程任务和专业工作流的默认选择。

GPT-5.5 给了 OpenAI 急需的东西:一个快速、可靠的专业工作主力模型


局限性

  • 仍然可能乏味、在 Ruby 上挣扎
  • 在 PowerPoint 演示、空间构图和雄心勃勃的原型方面落后于 Opus 4.7
  • 有"AI 味道"——过渡过于平滑、结构过度使用
  • 可能过于探索性,需要更严格的指令才能保持正轨

落地建议

  1. 模型分工协作法:让 Opus 4.7 负责规划,GPT-5.5 负责执行
  2. 写作工作流迁移:如果你之前因写作质量离开 ChatGPT,现在可以重新评估
  3. Codex + GPT-5.5 全栈代理:选择一个端到端任务,尝试在 Codex 中一次性完成
  4. 推理级别策略化使用:日常快速迭代用 medium,复杂架构审查用 extra high
  5. Prompt 库更新:给 GPT-5.5 更清晰的结构指令,但不需要像对 4.7 那样过度详细

2026-05-02 更新:社区实际使用反馈

来源:AI 简报 2026-05-02 Afternoon

@nummanali:9 小时连贯工作

@nummanali 报告 GPT-5.5 在 ML 库上完成了 9 小时 49 秒的连贯工作,这是目前公开报道的最长单次 Agent 会话之一。证明了 GPT-5.5 在长时任务上的稳定性显著优于前代模型。

@theo:Opus 4.7 vs GPT-5.5 的"vibe"差异

@theo 描述了两者的编码体验差异:

  • GPT-5.5:更聪明、能帮你解block,但有时会以愚蠢的方式卡住,且会在上下文管理上有问题("strangles itself with context")
  • Opus 4.7:更稳定、更可靠的长上下文管理,但在突破瓶颈方面不如 GPT-5.5 激进

实际含义:选择模型时需要权衡 —— 需要突破复杂问题时选 GPT-5.5,需要稳定长时运行选 Opus 4.7。


Altman 谈 GPT-5.5: 直觉更强与原创科学贡献 (2026-05-02)

来源:Sam Altman NothingButTech 访谈 2026-05-02

"直觉更强"(Intuition)

Sam Altman 对 GPT-5.5 的概括从 "smarter, faster, more context" 修正为更准确的描述:直觉更强

真正的体验差异不是某个 benchmark 分数,而是一次做对的概率大幅上升

  • 以前请求模型做一件事经常跑偏
  • 现在它能更频繁地一次做对,因为它能更准确地判断用户想要什么
  • 在执行中能感知自己是否走在正确方向上

这与 Every 团队此前评价的"低摩擦胜任感"(low-friction competence)一致。

原创数学贡献

Altman 确认 GPT-5.4 已经开始在数学领域产出原创性贡献

  • 解决了至少一个匈牙利数学家 Erdős 提出的、存在 60 年的猜想
  • 有数学家预测 2026 年将成为 AI 贡献首次通过数学期刊同行评审的年份
  • 核心能力不是记住训练数据,而是推理过程本身

这意味着"预测模型只能重复训练数据、不可能产出新东西"的判断被证伪。

GPT-5.5 的三种能力来源

Altman 认为让 AI 变聪明有三条路:

  1. 造更多算力 — 最确定,只需要钱和复杂供应链
  2. 算法突破 — 回报最高,但方向和时间不可预测
  3. 更好的数据 — 居中,范围最广。模型证明新定理后,下一轮训练就多了一条新素材,递归式知识增长已经在发生

2026-04-29 更新:GPT-5.5 新基准与 AWS Bedrock 上线

来源:AINews 2026-04-29AI 简报 2026-04-29 Morning

Epoch Capabilities Index: GPT-5.5 Pro 达到 159,FrontierMath 新高达成:Tiers 1–3 为 52%,Tier 4 为 40%(含两个此前无模型解决的 Tier 4 问题)。

ARC-AGI-3 测试: Greg Kamradt 已完成 GPT-5.5 和 Opus 4.7 的 ARC-AGI-3 测试,失败模式正在分析中。

AWS Bedrock 上线: GPT-5.5、Codex 和 Managed Agents 正式通过 Amazon Bedrock 提供(限量预览)。此前企业使用 OpenAI 模型基本只能走 Azure;AWS 客户现在可在熟悉环境中直接调用。Codex 周活用户已超 400 万。

OpenAI 财务争议: 《华尔街日报》报道 OpenAI 未能达到营收和用户增长目标,CFO Sarah Friar 对其巨额支出提出质疑。OpenAI 称该报道"荒谬"。

Sam Altman 暗示 GPT-6: Sam Altman 推文预热 GPT-6,AINews 编辑团队称"GPT-6 的炒作已经开始"。


Sources

Synthesized from 11 sources
  • Every 2026-04-24 Vibe Check GPT-5.5 Has It AllSupporting source listed by this page.Whole pagemediumbody
  • The Rundown 2026-04-24 OpenAI Spud reshuffles the AI frontierSupporting source listed by this page.Whole pagemediumbody
  • AINews 2026-04-25 DeepSeek V4 Pro and Flash on Huawei AscendSupporting source listed by this page.Whole pagemediumbody
  • AINews 2026-04-28 ImageGen is on the Path to AGISupporting source listed by this page.Whole pagemediumbody
  • AINews 2026-04-29Supporting source listed by this page.Whole pagemediumbody
  • AI 简报 2026-04-29 MorningSupporting source listed by this page.Whole pagemediumbody
  • AI 简报 2026-04-29 AfternoonSupporting source listed by this page.Whole pagemediumbody
  • 2026-04-30-17-15Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-05-01 Agents for Everything Else Codex for Knowledge Work Claude for Creative WorkSupporting source listed by this page.Whole pagemediumabsorb log
  • 2026-05-01 Who Isn't Using GPT 5.5Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-05-02 Sam Altman 谈 GPT-5.5 及其他Supporting source listed by this page.Whole pagemediumabsorb log

Evolution

1 event
  1. absorbed

    Derived from source material

    This page is currently synthesized from 11 sources.

    From Every 2026-04-24 Vibe Check GPT-5.5 Has It All, The Rundown 2026-04-24 OpenAI Spud reshuffles the AI frontier, AINews 2026-04-25 DeepSeek V4 Pro and Flash on Huawei Ascend, AINews 2026-04-28 ImageGen is on the Path to AGI, AINews 2026-04-29To GPT-5.5 ("Spud") — 模型评估
    Sources: raw/newsletters/Every/2026-04-24 Vibe Check GPT-5.5 Has It All.md · raw/newsletters/The Rundown/2026-04-24 OpenAI Spud reshuffles the AI frontier.md · raw/newsletters/AINews/2026-04-25 DeepSeek V4 Pro and Flash on Huawei Ascend.md · raw/newsletters/AINews/2026-04-28 ImageGen is on the Path to AGI.md · raw/newsletters/AINews/2026-04-29 not much happened today.md · raw/briefing/AI Briefing/2026-04-29-08-33.md · raw/briefing/AI Briefing/2026-04-29-18-06.md · raw/briefing/AI Briefing/2026-04-30-17-15.md · raw/newsletters/AINews/2026-05-01 Agents for Everything Else Codex for Knowledge Work Claude for Creative Work.md · raw/newsletters/Every/2026-05-01 Who Isn't Using GPT 5.5.md · raw/social-triage/2026-05-02 Sam Altman 谈 GPT-5.5 及其他.md

Linked from