June 16, 2026 · 3:25 PM

GPT-5.5 发布：OpenAI 把主线模型推向「能持续做事」

本期拆解 OpenAI GPT-5.5 的核心能力、与 GPT-5.4 的差异、适用场景、成本门槛和安全限制，帮助开发者与产品团队判断是否需要第一时间评估迁移。

Research Brief

OpenAI 这次把 GPT‑5.5 放在两个关键词上：更会做事、更少来回。官方在 2026 年 4 月 23 日发布 GPT‑5.5，4 月 24 日补充 API 可用信息；它不是单点能力的小修，而是面向编码、电脑操作、资料研究、文档和表格产出的主力模型更新。1

如果你只想先判断要不要跟进，结论很短：**有长链路工具调用、复杂代码库、研究型检索或文档密集任务，就值得评估 GPT‑5.5；只是普通问答、短文本生成或成本敏感的批量任务，不必马上替换 GPT‑5.4。**官方定价显示，GPT‑5.5 的 API 输入价为每 100 万 tokens 5 美元、输出价 30 美元，正好是 GPT‑5.4 的两倍。2

速览：GPT‑5.5 到底新在哪里

GPT‑5.5 的核心变化不是「更会聊天」，而是更像一个能持续推进工作的执行型模型。OpenAI 的描述集中在四类任务：写代码和调试、在线研究、分析数据、创建文档与电子表格，并能在多个工具之间移动直到任务完成。1

它和 GPT‑5.4 的差异，可以先看这张表：

维度	GPT‑5.5 的变化	对用户的直接含义
发布形态	GPT‑5.5 面向 ChatGPT、Codex 和 API；GPT‑5.5 Pro 面向更高准确率任务。1	产品经理和开发团队需要同时评估 ChatGPT 体验、Codex 工作流和 API 接入成本。
编码代理	Terminal‑Bench 2.0 得分 82.7%，高于 GPT‑5.4 的 75.1%。1	更适合让模型处理多步骤命令行任务、调试和测试，而不是只让它补一段代码。
电脑使用	OSWorld‑Verified 得分 78.7%，高于 GPT‑5.4 的 75.0%。1	对需要浏览器、桌面环境、表格软件协同的 agent 产品更有参考价值。
知识工作	GDPval wins or ties 为 84.9%，GPT‑5.4 为 83.0%。1	幻灯片、表格、报告类任务的质量上限提高，但提升幅度不是所有场景都很大。
成本	GPT‑5.5 API 标准价为输入 5 美元 / 100 万 tokens、输出 30 美元 / 100 万 tokens。2	只有当更少返工、更少 tokens 或更高成功率能抵消价格差时，迁移才划算。

真正的技术亮点：从「回答问题」到「推进任务」

OpenAI 强调 GPT‑5.5 在 agentic coding、computer use、knowledge work 和早期科学研究上的提升。这里的关键词是「持续性」：模型要能读懂不完整需求，自己规划，调用工具，检查结果，再继续往下做。1

对开发者来说，最值得看的不是单次代码生成，而是 Terminal‑Bench、SWE‑Bench Pro、Expert‑SWE 这类更接近长期工程任务的指标。GPT‑5.5 在 Terminal‑Bench 2.0 上达到 82.7%，在 OpenAI 内部 Expert‑SWE 上达到 73.1%；SWE‑Bench Pro 则是 58.6%，只比 GPT‑5.4 的 57.7% 小幅提高。1

这说明一个现实问题：GPT‑5.5 更像是把「能不能坚持做完」往前推了一步，但它不是在所有公开代码修复榜单上都碾压。Appwrite 的同步解读也提醒，OpenAI 发布的 benchmark 仍属于厂商自报数据；在第三方独立评测更完整之前，生产迁移最好用自己的任务集复测。3

GPT-5.5 生成的曲面交点演示界面 — OpenAI 展示了 GPT‑5.5 在 Codex 中生成代数几何可视化应用的案例，用来说明模型把专家意图转成研究工具的能力。1

科学研究部分也值得单独看。OpenAI 称 GPT‑5.5 在 GeneBench 上较 GPT‑5.4 有明显提升，并在 BixBench 上达到 80.5%；它还提到一个内部版本协助发现了关于 Ramsey 数的新证明，随后用 Lean 验证。1这类叙述不能直接等同于「AI 可以独立做科研」，但它显示 OpenAI 正把模型定位从办公自动化推进到研究流程辅助。

与 GPT‑5.4 相比，升级价值在哪里

GPT‑5.4 的关键词是「专业工作」和原生 computer-use 能力：它把 GPT‑5.3‑Codex 的代码能力并入主线模型，支持 1M tokens 上下文，并引入 tool search。4GPT‑5.5 则是在这个基础上继续强调更高智能、更少 tokens 和同等 per-token latency。1

GPT-5.4 生成表格输出的官方对比截图 — GPT‑5.4 发布时已经把表格、演示文稿和文档产出作为重点；GPT‑5.5 是在这条专业工作路线上继续提高执行稳定性。4

可以把差异理解成三层：

**长任务更稳。**如果你的工作流会让模型跨文件、跨网页、跨工具来回切换，GPT‑5.5 的优势更容易体现。OpenAI 称它在同样 Codex 任务上使用更少 tokens，并保持 GPT‑5.4 级别的 per-token latency。1
**复杂知识工作更有胜率。**GDPval 84.9%、OfficeQA Pro 54.1%、FinanceAgent 60.0% 这些指标说明，模型在办公室文档、金融分析、结构化交付上继续提高。1
**成本门槛更高。**GPT‑5.5 的基础 API 输出价是 GPT‑5.4 的两倍；如果你的场景只是分类、摘要、客服短回复，GPT‑5.4 或 mini 模型仍可能更合适。2

TechCrunch 报道中，OpenAI 总裁 Greg Brockman 把 GPT‑5.5 形容为朝「更 agentic、更直觉化的计算」迈进的一步，并把它和 OpenAI 未来把 ChatGPT、Codex、浏览器等能力合成「super app」的方向联系起来。5这句话对产品团队很重要：GPT‑5.5 的价值可能不在一个聊天框里，而在它被接进企业工具链之后。

谁应该第一时间试用，谁可以等等

适合优先试 GPT‑5.5 的场景：

代码库改造、自动测试、bug 复现、跨文件重构，尤其是已经在用 Codex 的团队。GPT‑5.5 在 Codex 中面向 Plus、Pro、Business、Enterprise、Edu 和 Go 计划开放，并有 400K context window。1
需要模型操作网页、表格、文档、内部工具的企业 agent。GPT‑5.5 在 OSWorld‑Verified 和 Toolathlon 等工具相关 benchmark 上高于 GPT‑5.4。1
科研、药物发现、数据分析这类高不确定任务。OpenAI 把早期科学研究列为 GPT‑5.5 的重点能力区，并给出 GeneBench、BixBench 和 Ramsey 数证明案例。1

可以暂缓迁移的场景也很明确：

Appwrite 用 GPT-5.5 生成的蛋糕店界面示例 — Appwrite 的评测样例认为，GPT‑5.5 在推理和代码执行上更强，但 UI 视觉默认仍容易落回卡片式布局；这类任务需要明确设计约束，而不能只换模型。3

你的请求短、流程浅、失败成本低，主要看每百万 tokens 成本；此时 GPT‑5.5 两倍于 GPT‑5.4 的标准 API 单价会直接压低性价比。2
你的工作负载已经被 GPT‑5.4 稳定覆盖，没有明显返工、漏测或工具选择问题；GPT‑5.5 的官方优势主要集中在更长链路的 coding、computer use 和 tool-heavy 工作。1
你依赖严格可复现 benchmark，而目前最完整的数据仍主要来自 OpenAI 自己；Appwrite 也把这些数字标注为厂商自报，建议等待更多第三方评测。3

换句话说，GPT‑5.5 不是「所有请求都换上去」的模型。它更像一个高价高能力执行层，应该放在任务链最长、错误代价最高、人工返工最多的位置。

安全与限制：能力提升带来的新门槛

OpenAI 在 GPT‑5.5 System Card 中写明，发布前做了完整的安全评估，包括 Preparedness Framework、针对高级网络安全和生物能力的红队测试，并收集了近 200 个早期访问伙伴的真实用例反馈。6

这不是附属信息。GPT‑5.5 的卖点正是更会使用工具、更能坚持完成任务；同样的能力一旦进入网络安全、生物化学等高风险领域，误用风险也会同步提高。OpenAI 官方发布文中称，它将 GPT‑5.5 的生物 / 化学和网络安全能力视为 Preparedness Framework 下的 High，但未达到 Critical。1

对企业用户来说，下一步不是把宣传页里的 benchmark 抄进采购评审，而是做三件事：

选一组真实历史任务，比较 GPT‑5.4、GPT‑5.5 和当前替代模型的完成率、人工修正次数、总 tokens 与总耗时；这样才能验证 OpenAI 关于更高能力和更少 tokens 的主张是否适用于自己。1
把高风险工具调用拆出来，给 GPT‑5.5 单独设置权限、审计日志和人工确认点；OpenAI 已把生物 / 化学和网络安全能力列入 High 风险级别处理。6
对长链路任务记录「失败在哪里」，不要只看最终答复是否好看；这比单看公开 benchmark 更能说明模型能否在你的工作流里回本。3