
GPT-5.5 发布:OpenAI 把主线模型推向「能持续做事」
本期拆解 OpenAI GPT-5.5 的核心能力、与 GPT-5.4 的差异、适用场景、成本门槛和安全限制,帮助开发者与产品团队判断是否需要第一时间评估迁移。
Research Brief
速览:GPT‑5.5 到底新在哪里
| 维度 | GPT‑5.5 的变化 | 对用户的直接含义 |
|---|---|---|
| 发布形态 | GPT‑5.5 面向 ChatGPT、Codex 和 API;GPT‑5.5 Pro 面向更高准确率任务。1 | 产品经理和开发团队需要同时评估 ChatGPT 体验、Codex 工作流和 API 接入成本。 |
| 编码代理 | Terminal‑Bench 2.0 得分 82.7%,高于 GPT‑5.4 的 75.1%。1 | 更适合让模型处理多步骤命令行任务、调试和测试,而不是只让它补一段代码。 |
| 电脑使用 | OSWorld‑Verified 得分 78.7%,高于 GPT‑5.4 的 75.0%。1 | 对需要浏览器、桌面环境、表格软件协同的 agent 产品更有参考价值。 |
| 知识工作 | GDPval wins or ties 为 84.9%,GPT‑5.4 为 83.0%。1 | 幻灯片、表格、报告类任务的质量上限提高,但提升幅度不是所有场景都很大。 |
| 成本 | GPT‑5.5 API 标准价为输入 5 美元 / 100 万 tokens、输出 30 美元 / 100 万 tokens。2 | 只有当更少返工、更少 tokens 或更高成功率能抵消价格差时,迁移才划算。 |
真正的技术亮点:从「回答问题」到「推进任务」

与 GPT‑5.4 相比,升级价值在哪里

- **长任务更稳。**如果你的工作流会让模型跨文件、跨网页、跨工具来回切换,GPT‑5.5 的优势更容易体现。OpenAI 称它在同样 Codex 任务上使用更少 tokens,并保持 GPT‑5.4 级别的 per-token latency。1
- **复杂知识工作更有胜率。**GDPval 84.9%、OfficeQA Pro 54.1%、FinanceAgent 60.0% 这些指标说明,模型在办公室文档、金融分析、结构化交付上继续提高。1
- **成本门槛更高。**GPT‑5.5 的基础 API 输出价是 GPT‑5.4 的两倍;如果你的场景只是分类、摘要、客服短回复,GPT‑5.4 或 mini 模型仍可能更合适。2
谁应该第一时间试用,谁可以等等
- 代码库改造、自动测试、bug 复现、跨文件重构,尤其是已经在用 Codex 的团队。GPT‑5.5 在 Codex 中面向 Plus、Pro、Business、Enterprise、Edu 和 Go 计划开放,并有 400K context window。1
- 需要模型操作网页、表格、文档、内部工具的企业 agent。GPT‑5.5 在 OSWorld‑Verified 和 Toolathlon 等工具相关 benchmark 上高于 GPT‑5.4。1
- 科研、药物发现、数据分析这类高不确定任务。OpenAI 把早期科学研究列为 GPT‑5.5 的重点能力区,并给出 GeneBench、BixBench 和 Ramsey 数证明案例。1

- 你的请求短、流程浅、失败成本低,主要看每百万 tokens 成本;此时 GPT‑5.5 两倍于 GPT‑5.4 的标准 API 单价会直接压低性价比。2
- 你的工作负载已经被 GPT‑5.4 稳定覆盖,没有明显返工、漏测或工具选择问题;GPT‑5.5 的官方优势主要集中在更长链路的 coding、computer use 和 tool-heavy 工作。1
- 你依赖严格可复现 benchmark,而目前最完整的数据仍主要来自 OpenAI 自己;Appwrite 也把这些数字标注为厂商自报,建议等待更多第三方评测。3
安全与限制:能力提升带来的新门槛
- 选一组真实历史任务,比较 GPT‑5.4、GPT‑5.5 和当前替代模型的完成率、人工修正次数、总 tokens 与总耗时;这样才能验证 OpenAI 关于更高能力和更少 tokens 的主张是否适用于自己。1
- 把高风险工具调用拆出来,给 GPT‑5.5 单独设置权限、审计日志和人工确认点;OpenAI 已把生物 / 化学和网络安全能力列入 High 风险级别处理。6
- 对长链路任务记录「失败在哪里」,不要只看最终答复是否好看;这比单看公开 benchmark 更能说明模型能否在你的工作流里回本。3
本频道后续会盯什么
Related content
Picked from other channels by content similarity—find new creators to follow.
Article·GPT-5.5:OpenAI 最新旗舰的技术路线解读
OpenAI 于 2026 年 4 月 23 日发布 GPT-5.5,Terminal-Bench 2.0 达 82.7%、ARC-AGI-2 提升 11.7pp。本文从智能体编码、科学研究、安全机制三个维度解读核心数据,并分析「更少 token 完成更多」背后的技术路线信号。
三大公司大模型论文
Article·AI Agent 生态速报 | 2026-04-22 至 24:GPT-5.5 登场、Anthropic 自曝 Bug、多 Agent 复杂度祛魅
本期覆盖 2026-04-22 至 04-24。三条主线:OpenAI GPT-5.5 在 Terminal-Bench 2.0 以 82.7% 超越 Opus 4.7(69.4%),但 Input/Output 定价翻倍;Anthropic 主动发布事后分析,坦承三个叠加 bug(推理强度降级、缓存清除、系统 prompt 变更)导致 Claude Code 质量下滑,4 月 20 日已修复;社区多 Agent 实践持续祛魅,亲历者普遍回归单 Agent + 强提示词路线。框架侧:Haystack v2.28.0 支持 State 直传、CrewAI 1.14.3a3 冷启动提升 29%;安全侧:Agent Vault 开源,实现凭证网络层代理注入、Agent 永不接触底层密钥。
Agent 生态周报
Article·6月第三周:GLM-5.2 开源,Qwen Code 走向多 Agent,ChatGPT 接管定时任务
6月16日至18日,Z.ai 发布 GLM-5.2,Qwen Code 一周合并 100+ PR 并引入 Agent Team,OpenAI 把 ChatGPT Scheduled tasks 做成主动任务入口,Google 则把 Gemini for Home 推进到新音箱。本文重点拆解这些更新背后的共同方向:长程任务、持久状态、权限控制和产品化落地。
LLM Release Notes
Article·OpenAI 日报:Codex 走向长任务,GPT-5.6 传有限预览
本期梳理 OpenAI 6 月 25 日后的主要动态:官方用 Codex 数据量化代理工具如何进入长任务和非开发者工作流,媒体称 GPT-5.6 或先进行有限伙伴预览,并跟进 Codex 与订阅相关服务状态。
OpenAI 动态日报
Article·OpenAI 日报:Jalapeño 芯片、GPT-5.5 Instant 与 Codex 规则更新
本期梳理 6 月 24 日至 25 日上午可确认的 OpenAI 动态:Jalapeño 推理芯片亮相,GPT-5.5 Instant 与 chat-latest 更新,Codex 计费和 Business seat 规则调整,并跟进表格工具与服务状态。
OpenAI 动态日报
Image post·AI 产品每日盘点|2026.06.25
2026-06-25 AI 产品更新盘点:OpenAI、Gemini、Google Finance、GitHub Copilot 和 Microsoft Copilot in Excel 同时把模型体验、Computer Use、学习、金融和开发者工作流往可执行任务推进。
AI 产品每日盘点

Add more perspectives or context around this Post.