May 20, 2026 · 5:11 AM

GPT-5.5：OpenAI 最新旗舰的技术路线解读

OpenAI 于 2026 年 4 月 23 日发布 GPT-5.5，Terminal-Bench 2.0 达 82.7%、ARC-AGI-2 提升 11.7pp。本文从智能体编码、科学研究、安全机制三个维度解读核心数据，并分析「更少 token 完成更多」背后的技术路线信号。

三大公司大模型论文 @Graf

Research Brief

发布时间：2026 年 4 月 23 日 | 来源：OpenAI 官方公告 + System Card

OpenAI 在 4 月 23 日正式推出 GPT-5.5，随之发布的 System Card 明确了这是一次面向「智能体时代」的系统级升级，而不只是单项基准跑分的迭代。1

对 AI 研究者和工程师来说，GPT-5.5 最值得关注的不是绝对得分，而是 「更少 token，完成更复杂任务」 这条技术路线——它暗示 OpenAI 当前的核心优化目标已经从「扩参数拉分」转向「系统效率」。

关键技术提升

智能体编码：端到端解决率显著提升

GPT-5.5 在编码能力上的跃升是本次发布最具体的信号。2

基准	GPT-5.5	GPT-5.4	提升幅度
Terminal-Bench 2.0	82.7%	75.1%	+7.6pp
Expert-SWE（内部）	73.1%	68.5%	+4.6pp
SWE-Bench Pro（公开）	58.6%	57.7%	+0.9pp
ARC-AGI-2（Verified）	85.0%	73.3%	+11.7pp

Terminal-Bench 2.0 的 82.7% 代表当前公开测试的最高成绩。更值得注意的是 Expert-SWE——这是 OpenAI 的内部基准，考察的是真实工程项目中「从 0 到可合并 PR」的端到端能力，73.1% 意味着跨越了「需要人工频繁介入」和「可以独立推进」之间的某条实用门槛。

ARC-AGI-2 提升幅度最大（+11.7pp），达到 85.0%。ARC-AGI-2 专门考察需要跨上下文长推理的问题，这一提升与 OpenAI 公告中强调的「跨上下文推理能力改善」相互印证。

知识工作与科学研究：效率而非只是准确率

GPT-5.5 在 GDPval（跨 44 个职业的知识工作产出）得分 84.9%，OSWorld-Verified（真实计算机环境自主操作）78.7%，均优于 GPT-5.4。1

科学研究方向有两个具体案例值得关注：

数学研究者 Bartosz Naskręcki 用 GPT-5.5 在 Codex 中 11 分钟内完成了代数几何二次曲面相交可视化，并输出魏尔斯特拉斯模型。

Surface Intersection Lab 界面，显示 GPT-5.5 辅助生成的代数几何可视化，两个半透明二次曲面及红色高亮交线 — *GPT-5.5 在 Codex 中辅助生成的代数几何可视化界面 / 来源：OpenAI*

一位免疫学研究者用 GPT-5.5 Pro 分析约 28,000 个基因、62 个样本的基因表达数据集，输出详细研究报告，这项工作原本需要研究团队数月完成。

GeneBench（遗传学多阶段科学分析）得分 25.0%，对比 GPT-5.4 的 19.0%，提升幅度（+6pp）在各类基准中属于较高段位。BixBench（真实生物信息分析）得分 80.5%（GPT-5.4 为 74.0%），是该基准当前已发布模型中的最高分。

安全机制：「能力与护栏同步升级」

System Card 特别指出，GPT-5.5 配备了 OpenAI 迄今最完善的安全防护机制，包括：2

针对高级网络安全和生物学能力的专项红队测试
发布前收集了近 200 家可信早期合作方的真实场景反馈
对于 GPT-5.5 Pro（并行计算设置），部分场景单独评估，因为该配置在风险状态上可能与标准版存在差异

CyberGym 网络安全基准得分 81.8%（GPT-5.4 为 79.0%），Capture-the-Flag 内部测试达到 88.1%（+4.4pp）——这类能力提升本身是双刃剑，说明 OpenAI 在发布前做专项安全评估的必要性。

技术路线信号：「更少 token 完成更多」意味着什么

这是本次发布对研究者影响最直接的判断：

OpenAI 在公告中明确表示，GPT-5.5 「完成相同任务消耗的 token 数量显著更少，同时保持和 GPT-5.4 相同的每 token 延迟」。在 Artificial Analysis 编码指数中，GPT-5.5 以「竞品一半的成本」实现当前最优智能水平。3

这条路线的含义：OpenAI 当前的核心优化方向不是单纯的参数规模增长，而是在固定推理延迟约束下，提升每次前向传播的「问题分辨率」。这与 Anthropic 在 Claude 4 系列中强调的「长上下文利用率」、Google Gemini 系列的「多模态路由效率」形成了各自不同的技术侧重，三家路线正在分叉。

研究者和工程师可以据此调整对 GPT-5.x 系列的使用策略：当任务涉及长流程智能体编码或多步骤科学分析时，GPT-5.5 的 token 效率优势会被放大；对话式问答或单轮生成场景中，优势可能不如多步骤任务明显。