OpenAI · 大模型
OpenAI 发布 GPT-5.5
OpenAI 正式推出 GPT-5.5,这是一款主打 agentic 自主执行能力的新模型。相比前代 GPT-5.4 和 Claude Opus 4.7,GPT-5.5 在 Terminal-Bench 2.0 编程评测上领先约 8 至 13 个百分点,在 GDPval 知识工作、OSWorld-Verified 计算机操作以及 GeneBench 科研任务上也展现出显著优势。OpenAI 强调该模型能自主理解复杂目标、规划工具使用、检查工作并推进任务闭环,同时保持与 GPT-5.4 相同的推理速度但 token 消耗更低。内部研究还发现 GPT-5.5 协助在 Ramsey 数问题上发现了新的证明。
- 域名
openai.com- 评分
- 5 · 重大发布
- 发布
- 2026-04-24
导读
OpenAI 于 4 月 24 日发布 GPT-5.5,把"模型"这个词的内涵从聊天答复扩到了完整的工作闭环。 官方对它的定位是 agentic GPT:理解复杂目标、自主规划工具调用、对每一步结果做自我检查、 必要时回滚再试。这条产品线和过去几代 GPT 不同的地方在于编程与计算机使用能力被作为 一类一等公民来训练,而不是顺带优化的副产物。
公开 benchmark 上,Terminal-Bench 2.0 编程任务领先 GPT-5.4 约 8 个百分点、Claude Opus 4.7 约 13 个百分点;OSWorld-Verified 计算机操作和 GeneBench 知识工作上同样领先。 GDPval 这个新设计的真实工作场景评测,GPT-5.5 也拿到 SOTA。OpenAI 同步开放了 Trusted Access for Cyber 计划,验证后的安全研究者可调用专门微调的 GPT-5.5-Cyber 做漏洞挖掘。
对开发者的实际含义是 long-horizon 任务的"放心交付"门槛降低了——之前需要盯着随时纠偏 的多步骤代码生成或文档处理流程,这一代可以把更长的链条交给单个 model 跑通。但 token 消耗与 GPT-5.4 相当,价格未涨,agent 应用的运营成本曲线仍然敏感。
原文摘要
标签 大模型 产品名 GPT-5.5 分类 闭源 收录时间 2026/04/24 网址 openai.com/ind…t-5-5/ 岗位辅助 通用 行业 通用 3 more properties OpenAI深夜炸弹放出了:GPT-5.5,超Claude Opus 4.7 GPT-5.5被定义为面向实际工作的新一代智能,强调的是agentic,注重真实工作场景中的自主执行能力 也就是说从理解复杂目标、自主规划、使用工具、检查工作、处理模糊性,并将任务推进至完成 在自己最强的领域Terminal-Bench、GDPval、特定长上下文检索任务上领先,在智能体式自主执行这个范式上建立了明显优势 编程能力,在Terminal-Bench 2.0达到SOTA,领先GPT-5.4近8个百分点,领先Claude Opus 4.7 13个百分点 在多样化知识工作上优势突出,在GDPval上领先;计算机操作能力OSWorld-Verified上超5.4、Claude Opus 4.7 科学研究方面,GeneBench 25%(GPT-5.4 19%),GPT-5.5 Pro为33.2%;内部定制的GPT-5.5协助发现了关于Ramsey数的新证明,在Lean中完成验证 与GPT-5.4速度相同,完成相同Codex任务使用token更少 OpenAI这次重点强调agentic执行能力,在bench…