GPT-5.5 is coming! No. 1 on the list, crushing Opus 4.7, OpenAI avenges tonight

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

凤凰网科技 ifeng

Document Text 4,586 characters

新智元报道 编辑：好困桃子 【新智元导读】就在刚刚，奥特曼深夜掷出GPT-5.5！全方位暴击Claude Opus 4.7，重新夺回地表最强王座。从写代码到搞科研，AI独立接管电脑的时代真的来了！ 硅谷今夜未眠！ 就在刚刚，GPT-5.5震撼登场——OpenAI迄今最强、最全能的新一代旗舰模型。 它是一种全新级别的智能，彻底进化为Agent时代的「原生大脑」。 没错，就是那个万众期待的「土豆」（Spud），终于在今天杀出来了。 最值得看的是，GPT-5.5在各项基准测试中：全榜第一！ 不论在编程、推理、数学，还是智能体任务上，Claude Opus 4.7、Gemini 3.1 Pro完全被GPT-5.5踩在了脚下。 相较于上一代，GPT-5.5 Thinking堪称「降维打击」，拉开了代际差距。 在AAI测试中，相同输出token下，GPT-5.5智能指数冠绝全球；另在ARC-AGI-2上，同样刷新了SOTA。 奥特曼忍不住大加赞赏，「GPT-5.5既聪明又快速」。 每个token的速度与GPT-5.4一样快，且每个任务使用token量显著降低。 它可以几乎做到心领神会，知道自己该做什么！ 总裁Greg激动称，「这朝着一种全新的计算机工作方式迈出了一步」。 今天起，GPT-5.5在ChatGPT、Codex中正式上线。 编程新王登场 Opus 4.7跌落神坛 先看最核心的编程领域，GPT-5.5可谓是打了一场漂亮的翻身仗！ 用OpenAI的话来说，它是迄今为止最强大的智能体编程模型。 Terminal-Bench 2.0测试考的是全链路Agent工程实力。 题目会给模型一个终端环境和一个模糊目标，让它自己规划路径、调工具、写脚本、处理报错、反复迭代。 在这里，GPT-5.5拿下82.7%，GPT-5.4是75.1%，Claude Opus 4.7只有69.4%。13个百分点的差距，碾压级别。 OpenAI内部的Expert-SWE评测，专门测那些人类预估中位完成时间20小时的长周期编程任务，GPT-5.5拿到73.1%，同样高于GPT-5.4的68.5%。 在业界公认最能反映真实GitHub问题解决能力的评测SWE-Bench Pro中，GPT-5.5得分58.6%，略逊色于Claude Opus 4.7（64.3%）。 不过，OpenAI在这个数据旁边标了一个星号，写着「Anthropic报告称在部分问题子集上存在过拟合（记忆）迹象」。 换句话说就是，Opus 4.7虽然考试成绩好，但我怀疑你背过答案。 Codex研究员直言：SWE-Bench早已不能衡量顶尖编程能力了 最关键是，在这三项的评估中，GPT-5.5使用了更少的token，但仍全面赶超GPT-5.4。 这一能力在Codex中，体现得更为明显。 它可以完成「端到端」的编程任务，从实现、重构到调试、测试和验证等流程。 举个栗子，让GPT-5.5做一个阿尔忒弥斯II太空任务可视化应用。 首先把一张任务的截图扔给GPT-5.5，然后要求用WebGL和Vite实现一个可交互的3D轨道模拟器，轨迹数据必须来自NASA/JPL Horizons的真实矢量数据，并且还要有逼真的轨道力学。 只见，GPT-5.5从零搭完，鼠标拖拽能转，猎户座飞船、月球、太阳的相对位置都对得上。 自动播放 再来一个坦克打飞碟。 Prompt要求用Three.js做一个UFO射击游戏，玩家控制坦克击落头顶飞过的飞碟，「低多边形但要好看」，先给出完整文件结构和需要改动的文件清单，再写全部代码，「完成之前不许停」。 GPT-5.5全部照单执行，从文件结构到Three.js渲染到射击判定，一口气交付了一个可玩的3D游戏。 自动播放 在3D地牢竞技场中，Codex包办游戏架构、TypeScript/Three.js实现、战斗系统、敌人遭遇和HUD反馈。 GPT生成了环境贴图，OpenAI API生成了角色对话，角色模型、贴图和动画来自第三方素材工具。几个AI各管一摊，拼出一款能打怪的游戏。 自动播放 早期测试的大佬直言， GPT‑5.5拥有更强的理解系统形态的能力。 它更能判断问题出在哪，修复该加在哪，以及代码库中还有哪些地方会受到牵连。 85% OpenAI员工用疯 这才是真正干活的AI 编程之外，GPT-5.5在「知识型工作」上的数据同样亮眼。 毕竟，OpenAI将其称为，「一种面向真实工作的全新智能」。 它能更快地理解你想要做什么，并在不同工具之间切换，直到任务完成。 GDPval，评估AI在44个职业中完成规范知识工作的水平，GPT-5.5拿到84.9%，Opus 4.7是80.3%，Gemini 3.1 Pro只有67.3%。 OSWorld-Verified，测试模型能否独立操作真实电脑环境，GPT-5.5得分78.7%，和Opus 4.7的78.0%几乎打平。 Tau2-bench，测试模型能否在复杂客服工作流中处理多轮对话、查询系统、执行操作。，GPT-5.5在没有微调提示词的情况下达到98.0%。 有意思的是OpenAI自己怎么用的。据官方博客披露，公司内部超过85%的员工每周跨部门使用Codex。 公关部门用GPT-5.5分析了六个月的演讲邀约数据，搭建了评分和风险框架，让低风险请求自动走Slack AI智能体处理。 财务部门审查了24,771份K-1税表，共71,637页，比去年提前两周完成。 市场团队实现了每周业务报告自动生成，每周省5到10个小时。 如今，在Codex中，通过GPT-5.5可与Web应用直接交互，测试流程、点击页面、截取屏幕，并根据所见内容不断迭代，直到完成任务。 如下是，测试入职流程的一个例子。 Codex还可以生成更高质量的电子表格、PPT和文档，如下是一个财务建模的demo。 应用内新增的文件查看器，可加快审阅、修订和迭代速度，让文件更快准备好分享。 在计算机使用上，Codex操作电脑能力更强了。 无论是识别屏幕内容，还是点击、打字、导航，甚至是跨工具流转上下文信息，它都能轻松搞定。 OpenAI研究员Noam Brown直言，有了GPT-5.5，自己也能像专业人士一样编写CUDA内核，运行研究实验。 颠覆科研 证明「拉姆齐数」定理 除了这些，GPT-5.5还协助发现了一个关于拉姆齐数的新证明，并在Lean语言中得到了验证。 拉姆齐数是组合数学的核心研究对象，通俗地说就是一个网络大到什么程度，才一定会出现某种规律性结构。这个领域的新结果极其罕见。 论文地址：https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf 这个领域的研究成果极其罕见，技术难度极高。GPT-5.5发现了一个关于非对角拉姆齐数长期渐近事实的证明。 不是写代码，不是做解释，是提出了一个有价值的数学论证。 GeneBench上，GPT-5.5得分25.0%，GPT-5.4是19.0%。这个评测专门测多阶段科学数据分析，要求模型在几乎没有人工干预的情况下处理模糊数据、应对隐藏混杂因素。 BixBench，基于真实生物信息学设计的评测，GPT-5.5在所有已公开分数的模型中排名第一，80.5%。 FrontierMath Tier 4，由陶哲轩等顶级数学家策划的前沿数学题库中最难一档，题目涉及代数几何、数论等方向，难度接近未发表研究。 GPT-5.5得分35.4%，GPT-5.4是27.1%，Opus 4.7只有22.9%。差距超过12个百分点。 对比一下Tier 1-3的差距只有8个百分点（51.7% vs 43.8%），说明越到数学前沿，GPT-5.5的优势越悬殊。 Jackson基因医学实验室的免疫学教授Derya Unutmaz用GPT-5.5 Pro分析了一个包含62个样本、近28,000个基因的表达数据集。 模型出具了一份详尽的研究报告，不仅总结了发现，还深挖出关键问题和洞察。相比之下，如果这活儿让人类团队来干，得花上好几个月。 波兹南·密茨凯维奇大学数学助教Bartosz Naskręcki在Codex中，仅用11分钟就从一个单一提示词构建了一个代数几何应用，可视化了二次曲面的交集，并将生成的曲线转换为Weierstrass模型。 从编程到知识工作再到科研，升番到这里，结论摆在眼前。 GPT-5.5不是又一次「小版本迭代」，它是一次全新基座模型带来的整体性跃升。 全方位击败Opus 4.7，就看一张图 总言之，GPT-5.5的诞生，堪称迎来了脱胎换骨的蜕变。对战Opus 4.7，一张图就够了。 另在Vending-Bench中，GPT-5.5同样暴击Opus 4.7。 Opus 4.7的表现跟4.6差不多：老是对供应商撒谎，还在退款上坑顾客。相比之下，GPT-5.5的手段就很正派，而且照样赢下了比赛。 奥特曼还玩个梗，「千万别转，千万别转，千万别转....哎，算了吧，生活终究是在模仿艺术」。 定价翻倍 更强，但也更贵 说完实力，必须说钱。 GPT-5.5的API定价，每百万输入Token 5美元，每百万输出Token 30美元。 GPT-5.4是多少？2.50美元和15美元。 整整翻了一倍。 GPT-5.5 Pro更夸张，输入30美元，输出180美元。 对比一下Opus 4.7，输入5美元，输出25美元。GPT-5.5的输入价格和Opus 4.7持平，但输出贵了20%。 OpenAI给出的解释是token效率提升。同样的Codex任务，GPT-5.5用的token比GPT-5.4明显更少。 更强，而且更高效。 但算一笔账就知道，如果一个团队每月在GPT-5.4上花10万美元，切换到GPT-5.5后即使token用量减少30%，月账单依然会涨到14万美元左右。 换句话说，GPT-5.5是一个「你为更强的智能付更多的钱」的溢价产品。相比之下，GPT-5.4大概率会继续作为性价比之选存在。 OpenClaw已接入最强GPT-5.5 8天，一个时代的缩影 回头看这8天发生了什么。 4月16日，Anthropic用Opus 4.7在SWE-Bench Pro上发起突袭，从GPT-5.4手中夺走编程王座。 4月24日，GPT-5.5正式发布。Terminal-Bench碾压，定价翻倍，科研炸裂。 2026年的AI竞赛，已经不是「谁的模型更强」这一个维度的较量了。 在GPT-5.5的叙事里，OpenAI反复强调的是「探索全新的电脑办公方式」，一个能自主规划任务、调用多种工具、在浏览器和本地软件之间来回切换的通用Agent。 跑分是前菜，Agent化办公才是主战场。谁先定义「AI怎么替人干活」，谁就定义下一代电脑使用界面。 8天一个来回。这个节奏，只会更快。 参考资料： https://openai.com/index/introducing-gpt-5-5/ https://x.com/OpenAI/status/2047376561205325845?s=20

Metadata

Publisher	凤凰网科技
Site	ifeng
Date	N/A
CMS Category	媒体报道
Keywords	模型编程数学数据工具智能任务电脑领域碾压核心流程能力拉姆齐代码人类时代直言办公定义系统结构角色规范电子表格团队证明坦克报告轨道环境可视化策划问题跨部门公关全榜题目科研屏幕飞碟游戏飞船编辑方式月球智元研究员页面玩家头顶代数基因实验室差距医学免疫学数学家定价对话部分王座论文工程实力官方土豆迹象竞技场财务内核网络生物洞察顾客正派溢价概率博客万众记忆地牢建模专业人士程度信息学关键问题上坑手段产品性价比公司风险专门关键框架轨迹模拟器评分科学

Verification

Original URL
https://tech.ifeng.com/c/8sYPQuP3nK5

Compare with archived HTML