• 正文
  • 相关推荐
申请入驻 产业图谱

GPT 5.5 与 Opus 4.7 测评(GPT 5.5 版)

10小时前
266
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

先说结论:如果只看你给的这张榜单,GPT-5.5 已经把“通用 Agent 大脑”的位置重新抢回来了。Terminal-Bench 2.0、GDPval、BrowseComp、FrontierMath、CyberGym 这些指标连在一起看,OpenAI 这次不是在炫一个更会聊天的模型,而是在证明一件事:GPT-5.5 更擅长把模糊任务推进到结果。

但如果把网上测评和 Anthropic 自己的发布信息一起放进来,结论会变得更有意思:Claude Opus 4.7 并没有被“碾压”。它输在更广义的 Agent 任务上,却仍然在真实代码修复、长程代码审查、高分辨率视觉和输出克制感上保留了非常清晰的优势。

所以这篇文章不想写成“谁吊打谁”。我更愿意把它看成两条路线的正面交锋:OpenAI 在推“会使用电脑的通用执行者”,Anthropic 在打磨“可靠、克制、能长时间写代码的高级同事”。

先读榜单:GPT-5.5 赢在哪里

这张图里最关键的不是某一个单点分数,而是 OpenAI 选出来的评测组合。

Terminal-Bench 2.0 测的是“模型能不能在终端里自己干活”:规划、调工具、看报错、改脚本、继续迭代。GPT-5.5 Thinking 是 82.7%,GPT-5.4 Thinking 是 75.1%,Claude Opus 4.7 是 69.4%。这个差距很扎眼,因为它不是百科问答,也不是单文件代码补全,而是更接近今天开发者真正想交给 Agent 的那类工作。

GDPval 测的是知识工作。GPT-5.5 Thinking 84.9%,Opus 4.7 80.3%,Gemini 3.1 Pro 67.3%。这个指标说明 GPT-5.5 在“把资料整理成工作产物”上更强:报告、表格、分析、决策框架、业务文档,都是它想吃下来的市场。

OSWorld-Verified 反而最值得冷静看。GPT-5.5 Thinking 是 78.7%,Opus 4.7 是 78.0%,几乎打平。也就是说,在真实电脑操作环境里,GPT-5.5 的领先不是断层式的,至少从这项公开图表看,它更像小幅优势。

BrowseComp 上,GPT-5.5 Pro 是 90.1%,GPT-5.4 Pro 是 89.3%,Gemini 3.1 Pro 是 85.9%,Opus 4.7 是 79.3%。这里我会把它理解为 OpenAI 在“带搜索、带浏览器、带工具的信息获取”上继续保持强势。做研究、写报告、查资料,这部分 GPT-5.5 的优势会被放大。

FrontierMath 是另一条线。Tier 4 上,GPT-5.5 Thinking 35.4%,GPT-5.5 Pro 39.6%,Opus 4.7 22.9%,Gemini 3.1 Pro 16.7%。如果这些分数能在后续独立评测中站住,GPT-5.5 在前沿数学和科研辅助上的提升会非常重要。

CyberGym 上 GPT-5.5 Thinking 81.8%,Opus 4.7 73.1%。但这类网络安全指标要谨慎读:能力强是一方面,平台限制、可信访问、合规边界是另一方面。越强的模型,越不适合只用“能不能做”来评价。

但榜单没讲完:Opus 4.7 在 SWE-Bench Pro 上赢了

OpenAI 官方发布页里还有一组非常重要的数据:SWE-Bench Pro 上,GPT-5.5 是 58.6%,Claude Opus 4.7 是 64.3%。这不是小差距。

SWE-Bench Pro 更接近“真实 GitHub issue 能不能修好”。它考的不是模型会不会写一个算法题答案,而是能不能理解一个已有代码库的问题、改对文件、通过测试、别把别处弄坏。在这个维度上,Opus 4.7 更像一个谨慎的资深工程师。

这也是为什么我不赞成只根据 OpenAI 那张图下结论。GPT-5.5 在 Terminal-Bench 里赢很多,说明它更擅长终端和多步骤执行;Opus 4.7 在 SWE-Bench Pro 里赢,说明它在复杂代码修复上更稳。两者不是同一种胜利。

把它翻译成日常选择就是:

    你要一个模型自己开终端、跑命令、查错、推进任务,GPT-5.5 更适合。你要一个模型认真读仓库、修真实 issue、做代码审查,Opus 4.7 仍然非常强。

官方定位:OpenAI 要做执行者,Anthropic 要做可靠同事

OpenAI 对 GPT-5.5 的表述很明确:它不是单纯的聊天模型,而是面向 agentic coding、computer use、knowledge work 和 scientific research 的模型。

官方说 GPT-5.5 在 ChatGPT 和 Codex 中向 Plus、Pro、Business、Enterprise 用户推出,Codex 里默认 400K 上下文;API 会很快上线。价格是每 100 万输入 token 5 美元、输出 token 30 美元,GPT-5.5 Pro 则是 30 美元输入、180 美元输出。

这个价格已经说明 OpenAI 对它的定位:GPT-5.5 不是便宜模型,它卖的是“更少轮次、更少返工、更少人工接手”的任务完成率。

Anthropic 对 Opus 4.7 的定位也很清楚。它在 2026 年 4 月 16 日发布,已经在 Claude 产品、API、Amazon Bedrock、Google Vertex AI、Microsoft Foundry 上可用,价格维持在每 100 万输入 token 5 美元、输出 token 25 美元。Anthropic 强调的是高级软件工程、长时间任务、严格指令遵循、自我验证,以及更高分辨率视觉:最长边 2576 像素,约 3.75 百万像素。

我很喜欢这两个公司的差异。OpenAI 的语言是“让模型完成任务”;Anthropic 的语言是“让模型可靠地完成困难任务”。听起来很像,但产品气质不一样。

第三方测评里的一个冷水:GPT-5.5 更强,也更爱答

Artificial Analysis 的测评给 GPT-5.5 很高评价:它说 GPT-5.5 在 Intelligence Index 上领先 3 分,打破了 OpenAI、Anthropic、Google 三方并列的局面;还提到 GPT-5.5 的 token 使用量比 GPT-5.4 少约 40%,所以虽然单价涨了,跑完整个指数的成本净增约 20%。

这对企业很关键。一个模型单价贵,不一定代表任务成本贵;如果它少走弯路、少输出废话、少重试,最后可能更省。

但同一篇测评也给了一个很锋利的提醒:在 AA-Omniscience 这个私有事实知识与幻觉评测里,GPT-5.5 xhigh 的准确率最高,但幻觉率也高达 86%;Claude Opus 4.7 max 是 36%,Gemini 3.1 Pro Preview 是 50%。

这个数字不应该被简单外推到所有场景,但它提醒我们一件事:GPT-5.5 的“自信推进”是双刃剑。它更愿意回答,更愿意继续往前走,也就更需要外部校验、引用约束和工具闭环。Opus 4.7 的克制,有时候不是慢,而是在少制造需要你擦屁股的内容。

详细对比:别问谁最强,要问你把它放在哪

维度 GPT-5.5 Claude Opus 4.7 我的判断
终端与多步骤执行 Terminal-Bench 2.0 82.7%,明显领先 69.4%,不弱但落后明显 GPT-5.5 更像 Agent 执行核心
真实代码修复 SWE-Bench Pro 58.6% SWE-Bench Pro 64.3% Opus 4.7 更适合高风险代码修复
知识工作 GDPval 84.9%,Office/文档/表格能力强 GDPval 80.3%,也在第一梯队 GPT-5.5 更适合办公自动化闭环
电脑操作 OSWorld 78.7% OSWorld 78.0% 几乎打平,GPT-5.5 略优
浏览与检索 GPT-5.5 Pro BrowseComp 90.1% BrowseComp 79.3% GPT-5.5 Pro 优势很明显
高难数学 FrontierMath Tier 4:Thinking 35.4%,Pro 39.6% 22.9% GPT-5.5 在前沿数学上更有冲击力
视觉细节 更强调 computer use 场景 2576px 长边、约 3.75MP,高分辨率截图/图表更友好 精细读图我会优先试 Opus 4.7
价格 GPT-5.5:$5/$30;Pro:$30/$180 $5/$25 Opus 输出单价更低,GPT 看任务完成成本
风格 更主动、更推进、更像执行器 更克制、更字面、更像审稿人 取决于你要冲刺还是要稳

我的实际选型建议

如果你是开发者,我会这样用:

第一轮需求拆解、脚手架、终端操作、跑测试、查依赖、写自动化脚本,交给 GPT-5.5。它的 Terminal-Bench 和 GDPval 优势,说明它更适合“从一团乱麻里先把东西跑起来”。

第二轮代码审查、复杂 bug、架构边界、多人协作下的 PR 质量,交给 Opus 4.7。它在 SWE-Bench Pro 上的领先,以及 Anthropic 对自我验证、严格指令遵循的强调,都更贴近“别把生产代码弄坏”这个底线。

如果你是内容创作者或研究者,我会这样用:

资料搜集、网页浏览、建立大纲、生成对比表、把碎片变成初稿,GPT-5.5 更顺。它的 BrowseComp 和知识工作能力很适合做“研究助理”。

最后成稿、逻辑修整、语气控制、删掉过度自信的判断,Opus 4.7 更舒服。尤其是你不希望文章太像模型在表演,而希望它像一个人认真想过,Claude 的克制感仍然有价值。

如果你是企业团队,我的建议更简单:别二选一,做路由。

把任务分成三类:

    需要推进、调工具、跨系统执行:GPT-5.5。需要代码正确性、审查质量、严格遵循规则:Opus 4.7。简单分类、摘要、格式转换:便宜模型。

到 2026 年,模型选型已经不是信仰问题,而是调度问题。真正有价值的不是押中唯一王者,而是知道什么时候该把任务交给谁。

这张榜单给我的感悟

我看到这张图的第一反应不是“OpenAI 又赢了”,而是“评测终于越来越像真实工作了”。

我:GPT-5.5 给我的感觉,不是“答得更漂亮”,而是“更敢把任务接过去”。这很迷人,也有一点危险,因为一个更主动的模型,必须配上更强的校验链路。

我:Opus 4.7 给我的感觉,则像一个不急着抢方向盘的同事。它未必每一步都最快,但在代码、审稿、长上下文这些需要稳住边界的地方,会让人更愿意把最后一道关交给它。

过去我们看模型榜单,经常看 MMLU、数学题、选择题、问答题。那些指标当然有用,但它们离真实工作还有一层距离。真实工作不是答对一道题,而是理解目标、拆解路径、使用工具、遇到错误继续走、最后交付一个能用的东西。

GPT-5.5 这次最强的信号,恰恰是它在 Terminal-Bench、GDPval、BrowseComp、OSWorld 这些“工作流型评测”上的表现。它代表一种趋势:模型正在从“回答器”变成“执行系统”。

但我也越来越不相信单模型神话。

越强的模型,性格越重要。GPT-5.5 的主动性是优点,也是风险。Opus 4.7 的克制是优点,也可能让它在某些任务里显得慢半拍。Gemini 3.1 Pro 在 BrowseComp 里也没有掉队,价格和长上下文仍然可能在一些场景里非常香。

未来的工作流大概不会是“我买了某一个最强模型”,而是“我有一组模型同事,各自有脾气,各自有长板,我把任务派给最合适的那一个”。

最后怎么选

如果只能选一个做通用 Agent,我选 GPT-5.5。它更像下一代电脑使用方式的核心模型:能写代码、能开终端、能看屏幕、能搜资料、能做文档,还能把一件事情持续推进。

如果只能选一个做严肃代码伙伴,我选 Claude Opus 4.7。它不是榜单上最耀眼的那个,但它在真实代码修复、长时间任务、输出可靠性上的气质更稳。

一句话总结:

GPT-5.5 是更强的执行者,Opus 4.7 是更稳的审查者。前者帮你把事情往前推,后者帮你少踩坑。真正聪明的用法,是让它们互相制衡。

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录

cxuan 写的文章还不错。会分享计算机底层、计算机网络、操作系统,Java基础、框架、源码等文章。