GPT 5.5 与 Opus 4.7 测评（GPT 5.5 版）

先说结论：如果只看你给的这张榜单，GPT-5.5 已经把“通用 Agent 大脑”的位置重新抢回来了。Terminal-Bench 2.0、GDPval、BrowseComp、FrontierMath、CyberGym 这些指标连在一起看，OpenAI 这次不是在炫一个更会聊天的模型，而是在证明一件事：GPT-5.5 更擅长把模糊任务推进到结果。

但如果把网上测评和 Anthropic 自己的发布信息一起放进来，结论会变得更有意思：Claude Opus 4.7 并没有被“碾压”。它输在更广义的 Agent 任务上，却仍然在真实代码修复、长程代码审查、高分辨率视觉和输出克制感上保留了非常清晰的优势。

所以这篇文章不想写成“谁吊打谁”。我更愿意把它看成两条路线的正面交锋：OpenAI 在推“会使用电脑的通用执行者”，Anthropic 在打磨“可靠、克制、能长时间写代码的高级同事”。

先读榜单：GPT-5.5 赢在哪里

这张图里最关键的不是某一个单点分数，而是 OpenAI 选出来的评测组合。

Terminal-Bench 2.0 测的是“模型能不能在终端里自己干活”：规划、调工具、看报错、改脚本、继续迭代。GPT-5.5 Thinking 是 82.7%，GPT-5.4 Thinking 是 75.1%，Claude Opus 4.7 是 69.4%。这个差距很扎眼，因为它不是百科问答，也不是单文件代码补全，而是更接近今天开发者真正想交给 Agent 的那类工作。

GDPval 测的是知识工作。GPT-5.5 Thinking 84.9%，Opus 4.7 80.3%，Gemini 3.1 Pro 67.3%。这个指标说明 GPT-5.5 在“把资料整理成工作产物”上更强：报告、表格、分析、决策框架、业务文档，都是它想吃下来的市场。

OSWorld-Verified 反而最值得冷静看。GPT-5.5 Thinking 是 78.7%，Opus 4.7 是 78.0%，几乎打平。也就是说，在真实电脑操作环境里，GPT-5.5 的领先不是断层式的，至少从这项公开图表看，它更像小幅优势。

BrowseComp 上，GPT-5.5 Pro 是 90.1%，GPT-5.4 Pro 是 89.3%，Gemini 3.1 Pro 是 85.9%，Opus 4.7 是 79.3%。这里我会把它理解为 OpenAI 在“带搜索、带浏览器、带工具的信息获取”上继续保持强势。做研究、写报告、查资料，这部分 GPT-5.5 的优势会被放大。

FrontierMath 是另一条线。Tier 4 上，GPT-5.5 Thinking 35.4%，GPT-5.5 Pro 39.6%，Opus 4.7 22.9%，Gemini 3.1 Pro 16.7%。如果这些分数能在后续独立评测中站住，GPT-5.5 在前沿数学和科研辅助上的提升会非常重要。

CyberGym 上 GPT-5.5 Thinking 81.8%，Opus 4.7 73.1%。但这类网络安全指标要谨慎读：能力强是一方面，平台限制、可信访问、合规边界是另一方面。越强的模型，越不适合只用“能不能做”来评价。

但榜单没讲完：Opus 4.7 在 SWE-Bench Pro 上赢了

OpenAI 官方发布页里还有一组非常重要的数据：SWE-Bench Pro 上，GPT-5.5 是 58.6%，Claude Opus 4.7 是 64.3%。这不是小差距。

SWE-Bench Pro 更接近“真实 GitHub issue 能不能修好”。它考的不是模型会不会写一个算法题答案，而是能不能理解一个已有代码库的问题、改对文件、通过测试、别把别处弄坏。在这个维度上，Opus 4.7 更像一个谨慎的资深工程师。

这也是为什么我不赞成只根据 OpenAI 那张图下结论。GPT-5.5 在 Terminal-Bench 里赢很多，说明它更擅长终端和多步骤执行；Opus 4.7 在 SWE-Bench Pro 里赢，说明它在复杂代码修复上更稳。两者不是同一种胜利。

把它翻译成日常选择就是：

你要一个模型自己开终端、跑命令、查错、推进任务，GPT-5.5 更适合。你要一个模型认真读仓库、修真实 issue、做代码审查，Opus 4.7 仍然非常强。

官方定位：OpenAI 要做执行者，Anthropic 要做可靠同事

OpenAI 对 GPT-5.5 的表述很明确：它不是单纯的聊天模型，而是面向 agentic coding、computer use、knowledge work 和 scientific research 的模型。

官方说 GPT-5.5 在 ChatGPT 和 Codex 中向 Plus、Pro、Business、Enterprise 用户推出，Codex 里默认 400K 上下文；API 会很快上线。价格是每 100 万输入 token 5 美元、输出 token 30 美元，GPT-5.5 Pro 则是 30 美元输入、180 美元输出。

这个价格已经说明 OpenAI 对它的定位：GPT-5.5 不是便宜模型，它卖的是“更少轮次、更少返工、更少人工接手”的任务完成率。

Anthropic 对 Opus 4.7 的定位也很清楚。它在 2026 年 4 月 16 日发布，已经在 Claude 产品、API、Amazon Bedrock、Google Vertex AI、Microsoft Foundry 上可用，价格维持在每 100 万输入 token 5 美元、输出 token 25 美元。Anthropic 强调的是高级软件工程、长时间任务、严格指令遵循、自我验证，以及更高分辨率视觉：最长边 2576 像素，约 3.75 百万像素。

我很喜欢这两个公司的差异。OpenAI 的语言是“让模型完成任务”；Anthropic 的语言是“让模型可靠地完成困难任务”。听起来很像，但产品气质不一样。

第三方测评里的一个冷水：GPT-5.5 更强，也更爱答

Artificial Analysis 的测评给 GPT-5.5 很高评价：它说 GPT-5.5 在 Intelligence Index 上领先 3 分，打破了 OpenAI、Anthropic、Google 三方并列的局面；还提到 GPT-5.5 的 token 使用量比 GPT-5.4 少约 40%，所以虽然单价涨了，跑完整个指数的成本净增约 20%。

这对企业很关键。一个模型单价贵，不一定代表任务成本贵；如果它少走弯路、少输出废话、少重试，最后可能更省。

但同一篇测评也给了一个很锋利的提醒：在 AA-Omniscience 这个私有事实知识与幻觉评测里，GPT-5.5 xhigh 的准确率最高，但幻觉率也高达 86%；Claude Opus 4.7 max 是 36%，Gemini 3.1 Pro Preview 是 50%。

这个数字不应该被简单外推到所有场景，但它提醒我们一件事：GPT-5.5 的“自信推进”是双刃剑。它更愿意回答，更愿意继续往前走，也就更需要外部校验、引用约束和工具闭环。Opus 4.7 的克制，有时候不是慢，而是在少制造需要你擦屁股的内容。

详细对比：别问谁最强，要问你把它放在哪

维度	GPT-5.5	Claude Opus 4.7	我的判断
终端与多步骤执行	Terminal-Bench 2.0 82.7%，明显领先	69.4%，不弱但落后明显	GPT-5.5 更像 Agent 执行核心
真实代码修复	SWE-Bench Pro 58.6%	SWE-Bench Pro 64.3%	Opus 4.7 更适合高风险代码修复
知识工作	GDPval 84.9%，Office/文档/表格能力强	GDPval 80.3%，也在第一梯队	GPT-5.5 更适合办公自动化闭环
电脑操作	OSWorld 78.7%	OSWorld 78.0%	几乎打平，GPT-5.5 略优
浏览与检索	GPT-5.5 Pro BrowseComp 90.1%	BrowseComp 79.3%	GPT-5.5 Pro 优势很明显
高难数学	FrontierMath Tier 4：Thinking 35.4%，Pro 39.6%	22.9%	GPT-5.5 在前沿数学上更有冲击力
视觉细节	更强调 computer use 场景	2576px 长边、约 3.75MP，高分辨率截图/图表更友好	精细读图我会优先试 Opus 4.7
价格	GPT-5.5：$5/$30；Pro：$30/$180	$5/$25	Opus 输出单价更低，GPT 看任务完成成本
风格	更主动、更推进、更像执行器	更克制、更字面、更像审稿人	取决于你要冲刺还是要稳

我的实际选型建议

如果你是开发者，我会这样用：

第一轮需求拆解、脚手架、终端操作、跑测试、查依赖、写自动化脚本，交给 GPT-5.5。它的 Terminal-Bench 和 GDPval 优势，说明它更适合“从一团乱麻里先把东西跑起来”。

第二轮代码审查、复杂 bug、架构边界、多人协作下的 PR 质量，交给 Opus 4.7。它在 SWE-Bench Pro 上的领先，以及 Anthropic 对自我验证、严格指令遵循的强调，都更贴近“别把生产代码弄坏”这个底线。

如果你是内容创作者或研究者，我会这样用：

资料搜集、网页浏览、建立大纲、生成对比表、把碎片变成初稿，GPT-5.5 更顺。它的 BrowseComp 和知识工作能力很适合做“研究助理”。

最后成稿、逻辑修整、语气控制、删掉过度自信的判断，Opus 4.7 更舒服。尤其是你不希望文章太像模型在表演，而希望它像一个人认真想过，Claude 的克制感仍然有价值。

如果你是企业团队，我的建议更简单：别二选一，做路由。

把任务分成三类：

需要推进、调工具、跨系统执行：GPT-5.5。需要代码正确性、审查质量、严格遵循规则：Opus 4.7。简单分类、摘要、格式转换：便宜模型。

到 2026 年，模型选型已经不是信仰问题，而是调度问题。真正有价值的不是押中唯一王者，而是知道什么时候该把任务交给谁。

这张榜单给我的感悟

我看到这张图的第一反应不是“OpenAI 又赢了”，而是“评测终于越来越像真实工作了”。

我：GPT-5.5 给我的感觉，不是“答得更漂亮”，而是“更敢把任务接过去”。这很迷人，也有一点危险，因为一个更主动的模型，必须配上更强的校验链路。

我：Opus 4.7 给我的感觉，则像一个不急着抢方向盘的同事。它未必每一步都最快，但在代码、审稿、长上下文这些需要稳住边界的地方，会让人更愿意把最后一道关交给它。

过去我们看模型榜单，经常看 MMLU、数学题、选择题、问答题。那些指标当然有用，但它们离真实工作还有一层距离。真实工作不是答对一道题，而是理解目标、拆解路径、使用工具、遇到错误继续走、最后交付一个能用的东西。

GPT-5.5 这次最强的信号，恰恰是它在 Terminal-Bench、GDPval、BrowseComp、OSWorld 这些“工作流型评测”上的表现。它代表一种趋势：模型正在从“回答器”变成“执行系统”。

但我也越来越不相信单模型神话。

越强的模型，性格越重要。GPT-5.5 的主动性是优点，也是风险。Opus 4.7 的克制是优点，也可能让它在某些任务里显得慢半拍。Gemini 3.1 Pro 在 BrowseComp 里也没有掉队，价格和长上下文仍然可能在一些场景里非常香。

未来的工作流大概不会是“我买了某一个最强模型”，而是“我有一组模型同事，各自有脾气，各自有长板，我把任务派给最合适的那一个”。

最后怎么选

如果只能选一个做通用 Agent，我选 GPT-5.5。它更像下一代电脑使用方式的核心模型：能写代码、能开终端、能看屏幕、能搜资料、能做文档，还能把一件事情持续推进。

如果只能选一个做严肃代码伙伴，我选 Claude Opus 4.7。它不是榜单上最耀眼的那个，但它在真实代码修复、长时间任务、输出可靠性上的气质更稳。

一句话总结：

GPT-5.5 是更强的执行者，Opus 4.7 是更稳的审查者。前者帮你把事情往前推，后者帮你少踩坑。真正聪明的用法，是让它们互相制衡。