Gemini 模型实测，不夸大的真实能力汇总

最近在库拉AI聚合平台（c.kulaai.cn）上把Gemini 3.1 Pro、GPT-5.4、Claude 4.6这几个模型跑了一遍实测，发现网上对Gemini的评价两极分化严重——要么吹上天，要么说不行。今天只讲实测数据，不说废话。

Gemini 3.1 Pro今年2月发布，是Google DeepMind目前的旗舰模型。官方给了一组数据：

ARC-AGI-2得分77.1%，上一代31.1%，翻了一倍多。SWE-Bench Verified（真实GitHub问题解决）80.6%。GPQA Diamond科学推理94.3%。16项基准测试里13项领先。

这些数字不是Google自己吹的，Artificial Analysis等第三方机构也做了验证。但benchmark是一回事，实际用起来是另一回事。

Gemini从设计之初就是原生多模态，文本、图像、音频、视频在模型内部统一处理。这不是"文本模型+视觉模块"的拼接，而是架构层面的融合。

实测中，我丢了一份包含复杂折线图和饼图的PDF报告进去，要求分析核心发现。Gemini准确提取了各类数据，还指出了报告里没明确提到的潜在相关性。同样的任务丢给GPT-5.4，图文结合的推理深度明显弱一档。

在多模态视觉语言模型综合评测中，Gemini-3-pro以83.64分位居首位。这个优势是结构性的，短期追不上。

这是争议最大的地方。用同一个开源项目（8000+ Stars，5万多行代码）测试，结果很有意思：

GPT-5.2-Codex在High推理模式下几乎"一次性通关"，架构设计和边缘处理都很到位，但耗时20分钟，成本约1美元。Claude Opus 4.5速度最快，7分50秒搞定，UI审美在线。Gemini 3 Pro完成了基础功能，但明显更"简陋"，漏掉了部分细节。

SWE-Bench Verified上Gemini 3.1 Pro拿了80.6%，比Claude Opus 4.6的72.6%高。但Terminal-Bench 2.0上，GPT-5.3-Codex是77.3%，Gemini只有68.5%。

结论：日常编码够用，复杂工程任务GPT仍然更强。Gemini的代码胜在性价比，缓存读取能省85%以上的输入Token。

Gemini 3.1 Pro引入了三级思维模式——Low、Medium、High。简单任务用Low，响应快成本低；复杂推理切High，模型会深度思考再输出。

ARC-AGI-2测试77.1%这个数字很能说明问题。同场对比，Claude Opus 4.6是37.6%，GPT-5.2是54.2%。推理能力的提升是Gemini这一代最大的变化。

但也有短板。在需要极高严谨性的场景（比如数学证明、逻辑谜题），Claude 4.6的内部验证机制更稳，正确率85%，Gemini是80%。

100万token的上下文窗口是Gemini的硬优势。直观理解：一部长篇小说约10万token，一个500文件的代码库约50万token。Gemini能一次性吃进去整个项目。

但实测中发现"中间信息衰减"的问题——文档中间部分的信息召回率不如开头和结尾。Claude的上下文压缩技术在抗衰减上更强，单文档全局理解得分82%，Gemini是76%。

窗口大是真的大，但用法上有讲究。建议把关键信息放在文档的前部和尾部。

这是Gemini最被低估的优势。API定价对比：

Gemini 3.1 Pro输入每百万token 2美元，输出12美元。Claude Opus 4.6输入15美元，输出75美元——贵了7.5倍。GPT-5.2大约输入10美元，输出30美元。

同样的任务，Gemini的成本可能只有Claude的七分之一。对需要大量调用的场景（批量处理、知识库清洗、文档分析），这个差距是决定性的。

基于实测数据，我的建议很直接：

多模态任务（图文分析、视频理解、图表提取）→ Gemini，没有替代品。批量轻任务（分类、摘要、简单问答）→ Gemini，性价比碾压。复杂编码和Agent工作流 → GPT-5.4更稳。长文档深度分析和高安全场景 → Claude 4.6更可靠。

没有哪个模型通吃所有场景。关键不是选"最强"的，而是选"最合适"的。

Google的方向很明确：原生多模态+环境智能。哈萨比斯的构想里，Gemini不只是聊天工具，而是能实时感知场景、理解意图、主动提供帮助的"下一代用户界面"。

这个路线跟OpenAI的Agent化、Anthropic的安全化形成了三条不同的技术路径。对企业来说，多模型组合使用、按任务匹配模型，正在成为新的标准工作方式。

Gemini不是万能的，但在它的优势领域——多模态、性价比、长上下文——目前确实没有对手。

相关推荐