• 正文
  • 相关推荐
申请入驻 产业图谱

Gemini 模型实测,不夸大的真实能力汇总

04/30 11:25
235
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

最近在库拉AI聚合平台(c.kulaai.cn)上把Gemini 3.1 Pro、GPT-5.4、Claude 4.6这几个模型跑了一遍实测,发现网上对Gemini的评价两极分化严重——要么吹上天,要么说不行。今天只讲实测数据,不说废话。

先看硬指标

Gemini 3.1 Pro今年2月发布,是Google DeepMind目前的旗舰模型。官方给了一组数据:

ARC-AGI-2得分77.1%,上一代31.1%,翻了一倍多。SWE-Bench Verified(真实GitHub问题解决)80.6%。GPQA Diamond科学推理94.3%。16项基准测试里13项领先。

这些数字不是Google自己吹的,Artificial Analysis等第三方机构也做了验证。但benchmark是一回事,实际用起来是另一回事。

多模态:确实是最强的那个

Gemini从设计之初就是原生多模态,文本、图像、音频、视频在模型内部统一处理。这不是"文本模型+视觉模块"的拼接,而是架构层面的融合。

实测中,我丢了一份包含复杂折线图和饼图的PDF报告进去,要求分析核心发现。Gemini准确提取了各类数据,还指出了报告里没明确提到的潜在相关性。同样的任务丢给GPT-5.4,图文结合的推理深度明显弱一档。

在多模态视觉语言模型综合评测中,Gemini-3-pro以83.64分位居首位。这个优势是结构性的,短期追不上。

编程:够用但不是最强

这是争议最大的地方。用同一个开源项目(8000+ Stars,5万多行代码)测试,结果很有意思:

GPT-5.2-Codex在High推理模式下几乎"一次性通关",架构设计和边缘处理都很到位,但耗时20分钟,成本约1美元。Claude Opus 4.5速度最快,7分50秒搞定,UI审美在线。Gemini 3 Pro完成了基础功能,但明显更"简陋",漏掉了部分细节。

SWE-Bench Verified上Gemini 3.1 Pro拿了80.6%,比Claude Opus 4.6的72.6%高。但Terminal-Bench 2.0上,GPT-5.3-Codex是77.3%,Gemini只有68.5%。

结论:日常编码够用,复杂工程任务GPT仍然更强。Gemini的代码胜在性价比,缓存读取能省85%以上的输入Token。

推理能力:进步最大的方向

Gemini 3.1 Pro引入了三级思维模式——Low、Medium、High。简单任务用Low,响应快成本低;复杂推理切High,模型会深度思考再输出。

ARC-AGI-2测试77.1%这个数字很能说明问题。同场对比,Claude Opus 4.6是37.6%,GPT-5.2是54.2%。推理能力的提升是Gemini这一代最大的变化。

但也有短板。在需要极高严谨性的场景(比如数学证明、逻辑谜题),Claude 4.6的内部验证机制更稳,正确率85%,Gemini是80%。

100万上下文:真正能用的长窗口

100万token的上下文窗口是Gemini的硬优势。直观理解:一部长篇小说约10万token,一个500文件的代码库约50万token。Gemini能一次性吃进去整个项目。

但实测中发现"中间信息衰减"的问题——文档中间部分的信息召回率不如开头和结尾。Claude的上下文压缩技术在抗衰减上更强,单文档全局理解得分82%,Gemini是76%。

窗口大是真的大,但用法上有讲究。建议把关键信息放在文档的前部和尾部。

性价比:最大的杀手锏

这是Gemini最被低估的优势。API定价对比:

Gemini 3.1 Pro输入每百万token 2美元,输出12美元。Claude Opus 4.6输入15美元,输出75美元——贵了7.5倍。GPT-5.2大约输入10美元,输出30美元。

同样的任务,Gemini的成本可能只有Claude的七分之一。对需要大量调用的场景(批量处理、知识库清洗、文档分析),这个差距是决定性的。

怎么选:按任务分流

基于实测数据,我的建议很直接:

多模态任务(图文分析、视频理解、图表提取)→ Gemini,没有替代品。批量轻任务(分类、摘要、简单问答)→ Gemini,性价比碾压。复杂编码和Agent工作流 → GPT-5.4更稳。长文档深度分析和高安全场景 → Claude 4.6更可靠。

没有哪个模型通吃所有场景。关键不是选"最强"的,而是选"最合适"的。

趋势判断

Google的方向很明确:原生多模态+环境智能。哈萨比斯的构想里,Gemini不只是聊天工具,而是能实时感知场景、理解意图、主动提供帮助的"下一代用户界面"。

这个路线跟OpenAI的Agent化、Anthropic的安全化形成了三条不同的技术路径。对企业来说,多模型组合使用、按任务匹配模型,正在成为新的标准工作方式。

Gemini不是万能的,但在它的优势领域——多模态、性价比、长上下文——目前确实没有对手。

相关推荐