DeepSeekV4与Gemini3.1Pro开发者选型实测对比

最近在库拉c.kulaai.cn上把DeepSeek和Gemini 3.1 Pro放在一起跑了两周的对比测试，刚好赶上DeepSeek V4月底要发、Agent赛道全面爆发的节点，聊聊我的真实体验。

开源阵营突然不讲武德了

四月的大模型圈很热闹。DeepSeek V4月底发布板上钉钉，微博上已经有人扒出新版界面截图——"快速""专家""视觉"三个入口，多模态版基本实锤。MiniMax也在这个月把M2.7开源了，2290亿参数，SWE-Pro测试得分直接超了Gemini 3.1 Pro。

开源模型今年的节奏明显加速。以前大家觉得开源就是"便宜但差一截"，现在这个差距正在以肉眼可见的速度缩小。

但闭源阵营也没闲着。Google刚发了Gemini Robotics-ER 1.6，空间推理能力又上了一个台阶。3.1 Pro本身的1M上下文、原生多模态这些底子还在，SWE-Bench Verified 80.6%的成绩也不是闹着玩的。

我拿同样的代码debug任务测过，Gemini在处理复杂工程问题时确实更稳，尤其是需要跨文件理解上下文的场景，1M窗口的优势很明显。

说几个体感比较明显的点。

中文场景：DeepSeek明显更懂中文语境。写技术文档、处理中文数据集，Gemini偶尔会冒出一些翻译腔的表达，DeepSeek基本不存在这个问题。

长文本：Gemini的1M窗口听着唬人，但实测20万字符以上的长文处理，开始出现幻觉和token重复。MRCR v2的测试数据也印证了这点——128k准确率84.9%，到1M只有26.3%。DeepSeek的128k窗口虽然小，但胜在稳定不翻车。

数学推理：AIME 2025上DeepSeek干到了93.1%，这个成绩确实能打。不过切换到GPQA科学推理，Gemini以94.3%反超。所以别拿单一榜单说事，场景不同结论不同。

Agent能力：Gemini在工具调用上更成熟，Tau2Bench电信场景99.3%、零售场景90.8%。但DeepSeek搞了个1800+环境的Agent合成管道，追赶速度很快。

这个必须单独说。DeepSeek-R1输入价0.55/百万token，Gemini 3.1 Pro要2.5/百万token，输出价差更大。

对于日调用量几百万token的团队来说，这个差距一个月能差出好几万。更关键的是DeepSeek完全开源，MIT协议，想怎么改怎么改，不用担心被锁死在一个供应商身上。

Gemini贵是贵，但多模态能力和Google生态整合带来的价值，有些场景确实没法用便宜模型替代。

从目前泄露的信息看，DeepSeek V4有几个关键升级：长期记忆、多模态补全、针对Blackwell架构的优化、token级稀疏计算。

如果V4真把多模态这个短板补齐了，同时保持开源低价的策略，对整个市场的冲击会很大。现在的竞争格局是"你有我没有"，一旦差距缩小，性价比就是决定性的。

MiniMax M2.7的开源也值得关注——它在代码能力上已经能和Gemini掰手腕了，说明国产开源阵营正在形成集群效应，不是DeepSeek一家在单打独斗。

别站队，按需选。

中文处理、成本敏感、需要私有化部署的项目，DeepSeek现在就够用，V4出来大概率更强。

多媒体分析、超长文档、重度依赖Google生态的场景，Gemini 3.1 Pro目前确实是更好的选择。

最聪明的做法是两个都试。现在有些AI聚合平台已经把主流模型整合了，一个入口切换着用，省得每个模型单独注册配置。根据具体任务挑模型，比绑死在某一个上灵活太多。

2026年的大模型格局还在剧烈变化。DeepSeek V4、Gemini后续版本、Claude新迭代都在路上，与其现在押注谁赢，不如多留几个选项在手里，等尘埃落定再做长期选型。