最近在库拉c.kulaai.cn上把DeepSeek和Gemini 3.1 Pro放在一起跑了两周的对比测试,刚好赶上DeepSeek V4月底要发、Agent赛道全面爆发的节点,聊聊我的真实体验。
开源阵营突然不讲武德了
四月的大模型圈很热闹。DeepSeek V4月底发布板上钉钉,微博上已经有人扒出新版界面截图——"快速""专家""视觉"三个入口,多模态版基本实锤。MiniMax也在这个月把M2.7开源了,2290亿参数,SWE-Pro测试得分直接超了Gemini 3.1 Pro。
开源模型今年的节奏明显加速。以前大家觉得开源就是"便宜但差一截",现在这个差距正在以肉眼可见的速度缩小。
Gemini的长板依然硬
但闭源阵营也没闲着。Google刚发了Gemini Robotics-ER 1.6,空间推理能力又上了一个台阶。3.1 Pro本身的1M上下文、原生多模态这些底子还在,SWE-Bench Verified 80.6%的成绩也不是闹着玩的。
我拿同样的代码debug任务测过,Gemini在处理复杂工程问题时确实更稳,尤其是需要跨文件理解上下文的场景,1M窗口的优势很明显。
实际用起来差距在哪
说几个体感比较明显的点。
中文场景:DeepSeek明显更懂中文语境。写技术文档、处理中文数据集,Gemini偶尔会冒出一些翻译腔的表达,DeepSeek基本不存在这个问题。
长文本:Gemini的1M窗口听着唬人,但实测20万字符以上的长文处理,开始出现幻觉和token重复。MRCR v2的测试数据也印证了这点——128k准确率84.9%,到1M只有26.3%。DeepSeek的128k窗口虽然小,但胜在稳定不翻车。
数学推理:AIME 2025上DeepSeek干到了93.1%,这个成绩确实能打。不过切换到GPQA科学推理,Gemini以94.3%反超。所以别拿单一榜单说事,场景不同结论不同。
Agent能力:Gemini在工具调用上更成熟,Tau2Bench电信场景99.3%、零售场景90.8%。但DeepSeek搞了个1800+环境的Agent合成管道,追赶速度很快。
价格差6倍,这笔账怎么算
这个必须单独说。DeepSeek-R1输入价0.55/百万token,Gemini 3.1 Pro要2.5/百万token,输出价差更大。
对于日调用量几百万token的团队来说,这个差距一个月能差出好几万。更关键的是DeepSeek完全开源,MIT协议,想怎么改怎么改,不用担心被锁死在一个供应商身上。
Gemini贵是贵,但多模态能力和Google生态整合带来的价值,有些场景确实没法用便宜模型替代。
V4来了,格局会怎么变
从目前泄露的信息看,DeepSeek V4有几个关键升级:长期记忆、多模态补全、针对Blackwell架构的优化、token级稀疏计算。
如果V4真把多模态这个短板补齐了,同时保持开源低价的策略,对整个市场的冲击会很大。现在的竞争格局是"你有我没有",一旦差距缩小,性价比就是决定性的。
MiniMax M2.7的开源也值得关注——它在代码能力上已经能和Gemini掰手腕了,说明国产开源阵营正在形成集群效应,不是DeepSeek一家在单打独斗。
选型建议
别站队,按需选。
中文处理、成本敏感、需要私有化部署的项目,DeepSeek现在就够用,V4出来大概率更强。
多媒体分析、超长文档、重度依赖Google生态的场景,Gemini 3.1 Pro目前确实是更好的选择。
最聪明的做法是两个都试。现在有些AI聚合平台已经把主流模型整合了,一个入口切换着用,省得每个模型单独注册配置。根据具体任务挑模型,比绑死在某一个上灵活太多。
2026年的大模型格局还在剧烈变化。DeepSeek V4、Gemini后续版本、Claude新迭代都在路上,与其现在押注谁赢,不如多留几个选项在手里,等尘埃落定再做长期选型。
386