在库拉KULAAI(c.kulaai.cn)上跑了一周GPT-Image-2,从科研配图到技术文档配图都测了。4月21日OpenAI发的这个模型,ChatGPT、Codex、API三端同时全量上线,Arena直接霸榜。不管你是工程师、科研人员还是普通用户,这个模型都值得认真看一看。
核心能力:三个关键提升
中文渲染。 之前所有AI绘图工具处理中文都是灾难——标注模糊、乱码、位置飘。GPT-Image-2基本解决了,中文文字清晰准确,位置可控。对需要中文标注的场景(技术文档、科研配图、产品设计稿),这一条就够用了。
细节控制。 节点大小、箭头方向、配色协调这些之前容易翻车的地方,现在稳定多了。流程图、系统架构图、模块关系图,出来的质量像那么回事。
极简提示词。 不需要写一大段描述,抓住主题、步骤、风格三个要素就行。写太多它反而容易抓不住重点。
能画什么,不能画什么
实测下来,最擅长这几类:
流程图——工作步骤、数据处理pipeline、实验流程。结构化节点图,箭头方向对,分支逻辑清楚。
机制图——变量关系、因果链条、理论框架。视觉表现力比之前强了不止一个量级。
系统架构图——模块关系、信号流向、技术栈分层。兼顾美观和准确。
海报和宣传图——配色协调,排版像那么回事。
但也有边界。电路原理图、PCB布局图、时序图、波形图这类需要精确数值和规范符号的图,精度不够,还是得用专业EDA工具。
使用技巧:避坑指南
提示词别写太多。 三个要素够了:主题、步骤、风格。比如"请生成一张系统架构图,主题是微服务部署,包含网关层、服务层、数据层,蓝灰色系"。十几字搞定。
不满意别重开,直接改。 说"第三个模块换成蓝色""箭头改成虚线""右侧加注释框说明数据流向",它能跟着改,不用从头来。这个迭代能力比之前强很多。
SVG输出是进阶玩法。 如果直接出的图片不满足需求,可以让它输出SVG代码。矢量格式,放大不失真,放进文档里清晰度有保障。
和Gemini怎么选
两个模型各有优势,不是谁替代谁。
GPT-Image-2:视觉效果好,中文准,提示词省事。适合需要直接出成品图的场景。
Gemini:逻辑理解强,Mermaid代码输出稳定,修改方便。适合图结构复杂、需要反复迭代的场景。
简单图用GPT-Image-2,复杂图用Gemini出代码。两者组合着用效率最高。
多模型协作:效率的关键
用了一周最深的体会:一个模型搞不定一张高质量配图。
GPT-Image-2画得好看,但逻辑偶尔犯错——模块连反了、信号流向画反了、步骤漏了一步,它自己看不出来。Gemini逻辑强,但审美一般。Claude对细节敏感,适合做最终审查。
现在固定三步走:GPT-Image-2出初稿,切Gemini查逻辑,切Claude查细节。三个模型各干各的活,出图质量比单用一个高很多。
关键是这三个模型在同一个平台里能直接切,上下文还能保留,不用来回传文件。这就是多模型聚合平台的价值——不是挑一个最好的用,而是把每个模型最强的部分组合起来。
趋势判断
AI绘图正在从"能用"进入"好用"阶段。GPT-Image-2的中文渲染突破不是孤立事件,各家模型都在补齐短板。
多模型协作正在成为主流工作方式。不只是绘图,在内容创作、代码开发、数据分析等领域,"一个模型不够用,多个模型组合用"正在成为共识。
"一键出图"的正确理解是:快速出初稿,把从想法到可视化的时间从几小时压缩到几分钟。精修的部分还是得靠人,但光是这一步,效率提升就已经很可观了。
499