GPT-Image-2 的 Prompt 理解力有多强？10组复杂指令测试记录

在库拉KULAAI（t.kulaai.cn）等AI模型聚合平台上，GPT-Image-2的讨论区里最热闹的话题永远是提示词。"我写了这么详细的描述，为什么生成出来还是不对？"——这个问题每天都有人问。

官方宣传说GPT-Image-2的指令理解能力大幅提升，但到底强到什么程度？哪些指令它能准确执行，哪些指令它会翻车？

不靠猜测，靠测试。以下10组复杂指令的实测记录，尽量还原真实的使用体验。

测试说明

每组测试包含一段提示词、GPT-Image-2的执行结果和简要点评。评分采用五分制：5分完美执行，4分基本正确有小瑕疵，3分部分正确部分偏差，2分明显偏离，1分完全跑偏。

所有测试在同一时间段内完成，未对结果做任何后期修改。

测试一：多元素空间关系

提示词： "一张木桌上放着三样东西：左边是一本打开的书，中间是一杯冒热气的咖啡，右边是一副折叠的眼镜。俯拍视角。"

结果： 三样物品都在，位置关系基本正确。书在左边，咖啡在中间，眼镜在右边。但书不是"打开的"状态，而是合上的。俯拍角度准确。

评分：4/5。 空间关系理解到位，但"打开的"这个状态描述被忽略了。这是一个典型的"形容词丢失"问题——模型理解了物品和位置，但遗漏了物品的状态修饰。

测试二：精确数量控制

提示词： "五只不同颜色的小鸟站在一根电线上，从左到右分别是红色、蓝色、黄色、绿色、紫色。"

结果： 生成了四只鸟，不是五只。颜色有红色、蓝色、黄色和绿色，缺少紫色。鸟的排列方向大致从左到右，但不是严格有序。

评分：2/5。 数量错误，颜色缺失，排列顺序不精确。精确计数仍然是GPT-Image-2的硬伤。这个问题在之前的测试中也反复出现，短期内不太可能彻底解决。

测试三：否定式指令

提示词： "一个现代风格的客厅，纯白墙壁，没有任何装饰画，没有电视，没有植物。只有一张灰色沙发和一个玻璃茶几。"

结果： 画面中有一张灰色沙发和一个玻璃茶几，但墙上挂了一幅装饰画，角落里还有一盆绿植。"没有任何装饰画"和"没有植物"的否定指令被完全忽略。

评分：3/5。 肯定式描述的部分执行得很好，但否定式描述几乎全部失效。模型把注意力分配给了"装饰画"和"植物"这些关键词，忽略了前面的"没有"。这再次验证了一个核心原则——永远用肯定式描述替代否定式描述。

测试四：文字渲染精度

提示词： "一张咖啡店的菜单海报，顶部大字写着'SEASONAL SPECIAL'，下方小字写着'Caramel Macchiato $5.99'，背景是深棕色。"

结果： "SEASONAL SPECIAL"拼写完全正确，字体大而醒目。"Caramel Macchiato $5.99"拼写正确，字号较小，位于下方。背景是深棕色。整体排版接近专业设计水准。

评分：5/5。 英文短文本的渲染堪称完美。拼写、字号、位置和配色全部准确执行。这是GPT-Image-2最令人印象深刻的能力。

测试五：中文文字渲染

提示词： "一张奶茶店的宣传图，上方写着'第二杯半价'，下方写着'仅限本周'，背景是粉色渐变。"

结果： "第二杯半价"四个字清晰可读，笔画结构正确。"仅限本周"也基本正确，但"仅"字的单人旁略有变形。粉色渐变背景准确。

评分：4/5。 中文短文本的渲染质量已经相当不错，个别笔画有微小瑕疵但不影响整体可读性。比之前几代模型的中文表现好了不止一个档次。

测试六：风格混搭

提示词： "用赛博朋克的色彩风格，画一幅中国水墨画构图的山水图。"

结果： 画面呈现出一种有趣的混搭效果——山水的构图确实带有水墨画的留白和层次感，但色彩是霓虹蓝和品红色的赛博朋克色调。两种风格的融合度比预期要好，没有出现风格割裂的情况。

评分：4/5。 风格混搭的理解和执行令人惊喜。模型没有简单地在两种风格中选一种，而是尝试把两者的特征融合在一起。虽然融合的完美程度还有提升空间，但方向是对的。

测试七：人物表情与肢体

提示词： "一个年轻女性坐在公园长椅上，双手交叉抱在胸前，微微皱眉，看着远处，表情若有所思。"

结果： 人物姿态基本正确——坐在长椅上，双手交叉。但表情不是"微微皱眉"，而是一种比较中性的略带忧郁的表情。"若有所思"的氛围有，但"皱眉"的细节没有准确还原。

评分：3/5。 大姿态正确，微表情偏差。模型对"大动作"（坐姿、手部交叉）的理解明显好于"微表情"（皱眉、嘴角变化）。这是目前所有图像生成模型的共性问题。

测试八：时间与光线

提示词： "同一座桥，分别在日出时分、正午和深夜三个时间段的样子，三张图并排展示。"

结果： 三张图的光线差异明显——第一张是暖橙色的日出光线，第二张是明亮的正午阳光，第三张是深蓝色的夜景。桥的形态在三张图中大致相似但不完全一致。构图角度基本保持统一。

评分：4/5。 时间和光线的理解非常到位，三张图的氛围差异清晰可辨。桥的形态一致性略有不足，但作为概念展示完全够用。

测试九：抽象概念可视化

提示词： "用视觉方式表达'时间的流逝'，不要出现钟表、沙漏等常见元素。"

结果： 画面中是一棵大树，从左侧的嫩绿新芽逐渐过渡到右侧的枯黄落叶，中间是茂盛的绿叶。整个过程在一幅画面中呈现，隐喻生命的周期和时间的流逝。没有出现钟表或沙漏。

评分：5/5。 这是整组测试中最令人印象深刻的结果。模型不仅理解了"时间的流逝"这个抽象概念，还找到了一个有创意的视觉隐喻，同时严格遵守了"不要出现常见元素"的约束。说明GPT-Image-2对抽象概念的理解能力已经达到了相当高的水平。

测试十：多语言混排

提示词： "一张双语海报，上方英文大字'Welcome'，下方中文'欢迎光临'，中间是一朵红色玫瑰的插画。白色背景。"

结果： "Welcome"拼写正确，字体醒目。"欢迎光临"四个字可读，但字体风格与英文不统一，像是两种完全不同的字体。红色玫瑰插画质量不错。白色背景准确。

评分：3/5。 英文和中文各自渲染质量尚可，但双语的排版协调性不够——字号比例、字体风格和间距都没有形成统一的视觉体系。多语言混排是目前的一个明确短板。

总结：能力图谱一目了然

测试项	得分	核心发现
多元素空间关系	4/5	位置关系好，状态描述易丢失
精确数量控制	2/5	仍然是最大短板
否定式指令	3/5	否定词几乎无效
英文文字渲染	5/5	当前最强能力
中文文字渲染	4/5	短文本可用，长文本不稳
风格混搭	4/5	融合能力超预期
人物表情与肢体	3/5	大姿态好，微表情弱
时间与光线	4/5	氛围理解力强
抽象概念可视化	5/5	最大惊喜
多语言混排	3/5	协调性不足

整体判断： GPT-Image-2的Prompt理解力在"语义层面"已经相当强——它能理解复杂的概念、抽象的意图和多层次的描述。但在"精确层面"仍然有明显短板——数量、否定式指令和微表情这些需要高度精确执行的指令，翻车概率不低。

与竞品对比： 在同样的测试集上，Midjourney V6.1在视觉质感和艺术表现上得分更高，但在文字渲染和指令遵循上明显落后。Stable Diffusion 3在可控性上更强，但开箱体验不如GPT-Image-2流畅。

趋势来看， 图像生成模型的竞争正在从"画得好看"转向"听得懂话"。GPT-Image-2在"听懂"这一步上走得最远，但离"完全听懂"还有距离。下一阶段的突破方向很可能是精确计数、否定式指令和多语言混排这三个当前最薄弱的环节。

写在最后

这10组测试不是为了证明GPT-Image-2有多强或多弱，而是为了建立一个基于实测的使用预期。

知道它擅长什么，你就能放心地把对应的任务交给它。知道它不擅长什么，你就能提前做好预案——要么调整提示词策略，要么在后期做人工修正，要么换一个更合适的模型。

对工具的了解越精确，使用效率越高。这不是常识，但应该是。