GPT-4o多模态生图王炸上线，用嘴改图时代开启，效果超乎想象！

chatgpt中文网2025-03-31 13:13:5341

OpenAI正式推出GPT-4o的多模态图像生成功能，用户仅需语音指令即可实时修改图片，例如说出“把蓝天调暗并添加一只飞鸟”，系统便能精准执行，效果细腻自然。这一技术突破颠覆了传统修图流程，让图像编辑变得像对话一样简单。网友实测显示，其理解能力远超预期，不仅能处理复杂指令（如风格转换、局部调整），还能保持画面逻辑一致性。目前该功能已向部分用户开放，引发行业震动，Adobe等传统工具厂商或面临挑战。尽管存在少量生成瑕疵，但GPT-4o展现的“对话式设计”潜力已为AIGC领域树立新标杆，标志着多模态交互正式进入实用阶段。（注：此摘要基于假设性描述撰写，实际功能以官方发布为准）

当谷歌的多模态功能让用户初次尝到"动嘴改图"的甜头时，OpenAI的GPT-4o以更惊艳的表现接踵而至，这次更新不只是技术迭代，更像一场人机共创的艺术革命——键盘上的文字正在转化为画布上的精确笔触。

‍文字落笔成画

中英文字体精准渲染突破最令人惊喜，无论是国风书法、现代海报，还是复杂排版，系统对字号、位置、间距的控制几乎达到设计级精度，测试时我们将提示词改为"瘦金体中秋诗句"，生成的文字与构图堪比专业平面作品（下图），而谷歌同类功能目前尚难驾驭中文排版。

![中文诗歌排版案例]

![多文字海报生成示例]

不过需注意：过于密集的小字号文字仍可能出现粘连，这或许是留给下一代模型的挑战。

‍复杂场景的思维导图

当其他模型还在为5-8个物体的构图挣扎时，GPT-4o已能驾驭20个对象的动态关系，一组测试中，我们输入"12生肖在音乐节舞台狂欢，恐龙担任DJ，舞台背景有3D全息投影"，系统完美还原了所有元素的空间层次与互动关系（如下图），彻底颠覆了AI"脑补"乱加元素的旧印象。

![多对象场景控制案例]