从ChatGPT 4o的画图功能说起：如何成为AI时代的画家

上周chatgpt 4o的画图功能发布后，怒充了20美金体验了一下，感觉十分亮眼，并且随着画图功能发布，同时带火了另一个词“吉卜力风格”。

那么什么是“吉卜力风格”呢？

由维基百科可知，吉卜力工作室是由动画导演宫崎骏、高畑勋，德间书店的编辑铃木敏夫及社长德间康快等人所创办，所以“吉卜力风格”其实说小一点就是宫崎骏风格，但是因为OpenAI声称ChatGPT拒绝复制“在世艺术家的风格”，所以你直接要求生成“宫崎骏风格”的图片是会被拒绝的，由此“吉卜力风格”就代替了“宫崎骏风格”。

在知乎上有这么一个很火的话题——“GPT-4o 目前只能生成吉卜力画风的图片吗？还能生成什么风格的图片？”，在这个话题下本人也小小的贡献了一下自己随手画的一些素描风格的图片，没想到喜欢的人还不少。这个话题阅读量之高，可以看出很多人之前并未怎么接触过AI绘画，可能是因为以往的Stable Diffusion等AI绘图门槛较高，接触人群较少有关，或者是和同类型其他的AI绘图产品效果没这么爆炸有关。

这让我不禁开始思考，GPT 4o的画图功能，比之Stable Diffusion差异在哪，经过一番搜索，我认为最大的差异，就是底层技术路线的不同：以往Stable Diffusion等AI绘图使用的是扩散模型，而GPT 4o使用的是自回归生成图像。

简单解释一下两种模型的基本原理吧。

扩散模型：想象将一滴墨水滴入清水，墨水会逐渐扩散直至均匀分布。扩散模型类似地通过逐步向数据（如图像）添加随机噪声（类似墨水扩散），直到数据完全变成无意义的噪声。然后，模型学习如何逆向操作——从噪声中逐步“去噪”，最终恢复或生成新的数据（如清晰图像）。

自回归生成图像：类似于写文章时逐字生成句子，自回归模型将图像视为由像素或小块（如16×16区域）组成的序列。生成时，模型会按顺序（如从左到右、从上到下）预测每个位置的内容，且每一步的预测都依赖于之前已生成的部分。例如，生成右上角的像素时，模型会参考左侧和下方的已有像素信息。

那么这带来哪些优势呢，我总结为以下几点：

对人话的理解能力：以前的Stable Diffusion提示词，真的需要写成像咒语一样才能得到不错的效果，而GPT-4o简简单单一句话就能得到很好的效果。这种感觉有点类似于deepseek刚推出时，大家惊呼终于有一款AI能听懂人话了。
上下文能力：Stable Diffusion等是几乎没有多轮次的上下文联系能力的，每次生成的都是新的，像是“炼丹”，而如果想要实现类似的效果又需要用到“蒙版”等高级操作，普通人望而却步。而GPT-4o上下文联系十分强，针对一张图，可以一直提意见，图像的却基本能保持在可控范围内，让人有一种用嘴P图的快感。
文字能力：Stable Diffusion等几乎不能控制图片上的文字，图片上生成的文字经常会是鬼画符，需要后期用PS处理，而GPT-4o中生成的文字却基本可用了，虽然有时候也能“一眼AI”。

既然GPT 4o让AI绘画再一次简化，意味着人人都是画家的时代也许真的“来临”，时代的列车滚滚向前，有时候你不上去那就得落下，正如每一次技术革命都会为艺术创作带来新的契机，AI绘画的兴起，可能也会为艺术创作打开一扇新的大门。那么，如何在这场浪潮中成为AI时代的“画家”呢？

稍微琢磨了下现有的GPT 4o都有哪些用处，且需要掌握哪些知识和“套路”，以下是一些个人经验，如有错误，纯属正常。

经久不衰的套路

Gpt 4o的绘画功能出来后，我看到有人在惊呼「不需要提示词了」，我认为还是需要提示词的，只是提示词的门槛降低了，就像deepseek刚出来，很多人也说不需要提示词了，但是实际上会发现，懂提示词技巧的和不懂的，还是能带来很大的区别。

所以稍微讲讲提示词简单的套路，AI绘画提示词最简构成法则，那就是「主体」+「风格」+「细节」，举个例子：
提示词：江南水乡，中国风水墨画，河中央有乌篷船
上面这个就是个很简单的主体+风格+细节的例子，来看下效果图

上述是文生图的场景，如果是图生图，那更简单了，相当于主体部分不需要描述，只说需要风格和需要修改的细节即可，例如我之前玩的将影视剧名场面转化成素描的方法。

提示词：使用素描风格改写，其中字幕部分改成“告诉老默我想吃肯德基了”，注意需要使用简体中文

Gpt 4o独属的一些技巧

前面说过，因为Gpt 4o比较懂人话，且有良好的上下文能力，所以现在AI绘图变简单了，完全不需要左右斟酌，可以直接先上手再说，先简单的说自己想要的效果，如果不对，在生成图片的基础上说修改细节就好了。

例如上面那张「告诉老默我想吃肯德基了」的图，其实一开始我只说了「使用素描风格改写，其中字幕部分改成“告诉老默我想吃肯德基了”」这句提示词，结果他生成的字幕是繁体中文，所以我第二次对话直接要求将字幕改成简体中文就好了，两次对话图片生成的一致性非常之高。

还有我将自己的微信头像改成了一个像素风过程，其实也是多次生成的结果。
第一次只要求生成赛博朋克风格图片，结果背景太黑，我又要求改成亮色背景，两次提示词如下：
第一次提示词：使用赛博朋克风格，重绘这张图片，且唐僧手中的枪换成未来科技感更强的武器，图片比例保持1:1
第二次提示词：改成亮色背景

最终效果有点像高清重置，但是我不满意，继续修改，突然想要像素风的头像，于是继续：
第三次提示词：背景白色，使用像素风格重绘这张图片
第四次提示词：手上的枪换成游戏我的世界中的剑

可以看到，就在一个对话框里面，有什么想法都可以直接应用到当前的图片上，十分方便。

如果想要进阶

实际上，AI绘画仍然属于绘画，如果身上有美学细菌还是比普通人更有优势，这也是前面Stable Diffusion刚兴起的时候，其实玩的比较好的也是一群设计师，我的comfyUI入门也是看的一个设计师的视频。

在一些大佬们提供的提示词后面，也能看到他们的提示中加入了很多关于色调、构图、光影以及风格的要求，实际上AI仍然只是作为一款工具为艺术家们提供灵感和支持，快速构建画面，其结果仍然体现的是艺术家们的创意。

所以，想要进阶，不仅仅需要掌握工具的使用，更多还是要有自己持续的创意输出和风格培养，通过不断实验不同的风格、主题和表达方式，逐渐找到属于自己的艺术语言，让AI工具成为你创意表达的延伸。

当然，这里我仍然找到一种偷懒方式，那就是让AI调教AI，毕竟有可能硅基生命更懂硅基生命。

我的想法是，现在系统的去学习，感觉效率较低，除非真打算成为专业人士，否则平时只是拿AI绘画辅助自己做一些简单的事情，那完全可以速成。

怎么解释这种方法呢，就和我之前使用AI编程一样，往往我会开另一个AI窗口在旁边辅助（基于DeepSeek比较懂中文，我一般开的是DeepSeek）。

例如之前我想给公众号头像焕新，更体现科技感，但是我不明白什么风格更合适，所以我直接问的DeepSeek「图片的材质风格有哪些，如果用来做科技公众号头像，用什么材质风格合适」，DeepSeek给我总结了如下：

最终我选择了3D渲染风格，当前公众号头像就是由原图改成了3D渲染风格，确实好看了很多，我很满意。

另一个例子是，当我想生成漫画时，但是只有隐隐约约一个方向，我就将想法直接扔个了DeepSeek，然后结尾的提示词加上「请帮我想这个方向的段子，输出使用中文语境，且要有画面感，方便画分镜或者漫画」。

deepseek输出为：

主题：智能工牌
场景：公司前台闸机口
画面：阿强的工牌突然发出刺眼红光，闸机显示屏弹出「思想波动值超标」
对白：行政机器人："检测到您产生'这班不上也罢'的危险念头，已自动扣除本月精神损失费"

直接将这段话扔个Gpt 4o，结尾加个「用漫画形式展示以下内容」，结果如下：

目录

经久不衰的套路

Gpt 4o独属的一些技巧

如果想要进阶