女生做产品经理好吗

作者&投稿：闳通（若有异议请与网页底部的电邮联系）

最近的AIGC浪潮，本质来源于两项技术：一是ChatGPT所代表的GPT、RLHF、Prompt等技术点，另一个则是AI绘画背后的Diffusion技术。本文作者从Diffusion的技术原理、演进方向、商业落地以及其对相关职业的影响着四个方面，对Diffusion技术进行了详细的分析，对AI绘画感兴趣的同学，一定不能错过。

我从1月30日写系列第一篇的时候就提过，这一波AIGC浪潮本质来源两项技术：一个是ChatGPT所代表的GPT、RLHF、Prompt等技术点，另一个则是AI绘画背后的Diffusion技术。

2023年，只看这两项技术的影响力（除非有新的技术突破发生），其中GPT负责文本领域的狂飙，Diffusion负责图像领域的狂飙，两者合起来才是对内容生产领域完整的冲击。

那我们接下来我们正式开始，本篇文章讲述以下内容：

Diffusion的技术原理科普（照旧通俗易懂）
Diffusion演进方向（潜力在哪里）
Diffusion商业落地分析（附带分析框架）
Diffusion对相关职业的影响（附带分析框架）

一、Diffusion的技术原理科普

DIffusion（扩散算法），这是一种相对简单的自回归模型。如果说ChatGPT背后代表的LLM大语言模型的技术惊艳度是10，那么他可能只有5。

但他目前在图像领域，是当之无愧的王者，与文本领域的GPT隔江而治，二分天下。

接下来，我们用一种新的科普方法，请大家跟随我的思路，去看看这个令人赞美的系统级产品是怎么一步步产生，我会在中间穿插讲解每个技术概念。

旅程开始之前，我们敲下一个问题：“如果我要让AI根据文字，给我输出图片”，都需要什么技术？

第一步，计算机要能够处理图像

虽然我们天天在手机和电脑上看图片/视频，但计算机的理解和我们可不一样。他们的理解和人类在不同层次：

第一层，真实世界，专业点叫模拟图片，就是人类看到，观察到的图片。

第二层，数字世界，即图片的数字化。我们经常听到的分辨率400*400，就是数字世界的表达。这意味着这是一张由1600个像素构成的图片，每个像素点用0~255的数值来表示他的颜色。当图片被数字化后，计算机才能储存、编辑、理解、计算它。

例如下面这张图，右侧的每个数字空格，与左侧的每个像素点对应，空格里的数字则代表那个像素点的亮度，通过这样的转换，图片就被数字化了。

第二步，计算机能够画画

记住这句话：对计算机而言，画画是个数学问题，而非艺术问题。

我们人类画画大概的顺序是：我有个初步想法，然后开始勾勒线条，然后填充色彩。也就是画家先有个模糊想法，然后在绘画过程中，逐步逼近心中的作品。

而计算机的绘画逻辑则不同：他基于人类的命令，进行数学上的计算，遵从概率最高的选择，画出作品（是的！和GPT一样，又是在猜概率）。

在AI的眼中，猫不是猫，而是一个有椭圆轮廓，颜色上黄色、白色、黑色，中间有个两个褐色圆形（眼睛）的东西，就好比下面这些图。

但事实上这些图片是我为了方便你们理解放的，他其实并不严谨。在计算机里，他学习到的东西连上面这些黏糊糊一大坨的图像都还不是，他学到的就是一串数字的分布规律。

就像下面这张图一样，你相信下面这张图中，绿色点其实是一张“手绘数字8”的数学表达吗？所以我们大概有一种模糊的概念即可，不要强求去想象计算机画画的过程，那是很难理解的。

第三步，找到一个合适的算法模型来画画

1）Diffusion的前浪们

在整个AI技术的发展过程中，针对“学习图像规律分布然后生成图像”这件事情上，涌现出了许多模型，例如GAN，VAE，normalizing flow等，但他们都有着这样那样的缺点，最终被Diffusion打败。

以GAN为例子，这是Diffusion技术出现前，图像领域最火热的模型选择。

GAN（Generative adversarial network，生成对抗网络），他的逻辑很简单：我训练两个模型，一个叫生成器（打工仔），专门负责画图，一个叫判别器（老板），专门负责评审生成器画的图到底好不好。

如果生成器画得好呢，判别器就给他发奖金，如果画得不好，判别器就给他一巴掌。

于是生成器为了赚奖金，少挨巴掌，他就会努力画得更好（努力工作），但同时还会努力尝试骗过判别器，让他以为自己画得好（摸鱼）。

而判别器则反过来，他会不断提高自己对生产器产出的判断能力，只奖励真正好的，强烈打击不好的（老板的KPI审核）。

他们之间的关系就像银行制造真币的和犯罪团伙制造假币一样，相爱相杀，共同推动印钞防伪技术提升。

但是GAN存在着若干问题：

首先，这种双核成长不是那么稳定的，有时候甲方压倒乙方，有时候乙方压倒甲方，一旦发生这种情况，整个模型就会崩溃。

其次，他的判别器负责教育生成器好好作画，那么对使用的图片质量要求就很高，不然老师自己都错了，对学生的教育就更加无从说起。

最后，生成器也有问题，他特别怕挨打，所以生成图片是极其保守的，遵循的就是少做少错原则。所以你永远无法期待他画出一个戴着鲜花组成的眼睛的小女孩（只要你的训练集中没有类似图片）。

而VAE和normalizing flow也一样存在问题。

VAE的核心机制中，需要定义一个真实后验的值，但偏偏这个值是不可达的，只能用变分后验来逼近他。重点就是这个变分后验非常麻烦。

normalizing flow 的核心机制则要求模型是可逆函数（例如y=x+1可逆，因为y=2，那么x一定是1，而y=x²不可逆，因为y=4的时候，x可能是-2/+2）。

这让他在选择模型的时候往往不能用最好的模型，因为一些好的图像神经网络是不可逆的。这就让他在画画的时候，在图像的表达上存在弱点。

好吧，方法很多，但好像都有些毛病，怎么办法呢？

2）新生代力量Diffusion闪亮登场

Diffusion的原理表面上理解很简单（数学推导则非常复杂，我也看不懂）：

前向扩散（Forward Diffusion Process），就是下图中的上半截，我们将用于训练的数据，随机添加噪点，一遍遍地添加，直到他变成一张全是噪点的图片。
反向扩散（Reverse Diffusion Process），就是下图中的下半截，我们让模型将这张全是噪点的图片，给我还原成一张清晰的图。

AI模型需要在这个加噪点去噪点的过程中，学习到绘画的方法。哈哈哈是不是非常不可思议，没关系，往下看详细介绍。

在这个过程中，AI模型的训练原理如下，我标了一二三四步，大家跟随我的一起看下方的详细解释。

①第一步，我们随机挑选一个噪点程度，顺便把这个程度数字化（向量化）。

②第二步，随机到的结果是噪点程度T=14。我们就给这张照片加上对应程度的噪点，让他糊掉（必须糊成14的程度）。

③第三步，把噪点程度的向量+模糊的图片一起放进神经网络，这个神经网络的学习过程和上面相反，上面是我怎么加噪点让他变成糊图，而他学习我怎么去除噪点才能让他变成美图。

④第四步，学习的过程中会让模型预测出我要去除的噪点（noise）是多少的。与此同时我们是知道真正要去除的噪点值是多少（毕竟是第一步，第二步中这个噪点是我们自己添加的）。所以AI的预测噪点值就可以去和真实噪点值比较，这个差值就是loss了，你可以理解为模型预测的偏差。

⑤循环训练，在刚开始训练的时候，loss是非常大的，但是我们的训练目标就是让loss变小，无限逼近于0。当loss成功变得非常小时，我们就成功了，模型后面每一次去做预测，都能非常准确。

当模型训练完成后，你下命令让他画画的时候，他就只会执行反向扩散过程了，即找出一张全是噪点的画，然后一步步去除噪点，直到生成作品。整个过程就像下面这张图一样。

From《Denoising Diffusion Probabilistic Model》

p.s 使用过AI绘画工具的朋友可能对里面的“步长”选项有印象，这个步长其实就是到底要求AI绘画预测多少次再出图。

理论上步长越长，图像就越不糊（去的噪点多了），质量也会越好（预测很多次，更准了）。

第四步，让计算机可以根据文字画画

在前面的步骤中，我们解决的只是“让计算机画画”，我们现在进一步解决“让计算机根据文字画画”。

我们首先面临的第一个问题是，计算机怎么知道文字和图片之间的关系呢？

比如下面这张图，我们一看就知道是牛油果，但计算机怎么知道这堆绿中带黄的东西是牛油果呢？

在这里我们再次遇到我们的老朋友OpenAI同学。他在2021年1月开源了CLIP（Contrastive Language-Image Pre-Training）。这个模型用了40亿的“文本-图像”数据来训练，确保计算机在文字描述和图像之间形成互通。

大家如果好奇这些训练数据长啥样，不妨稍微往上拖一拖看看牛油果。每张图片下会有这张图片的描述，这就是文本-图像对数据。

他的训练过程我就不多说了，和前面Diffusion的训练过程很像，AI的核心原理都是这样——你预测一个结果，我手里握着真实结果，那么这之间就会产生一个loss（偏差）。训练的过程就是让这个偏差不断变小，到最后AI每次预测结果就与真实结果几乎一致。

话归正题，OpenAI的这次开源，提供了一条多模态通道，让“以文生图”的效果得到进一步提升（以前不是没有类似的模型，但没有这个效果好）。

现在，当我们说“画一个牛油果椅子”，计算机就会将这句话通过CLIP转换成向量。并且，这个向量同时也是图像的向量，因为CLIP模型已经把图文拉到同一个维度上来理解了。

这就是让计算机根据文字画画的关键模块CLIP，他把文字表达与图片表达拉到一个维度上，使得文字Prompt能够进入Diffusion模型中，去约束图片的生成过程。

另外科普一个小知识点，当AI自己乱画，叫做“无条件图片生成任务”，当AI遵循我们的命令画画，叫“有条件图片生成任务”。文字是其中一种条件，除此以外还有音频（看音乐画图），图像（看图画图），姿势，结构等等。

第五步，计算机根据文字“快速地”画画

但这些还不够，否则AI绘画的爆火就不会从22年年初拖到22年7月了。

这是因为Diffusion虽然解决了GAN、VAE等其他图像模型的缺点，但他在诞生之初，其实也存在一个缺点：他的计算速度非常慢，出一次图动不动就是一个小时以上，很难全面推广。

这是Diffusion的工作原理造成的，因为他出图的时候，其实就是对着一张充满噪点的图反复去噪，这个过程不是一步到位的，可能要执行成千上万次，这就导致出图速度非常慢。

为此学术界做了非常多的努力，但最爆炸的成果来自EleutherAI团队所开源的Stable Diffusion。

他的解决点非常巧妙。大家还记得我们在第一步提到的真实世界→数字世界吗？事实上还有更深一层的世界——隐空间（latent space）。

这个概念在AI中非常重要，因为他能进一步压缩数据量级，让机器的训练、预测速度提升。比如有一张图片他的像素是512*512=262144个像素点。现在我在不丢失重要信息的前提下，把他拉到64*64的隐空间，那么复杂度仅有64*64=4096，是原来的1.5%！

那这个隐空间的原理是什么呢？请看下图的例子：

左右两张图片明明信息量差异巨大，但是我们看到右图却立马明白是什么意思（如果你不明白可以百度一下“我全都要是什么梗”）。

而隐空间（latent space）也是同样的思想，他会通过一些工具，对像素世界中的信息进行选择，只留下高质量、有价值的信息，而其余信息全部丢弃。在这种思想下，因为信息量级降低了，所以计算效率大大提升，但又不会丢失重要信息。

到了这里，我们终于凑齐了七龙珠，可以召唤神龙了！

大家结合我的步骤解释和下面这张图，一起来感受一下完整版Diffusion的工作原理：

①第一步，把像素级别的图片拉到隐空间（减少计算量）

②第二步，进行正向扩散，给图像加噪声（搞一张糊图出来）

③第三步，把Prompt”一个牛油果椅子”转换成向量，一起参与到这个过程中

④第四步，进行反向扩散，让U-net神经网络学习如何正确预测要去除的噪点，这一步会持续反复，直到U-net训练成功

⑤第五步，预测结束后，把图片从隐空间拉回像素空间，成为人类所能理解的图片

整个过程一环扣一环，所以我们可以发现，虽然核心是Diffusion技术，但CLIP、隐空间的应用也都非常重要，所有加起来才推动了AI绘画的爆火出圈。

二、Diffusion的的演进方向和潜力

这一部分我会列举目前比较主流的方向，作为技术篇的补充，但不会有太多的技术解释。

大家在理解基本原理的前提下，大概了解一下技术的变化趋势，避免将思维局限在当前的AI绘画形态上，影响对行业的商业判断。

p.s 我并未每个方向都非常仔细的去搜集数据，部分方向可能存在偏差，仅供参考。

1）可控生成

这是目前学术界发力最多的方向。

有体验过AI绘画的同学应该能理解这种烦恼：这张图还不错，但是偏偏某个细节差了点，我又没能力弄下来重新画，只能不停刷新，期望撞大运遇到完美的。

怎么解决呢？我们可以只替换出错的部分吗？当然没问题！

例如下面这张图，我对猫咪骑的单车不满意，我想换成小车，行不行呢？可以的，Prompt的过程中锁定原图，替换一下这个单词就行——这就是语义替换。

From《Prompt-to-Prompt Image Editing with Cross Attention Control》

这是怎么做到的呢？大家稍微往前回忆一点，我们说到让计算机根据文字生成图片，很关键的一个模块是CLIP来实现这种文本-图像的跨模态转化。并且文字Prompt还会持续约束着Diffusion的去噪过程。而这种可控生成其实就是在这里进行微操，从而实现类似的效果。

大家要特别关注下图中的右侧的Condition模块，他就是我们给Diffusion输入的条件，这里的条件可以是文字，图片、音频、空间结构等等，只是我们目前比较熟悉的应用是文字而已。

除此以外，你甚至可以文字+图两种条件一起上，一起来看看有趣的例子：

①文字+参考图，按照线框布局生成图片

②文字+参考图，限定边界生成

③文字+参考图，模仿人物姿势生成

2）加速采样（降低成本）

这方面非常好理解，不管是Diffusion的模型训练过程，还是上线后的预测（出图）过程，反向去除噪点都是一步步去除的。

这种逐步去噪是保证效果稳定的原因之一，但也制约Diffusion的性能成本。

而加速采用就是能够解决这个问题的方法之一，他大概做的事情就是——你要去除1000步才有好效果？我给你直接干到50步！

所以大家会发现，在去年底还有Stock AI倒闭的新闻，到今年就没有任何一家AI绘画公司出问题了。像意间、PAI这样的公司，靠广告收益+订阅其实也活下来了（至少不会盈亏失衡）。

3）更高的图片质量

如果读者中有从去年7月以来一直持续使用的朋友，会发现AI的产出质量越来越高。

抛开模型升级的原因不提，很大一部分提升来自更优质的训练数据。

这里面一方面来自用户的作品产出，当AI作品被下载，甚至上传到作品集市，那么相当于制作了一个正样本——这是好图，AI你快拿去学习。

此外，一些二维码验证，也在做这方面的数据积累。例如下图，模模糊糊，很明显是Diffusion去噪过程的中间产物。

来自Discord的验证码

最后，一些公司已经在做专门的定向微调优化了。目前大家感受到的可能是AI绘画工具上多出了不同绘画风格可选，例如蒸汽朋克、中国画、水墨、动漫等等。

但我更期待的是是否有一些正在进行的垂直商用的图集训练。例如给他灌入海量LOGO数据，他在LOGO设计方面就会显著提升，这将有助于AI绘画真正踏入商用领域。

4）更强的语义理解（文本-图像）

目前体验上另一个卡点是，有时候AI不是画不出来，他是不知道我要什么。我明明说要一只粉红色的老虎，但他可能以为是粉红色背景+老虎。这方面的难题就需要靠语义理解去处理。

比如前面提到的CLIP，用40亿文本-图像数据训练出来的。如果我们用一个更强大的模型去替代它，就能够提升绘画过程中的语义准确性（其实我之前看到新闻有一个比CLIP更强的跨模态模型出现了，但是很抱歉没找到当初的资料，所以这里列不出例子）。

又比如你干脆用ChatGPT来桥接到AI绘画上，这也是一种加强语义理解的方式。当然这需要ChatGPT一起配合，目前ChatGPT的知识中应该还没有Prompt怎么写更合适的知识。

5）多模态的发展

Diffusion的应用正在扩展到音频、视频、3D领域，但暂时只是一种趋势，落地商用的demo比较少。我这里放几个图和链接给大家参考一下：

视频通过这个链接前往查看（需梯子）https://video-diffusion.github.io/。毕竟视频类的demo，不亲自去看，只看我这里贴图是感受不到的。

3D建模（点云图）的效果可以看看下面这张图：

From 《Diffusion Probabilistic Models for 3D Point Cloud Generation》

读到这里，我们技术篇的科普+潜力介绍就结束了。

不知道你看到这里是否会认同我一直说的话——真正的AIGC浪潮，就从GPT和Diffusion两条技术栈开始，其他挂羊排卖狗肉的暂时得靠边站。

ChatGPT的魅力我已经带大家领略过了，相信Diffusion的魅力尽管弱一些，但也不会差到哪里去。

并且不管GPT 大语言模型的威力如何强大，他未来是否真的可以跨越多模态降临到图像、音频等多模态（我在前文提过这种发展方向）。

但至少在2023年这个节点，图像领域的王仍然是Diffusion。毕竟提前半年启动的数据飞轮和学术界数以百计的paper努力不是白费的。

三、Diffusion的商业分析

如果想看具体的场景、项目盘点，可以在公众号follow这个商业项目库，本文中不会有针对具体项目的分析。

本文中尝试的是，我日常维护更新项目时，所用的分析框架和方法，详情如下：

需求明确性，需求越明确越无法忍受AI的自由创作，也越需要人类介入校正；
市场规模，由作品价值X需求规模影响；
分析框架，将需求明确性、市场规模组成二维矩阵；
限制因素，补充法律版权、敏感审核这两个限制因素作为参考；
一点浅薄的判断，关于这个市场会往哪个方向发展。

1. 需求明确性

需求的明确性受到两方面影响：

1）是否能够想清楚要什么

多少人/多少场景在创作之前就已经明确知道最后落地作品的样子？

事实上甲方提需求的时候，通常都是朦胧不定的，因为她们心中只有一个概念。并不是所有人都能做到文与可的“胸有成竹”。

2）是否能够说清楚要什么

一方面因为图像需求的朦胧性，他的表达本身就很有困难。例如“我要一个奢华、有格调、符合品牌调性的海报”，这其实就是朦胧需求带来的表达模糊。

而另一方面是需求方能力限制下的表达模糊。比如梦到了一副作品，那个蓝色是天青蓝还是蝴蝶兰呢？那个画风是印象派还是后现代呢？饱和度是高，还是低呢？

很难，非常难，这也是画师朋友在以前最核心的技能之一。他们在内心通过自己的审美水平建立起了感性-现实之间的通道，并最终通过自己的技艺实现作品的落地。

基于上述两个因素组合起来的需求明确性从低到高是这样子的：

①无条件创作

这就是Diffusion不加入CLIP的样子，即你给我生成一张作品，但我毫无要求，只要是作品就行。在现实中，这场场景的例子非常少，NFT可能算一个（只要漂亮、有艺术感就可以卖钱，不用你命题作文）。

②方向条件创作

给你一个方向，例如画一张类似莫奈的画，画一只可爱的猫。这个场景就是现在AI绘画目前所完美匹配的场景。他适用于低要求的创作，例如社交货币获取，AI绘画平台作品填充，文章插图等。

③限制条件创作

商业上的例子会特别常见：帮我画一个LOGO，科技风，里面一定要有潮汕牛肉丸几个字，整体色调蓝色。

这个例子中限定了LOGO，科技风，包含文字，色调等好几个条件，远高于上个层次的要求。

目前技术正在逐渐、部分地满足这个层次的需求。

④完全条件创作

上个层次中条件完全穷举后即到达这个层次，例如潮汕牛肉丸要在上面，要用衬体字，必须象形写意等等，甲方爸爸想要怎么调整就怎么调整。

目前来看，短期内AI不可能是不可能实现完全条件下的创作实现，一定需要靠人类画师借助工具进行二次修改实现。

2. 市场规模

1）单个作品的价值

这里的价值不是使用价值，就是交换价值，你可以用“价格”来替代理解。在AI技术的低成本碾压下，作品的价值肯定会产生断崖式下跌，但需求明确性更高的作品，会具备更高的抗贬值属性。

2）作品的需求规模

即这种类别的商品，有多大的需求空间。例如插画，原本用在故事绘本、日系轻小说等地方。而现在因为技术门槛降低，作品价值下跌，国内的网文，人物立绘，同人作品等场景也会产生需求，推动整体需求规模的爆发。

上述两者综合起来就是市场规模，目前来看基本的方向是价值下跌，但规模扩张，从而迎来整体市场规模的扩展。

3. 分析框架组装

通过这两个维度的理解，我们可以在脑中建立如下图所示的模型，对每个接触到的商业机会进行判断。

大家可以发现整个图向着右上角蔓延，需求明确性和市场规模在这个框架分析下呈现正比例关系。

但这种关系可能是一种错判，因为其中的市场规模未客观测算，收集的方向也不足够。

因此本图仅供参考，无法作为知识输入，更好的用法是套用这个框架看看各类投研公司出具的分析报告。

4. 限制因素

Diffusion的限制因素会比ChatGPT简单很多，主要围绕法律版权和敏感审核两方面。

1）法律版权

概念上可以分为训练所用图集版权+用户生成图片版权两大类。目前存在大量的争议，没有明确结论。

①模型的输入：训练图集版权

目前Diffusion原始的训练图集来自Laion（一家非营利性机构）在22年3月开源的Laion-5B（包含58.3亿文本-图像对）。其中最关键的是这个数据集中的一个子集，LAION-Aesthetics。他按照艺术性美感，对图片进行打分，其中8分以上800万张，7分以上1.2亿张。

但可想而知，这么大规模的一个数据集，肯定不全都是具备商用版权的。但目前几乎难以对这方面进行追溯定义，相关的讨论非常混乱。

他面临的本质问题是：对图像的版权定义过时了。AI模型的做法并非像素级复制，甚至非局部复制，而是复制风格、手法、要素等。这种手法有点像媒体界中流行的“洗稿”，几乎无法被追溯版权问题。

所以虽然画家中的抗议声音非常大，在这方面却无法产生太大的影响。

日本画家对mimic的抗议

②模型的输出：生成作品的版权

目前有一些平台采用附加NFT的做法来保障用户生成作品的版权。但同样的，在法律层面目前没有明确的定义。

如英国，尽管是少数支持AI生成作品版权的国家之一，他对AI生成作品也有着模糊的前置限定——“完成作品创作所需安排的人”。这个所需的人，就很有意思了，写几句Prompt算所需的人吗？好像可以算也可以不算。

再例如国内，相关的著作权法中描述，“著作权法所称作品是指文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果”。因此AI肯定不拥有作品的著作权。

再看这条：“我国著作权法第十一条规定，著作权属于作者，受到著作权保护的作者只有两种：“自然人和法人或非法人组织”。那么这个作者是Prompt输入者还是开发AI模型的公司呢？

我能找到唯一相关的判例来自2020年，腾讯的dreamwriter写作的财经新闻被复制转载，腾讯提起诉讼并胜诉，获赔1500元。但这则判例中没有用户+公司这种复杂情况，只有一点点参考意义。

2）敏感审核

审核主要来自输入端（Prompt）和输出端（出图前审核）。

Prompt部分比较简单，上个词库+小模型就能解决，比较成熟了。

输出端则会比较承压，毕竟色情和性感，调侃和涉政，其实边界还挺模糊的。常规平台做法一般都是模型+人工双保障。但AI绘画平台目前的收益很难承受得起这种人工审核的成本，所以输出端的控制会松一些。

目前比较主流的方式是通过用户协议进行责任约定，如下图：

From 某AI绘画平台免责声明

5. 一些浅薄的判断

1）AI绘画会迅速从目前的方向创作领域展开，进入条件创作领域。这些条件不仅仅是风格的选择，还可能涉及语义修改，图像风格保持，核心语义保持，指定方向绘画（按姿势、按结构）等。

2）由于上一点，会导致2B的场景蓬勃发展，因为B端场景一直以来需求明确性都是高于C端场景的，同时其市场规模也会大于C端娱乐化的无条件或方向创作场景。

3）由于上一点，2B场景的扩展会导致细分领域越来越多，部分拥有独特图像数据资源的公司会下场进行垂直方向的调优，玩家数量会进一步增多。

4）由于上一点，玩家数量增多导致上下游产业链进一步发展，综合性AI绘画开放平台是一个有意思的赛道。

5）由于上述观点，蓬勃旺盛需求与AI不可控现之间的冲突，会导致工具整合成为主流，即AI不可控技术+可控修改技术的整合平台成为潮流。任何AI技术侧都会集成修改技术，而修改技术的传统公司（如PS）也会集成AI技术。画师从业者未来的操作平台一定是综合平台。

6）由于上一点，AI绘画的一个可预见的技术卡点是PNG转可编辑格式——即出图直接可修改。这个技术卡点我不太了解，不知道是否有可能解决。

如果预测错误，要么某个作出判断的知识点出错了，要么整个思考的框架出错了，都值得期待。

四、Diffusion对相关职业的影响

上一次对画师的颠覆是电脑发明的时候——手工画师逐步减少，并被数字画师替代。手工作品成为了象征品位的小众商品，就如同手工模型之于工业产品一样。

我和身边的很多画师或者设计朋友聊过这个事情，发现大部分朋友都属于乐观精神态度，没有我一开始想象的悲观（可能是我的朋友都比较厉害的缘故？不太懂这个行业哈哈）。

要开始这个命题，我们要重新把目光投回商业篇中。商业篇给出了两个重要的概念：需求明确性，市场规模。

我们这里再延伸出两个概念：画师舒适区，新增市场潜力区。

1）画师舒适区

来自于技术上可控性的演进，他会逐步往右退缩。但目前而言，Diffusion仍然在可控性方面做持续努力，这种努力短期内看来不可能触达完全限制领域（部分场景可能可以）。

所以画师的审美、感性语言-艺术作品的转化能力、对图片二次修正的技艺等能力其实会保持很长一段时间的价值。

2）市场潜力区

来自于我的一个不成熟想法。历史上生产力的进步，一定会伴随着人均消费资源的上升，进而推动市场的繁荣。

没有电脑前，人均消费的图片可能1都不到，但有了电脑后，我们的人均消费也随之而暴涨，绘画行业的人并不是减少了，反而是增多了。

这就很有趣了，我发现似乎不能将所有生产力革命都与工业革命对工人职业的替代去做类比，这是不恰当的。

我认为可能应该从两种情况来进行讨论（我觉得这个角度应该可以适用于所有职业的分析场景）：

生产力到顶，工作者溢出导致失业，需要学习新技能并涌入其他行业。例如农业革命导致农民进城，工业革命导致第三产业繁荣等。

但这种溢出是有极限的，总生产规模不仅受限于劳动力，更可能受限于生产资料（农业革命），受限于消费能力（工业品供过于求）等原因，因此这个过程总会在某个节点按下停止键。

生产力未到顶，工作者受益于生产力提升，会创造更多的价值。一个例子是教师，从古代私塾，粉笔黑板，教学电子化一路过来，我们发现我们的教师行业并未发生萎缩，反而持续增长。这是因为他面临的需求并未到顶，甚至可能是无限的。

我看过一些科幻小说，大概描述一个这样的场景：人均寿命提升到1000岁，但是科学家开始真正开始科研的岁数是100岁，因为他从头到尾要学习的内容就是这么多。当文明的寿命长度，不足支撑个体完成文明知识的学习后，文明的发展就被锁死了。

收回话题来，那么Diffusion对画师的影响到底是哪种呢？

我认为至少暂时生产力是未到顶的，动漫、动画、小说插画、立绘，或者说跨模态的视频等，其实目前的需求都是旺盛的——特别是在技术压低成本后，更加是旺盛的。

但是这片市场潜力区的天花板到底多高，我无法判断。就像1000年前的宋仁宗，还有1个月他就登基了，他能想象我们今天每日消费的内容图片是多少吗？

最后做一下创作声明：本篇内容中的知识点来自为期两天的刻意学习结果，其中一部分答案来自OpenAI直接提供的回答，如有任何错误，欢迎私信指正，非常欢迎。

本文由@马丁的面包屑原创发布于人人都是产品经理，未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

","force_purephv":"0","gnid":"98cd313d560178e16","img_data":[{"flag":2,"img":[{"desc":"","height":"420","title":"","url":"https://p0.ssl.img.360kuai.com/t01a222359f9feb7700.jpg","width":"900"},{"desc":"","height":"449","title":"","url":"https://p0.ssl.img.360kuai.com/t011cd9ab955f129c55.jpg","width":"1080"},{"desc":"","height":"457","title":"","url":"https://p0.ssl.img.360kuai.com/t01e2680045178452c5.jpg","width":"1080"},{"desc":"","height":"428","title":"","url":"https://p0.ssl.img.360kuai.com/t018047032a589925ca.jpg","width":"637"},{"desc":"","height":"705","title":"","url":"https://p0.ssl.img.360kuai.com/t01f71fb79471ffcf60.jpg","width":"1080"},{"desc":"","height":"720","title":"","url":"https://p0.ssl.img.360kuai.com/t01088d501ec2dc708b.jpg","width":"666"},{"desc":"","height":"418","title":"","url":"https://p0.ssl.img.360kuai.com/t01c70d44989903ecc9.jpg","width":"1080"},{"desc":"","height":"252","title":"","url":"https://p0.ssl.img.360kuai.com/t0110fa60fd637e4d56.jpg","width":"700"},{"desc":"","height":"378","title":"","url":"https://p0.ssl.img.360kuai.com/t01d437b2aae7e32338.jpg","width":"761"},{"desc":"","height":"252","title":"","url":"https://p0.ssl.img.360kuai.com/t015dcaa6db3f4dec6b.jpg","width":"465"},{"desc":"","height":"302","title":"","url":"https://p0.ssl.img.360kuai.com/t013abde6251dfc8cc8.jpg","width":"618"},{"desc":"","height":"429","title":"","url":"https://p0.ssl.img.360kuai.com/t01c56b5c5b46cbf608.jpg","width":"828"},{"desc":"","height":"429","title":"","url":"https://p0.ssl.img.360kuai.com/t0188e753185c0d9ae0.jpg","width":"820"},{"desc":"","height":"436","title":"","url":"https://p0.ssl.img.360kuai.com/t01bb12ca5d903c5a76.jpg","width":"828"},{"desc":"","height":"633","title":"","url":"https://p0.ssl.img.360kuai.com/t01ac7166318e45eb1f.jpg","width":"433"},{"desc":"","height":"410","title":"","url":"https://p0.ssl.img.360kuai.com/t015776cd0cc1267202.jpg","width":"704"},{"desc":"","height":"487","title":"","url":"https://p0.ssl.img.360kuai.com/t01197d6c15c9d068be.jpg","width":"1080"},{"desc":"","height":"353","title":"","url":"https://p0.ssl.img.360kuai.com/t0117030ce44493f3d6.jpg","width":"484"},{"desc":"","height":"419","title":"","url":"https://p0.ssl.img.360kuai.com/t019e6a6cd84754defd.jpg","width":"542"},{"desc":"","height":"191","title":"","url":"https://p0.ssl.img.360kuai.com/t01bb253459d5618411.jpg","width":"709"},{"desc":"","height":"454","title":"","url":"https://p0.ssl.img.360kuai.com/t012d75f9c2dba92589.jpg","width":"445"},{"desc":"","height":"216","title":"","url":"https://p0.ssl.img.360kuai.com/t015f435c9e29dabd26.jpg","width":"1080"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"hbase","pub_time":1676539920000,"pure":"","rawurl":"http://zm.news.so.com/6a6c644c884a91509595d94757d63d31","redirect":0,"rptid":"6fdf3a3b27f1a668","s":"t","src":"人人都是产品经理","tag":[{"clk":"ktechnology_1:绘画","k":"绘画","u":""}],"title":"万字长文：产品经理视角下的AI绘画全解析

为什么这么多人想当产品经理?
1、工程师或设计师被产品经理折磨惯了； 2、产品经理不用当经理也有个“经理”的title； 3、产品经理并不硬性要求某种专业能力或知识，看起来容易上手； 4、有很多人以为有想法\/能给产品挑毛病\/喜欢上网\/看了两本书就能够做产品经理； 5、认为经常逛豆瓣，去过什么产品沙龙，能写几篇酸楚的充满了...

文科生没有技术背景适合从事产品经理岗位吗?
其实文科生也适合从事产品经理岗位。文科生往往有着更好的移情能力、更丰富的想象力和更深邃的思维，而且沟通能力也很强。假如文科生通过自学补上技术能力方面的短板，再充分利用自己表达和思考的优势，扬长避短，同样可以在产品经理岗位上干得很出色。很高兴我的回答能够对您有帮助 ...

产品经理为什么薪酬那么高
对产品和市场了如指掌，然而产品经理的收入却不稳定，如果在一个中小公司，就更难获得长远发展，长久的积累确保产品经理积累了足够的经验，教室啊，客户，人脉，随着时间推移创业就是个自然的选择。满意请采纳。应届生，你为什么那么想做产品经理是一个应届生不一定是没有经验的啊，能力也不一定比别人...

凯实生物科技有限公司产品经理前景如何
好。凯实生物成立于2009年6月1日，占地5000余平方米，专注于为IVD临床检验行业提供全自动、智能化的行业解决方案。在公司中担任产品经理是非常有前景的，为了发展会很好，有较大的升迁机会。

拿到大厂产品经理offer的应届生都什么水平?
实习或项目经验：应届生可能在大学期间参与过产品管理相关的实习或项目，积累了一定的实践经验。这些经验可以展示他们的团队合作能力、解决问题的能力和项目管理的能力。技术背景：虽然产品经理的角色通常不要求深入的技术知识，但对于应届生来说，具备一定的技术背景会是一个优势。他们可能具备一些基本的编程和...

为什么要做产品经理——在蔚来的16个月
而我又是一个很乐于帮别人解决问题的人。作为实习生，我只是短暂的参与了nomi这个产品生命周期，如果借助校招可以成为全职的产品经理，在未来就能够哦有机会完整的参与某个产品的周期，从无到有，再到优化迭代，再到下一个新的产品。学业之余，希望自己能继续为校招做好准备，预祝自己一切顺意。

互联网产品经理们五年后会失业吗
今天这个分享主题想过很久,做为早晨的第一课应该给大家醒醒脑,所以我的题目是《产品经理们,五年后,你会失业吗?》。讲课之前我先做个小互动,在座各位,是90后的请举手?恩,大概占到三分之一人数,80后举手?剩下都是80后,好开心,我和大多数人是一样的。另外,这个话题对于大多数的你们,绝对有意义。我从业到现...

大学生毕业产品经理岗竞争激烈吗
现在好多大学生就凭这自己懂电脑、常上网、泡论坛、会点PS、好网购等等这些层面上的网营知识跃跃欲试的跳入网站产品经理这个门槛里，其不然里面的隐形门槛，到处都是坑。。。那么为什么还有那么多的大学生毕业后想做互联网产品经理呢？·自身没有系统性的职业规划首先我认为有一个比较普遍的现象，就是大...

产品经理和产品运营什么关系?
而且产品经理生出来的产品如果后续没有运营强有力的支撑,再滴血认亲那也只能是个后爸;反过来亦如此,运营如果不能更好的了解这个孩子的来龙去脉,你养得再努力,到头来怕也不过养了个白眼狼。在这种情况下,产品运营和运营经理要做的事情实际上媾和,普通话来说应该是两个岗位逐步的整合到一起来。产品经理不断的...

在一个技术为王的公司,产品经理如何生存?
如果我回绝产品经理的要求一般有以下两方面：1、他让我做一个可有可无的东西，只是觉得这个可能也不错，试试另一种花样，自己根本没有去调研、思考过，到底哪种方式更好。这样的需求如果实现起来很简单，那我可以试试，但是要是比较费劲我就会回绝，当然很可能这个产品经理会去找领导大boss压我，让我...

元毛13316339867问： 女生做产品经理好吗? - ？
凤凰县华福回答： 女生做产品经理也不错啊,女生比较认真,细心,对于开发的要求会更完美!不过做产品经理可能会累一点,但是工资高,还是可以的.如果你真的想做产品经理,不妨去试一试,说不定很合适哦!产品经理学习,可以去黑马程序员看一看.

元毛13316339867问： 女生从事产品经理岗位,有优势吗? - ？
凤凰县华福回答： 女生从事产品经理的优势在于:开发团队往往阳盛阴衰的现象非常明显,很多后端团队甚至一个女生都没有.如果有两位产品经理候选人,一个是温柔可爱、年轻漂亮的女PM,另一个是素质能力相当的男PM,相信技术宅会更倾向于选择前者.你是女生,想学产品经理,可以看看黑马程序员视频库的视频,学一学产品经理!

元毛13316339867问： 女孩子适合做产品经理吗? - ？
凤凰县华福回答： 挺适合的吧,我感觉,我们公司的那几个产品经理貌似都是女的

元毛13316339867问： 女孩子从事产品经理职位真的没有男生吃香吗 - ？
凤凰县华福回答： 谁说的?只要女生有这个能力,可以说比男生干的更好.女生的细致,耐心,勇敢都为女生从事经理这个工作跟加的好.

元毛13316339867问： 女孩从事web前端开发工作好呢还是从事产品经理工作好呢 - ？
凤凰县华福回答： 产品经理更有挑战一点,工作比较多,但是做深了收入也很多.因为一个合格的产品经理要懂很多知识,比如市场营销知识、财务知识、研发知识等,做一个产品从市场调研开始到研发阶段、推广阶段、销售阶段会涉及很多方面知识.很多做销...

元毛13316339867问： 产品经理有前途吗 - ？
凤凰县华福回答： 产品经理(Product manager,简称为 PM,也称产品企划)是指在公司中,针对某一项或是某一类的产品进行规划和管理的人,主要负责产品的需求分析,研发、制造、营销、渠道等工作.一般来说,产品经理是负责并保证高质量的产品按时完成和发布的专职管理人员.他的任务包括倾听用户需求;负责产品功能的定义、规划和设计;做各种复杂决策,保证开发队伍顺利开展工作及跟踪错误等,总之,产品经理全权负责产品的最终完成. 简单点就产品经理就是收集分析用户需求,写MRD,然后根据需求来策划产品功能,画产品原型、编写PRD等文档,同时也要负责产品的项目进度,与产品设计师、交互设计师、技术开发人员做沟通.

元毛13316339867问： 女生,26岁,计算机专业,一线城市,在国企呆久了两年,没有价值感,收入不会再涨,很普通,除了稳定没 - ？
凤凰县华福回答： 如果你考虑跳槽建议你在国企里先生完孩子再跳.私企竞争和制度会给你有压力的.

元毛13316339867问： 本人女22岁,做了一年的软件开发,感觉没多少天赋,今年六月份就大学毕业了,想转行,求各位大神给点意见 - ？
凤凰县华福回答： 可以转做测试或者是项目助理(软件开发方面的) 你有一些优势:1、你懂软件开发,看得懂代码2、你是女孩子,女孩子一般比男生更细心,更耐心3、你已经有大概一年多的软件开发工作经验所以觉得测试和项目助理比较适合你测试不用说了,大家都明白项目助理,主要是时间管理、进度管理、质量管理,将来的发展方向是项目规划或者产品经理等.当然这个还要看你自己怎么想或者你够不够努力了往项目管理方向发展,对于你的好处是,你做的更多的将是文案工作,而不是写代码会轻松很多注意哦我这里说的项目管理是指软件开发方面的项目管理不是说你要丢掉本专业

元毛13316339867问： 女孩子适合做项目经理吗 - ？
凤凰县华福回答： 项目经理给出了两条理由:一是此人很难沟通,过于腼腆,又不说话;二是此人不懂技术.这两个理由似乎很充分.怎么会这样呢?这引发了我的思考. 女性其实在项目经理这个角色上是有很多优势的.项目经理主要还是做组织和管理工作,兼...

元毛13316339867问： 女生,在快消品行业做市场部产品经理好?还是汽车行业做团委书记好?不考虑个人兴趣,都挺喜欢的. - ？
凤凰县华福回答： 团委书记比较稳定但薪资也稳定以后出路比较窄不好再找工作,产品经理属于核心职位以后出路更广无论跳槽还是薪资水平提升会快些发展更好

星空见康网

女生做产品经理好吗

一、Diffusion的技术原理科普

二、Diffusion的的演进方向和潜力

三、Diffusion的商业分析

四、Diffusion对相关职业的影响

相关链接