促进AIGC领域快速发展的另一大功臣当然要数AI绘画技术的进步。尤其是2022年4月OpenAI发布的一款强大的AI绘画工具——DALL·E2,使得AI绘画的发展进入了新纪元。运用该工具,只需输入简短的文字,就可以生成全新的图像。
DALL E2
DALL·E2的发布引发了内容创作领域的又一次热潮。AI绘画工具的出现将极大地解放设计工作者的双手,促进新一代内容生产工具的变革。
DALL·E2既是内容创作领域的革命性工具,同时也成为图像生成和处理技术领域的新标杆,而它背后的技术核心——Diffusion模型也受到了广泛的关注。2022年8月,由Stability AI公司开发的另一款文本生成图像产品——Stable Diffusion,同样基于Diffusion模型实现。之后一个名叫Midjourney的研究实验室研发出同名模型,并且在2022年11月发布了v4版本,该模型在商业文字转图片方面展示出令人震撼的可用性,同样利用了Diffusion模型技术。
Diffusion
Diffusion在中文中被译为“扩散”。扩散是一种物理学现象,指的是一种基于分子热运动的输运现象,是分子通过布朗运动从高浓度区域向低浓度区域转移的过程。它是趋向于热平衡态的过程,也是熵驱动的过程。
统计热力学可以描述扩散过程中每一时刻的概率分布,而且每一时刻都是可逆的,只要步间距足够小,就可以从简单分布重新回到复杂分布。
Diffusion模型亦即扩散模型,最早是2015年在《基于非平衡热力学的深度无监督学习》(DeepUnsupervised Learning using NonequilibriumThermodynamics)论文中提出的。作者受统计热力学的启发,开发了一种新的生成模型。想法其实很简单:首先向训练数据集中的图像不断加入噪声,使之最终变成一张模糊的图像,这个过程就类似于向水中加入一滴墨水,墨水扩散,水变成淡蓝色,然后教模型学习如何逆转这一过程,将噪声转化为图像。下面我们详细介绍一下这个过程是如何进行的。

如图,扩散模型的算法实现分为两个过程:正向扩散过程和逆向扩散过程。正向扩散过程可以描述为逐渐将高斯噪声应用于图像,直到图像变得完全无法识别。正如图2-14,通过正向扩散过程,图中的风景变得模糊起来,直到最后一整张图变成马赛克。这个过程看上去充满随机性,但实际上是存在特定意义的,整个过程可以表述为正向扩散过程的马尔可夫链——描述从一个状态到另一个状态的转换的随机过程。而这个随机过程中的每一个状态概率分布,只能由其前一个状态决定,与其他状态无关。
那如何应用这一过程将马赛克图像恢复到原始图像?其中的问题在于,从正向过程推导出明确的逆向过程是非常困难的。这一点根据实际情况也可以想象得到,一张多次加入随机噪声的非常模糊的图像,几乎是不可能完全恢复成原始图像的。于是扩散模型采用的是一种近似的方式,即通过神经网络学习的方式近似计算逆向扩散过程的概率分布。应用这种方法之后,即便是一张多次加入噪声后变得完全模糊的图像,也能被恢复成一张接近原始模样的图像,而且随着模型的迭代学习,最终生成的结果也将更符 合要求。
通过正向扩散和逆向扩散两个过程,扩散模型就能实现以一张原始图像为基础,生成一张全新的图像。这大大降低了模型训练过程中数据处理的难度,相当于用一个新的数学范式,从另一个角度定义“生成”过程。和GAN模型相比,扩散模型只需要训练“生成器”,训练目标函数简单,而且不需要训练别的网络,实现了易用性的极大增强。
Stable Diffusion
Stable Diffusion是由Stability AI主导开发的文本生成图像模型,其交互简单,生成速度快,在极大地降低了使用门槛的同时还保持了令人惊讶的生成效果,从而掀起了另一股AI绘画的创作热潮。

即文本编码器和图像生成器。StableDiffusion的工作原理就是通过文本编码器将语义转化为计算机可以处理的语言,也就是将文本编码成计算机能理解的数学表示,之后将这些编码后的结果通过图像生成器转换为符合语义要求的图像。
无论是Stable Diffusion、DALL·E2还是Midjourney,通过扩散模型、CLIP模型或其他深度学习模型组合实现的AI绘画工具的出现,都让我们看到人工智能领域的技术发展速度已经超出了预期。而在AIGC领域,衍生出更多了优秀的模型。
一切简单自然的事物都是美好的。