新一代人工智能与预训练大模型导论-5

生成模型 - 从复制到复现

生成模型是指能够随机生成观测数据的模型。观测数据具有随机性,所以生成数据也应是随机的。生成模型不能复制观测数据,而是复现数据的规律,产生相似但又新颖的数据,出现概率几乎和观测数据相同。

生成对抗模型

如何训练一个生成模型?

起初有一个不完美的生成模型(神经网络),生成不完美的样本。另有一个判别模型(神经网络)区分这些不完美的样本(赝品)和真是样本。判别模型把差距告知生成模型,生成模型按照差距纠正自己,并生成下一批样本。

初始的生成模型(神经网络)只能生成混乱的图像,判别模型给出改进方向。

图像生成器如何生成

隐空间表征初始为高斯噪声,使用卷积神经网络,逐步扩大分辨率,最后一层输出RGB模型。

真实样本看做一个整体,生成样本和整体相近,无法控制细节。条件生成即生成过程中会指定条件,判别过程也按条件判别,实现可控。

本质:学习标注到样本生成过程。,

扩散模型

扩散模型同样是生成模型,需多步采样而非一步采样生成。从噪声开始,一点点去噪、完善细节,逐步生成完整图像。目前认为扩散模型比生成对抗网络更好,稳定性和生成图像的质量更佳。

训练模型是作为猜谜游戏的谜底。训练好的AIGC模型可以不断修改图像,将完全噪点图像生成图像。

为什么要用噪声变成图像

容易采样。高斯噪声叠加高斯噪声还是高斯噪声。并且在计算机的眼里,噪音容易得到、内容规整,适合从里面雕刻出新内容。不用噪声而是用参考图片,则会变成垫图。

跨模态学习和生成

文生图就是常见的跨模态应用。“模态”指的是不同类型的感知数据或信息的表现形式。模态可以包括图像、文本、语音、音频等多种形态的数据。

把自然语言的词汇(或者token)分别编码为多个可以计算的数字(向量,嵌入embedding)。

学好文本之后可对齐图片。CLIP是OpenAI提出的基于对比学习的图文预训练模型,学习了如何对其文本和图片。文本编码器学习文本嵌入,每个词汇(token)得到一个向量。图像编码器类似。

训练CLIP时,从训练集中随机取出多张匹配的图片和标签照片。分别使用文本编码器和图像编码器得到他们的向量,用余弦相似度来比较向量的相似性。训练两个编码器达到:匹配的图片和文本向量相近,否则相离。

文本嵌入作为条件注入到生成过程当中。使用交叉注意力:文本嵌入变成kay和value,生成中间特征是query。Key和query匹配并归一化得到注意力权重。


交叉注意力控制扩散模型

扩散模型做的是去噪,去掉的噪声应该是有唯一正确的,这个通过交叉注意力注入的提示词信息到底控制什么?

事实上扩散模型不止是去噪,也在不断给生成图加入要绘画的信息。这个交叉注意力不仅给出了如何分离去除噪声的提示,更加入了要生成的画面内容。


新一代人工智能与预训练大模型导论-5
http://example.com/2024/05/29/Introduction-to-New-AI-5/
作者
Penner
发布于
2024年5月29日
许可协议