扩散模型条件生成——Classifier Guidance和Classifier-free Guidance原理解析-个人在线分享

1、前言

从讲扩散模型到现在。我们很少讲过条件生成（Stable DIffusion曾提到过一点），所以本篇内容。我们就来具体讲一下条件生成。这一部分的内容我就不给原论文了，因为那些论文并不只讲了条件生成，还有一些调参什么的。并且推导过程也相对复杂。我们从一个比较简单的角度出发。

参考论文：Understanding Diffusion Models: A Unified Perspective (arxiv.org)

参考代码：

classifier guidance：GitHub – openai/guided-diffusion

classifier-free guidance：GitHub – coderpiaobozhe/classifier-free-diffusion-guidance-Pytorch: a simple unofficial implementation of classifier-free diffusion guidance

视频：[扩散模型条件生成——Classifier Guidance和Classifier-free Guidance原理解析-哔哩哔哩]

2、常用的条件生成方法

在diffusion里面，如何进行条件生成呢？我们不妨回忆一下在Stable Diffusion里面的一个常用做法。即在训练的时候。给神经网络输入一个条件。

∣

−

(

)

∣

L=||\epsilon-\epsilon_{ heta}(x_t,t,y)||^2

$L = ∣∣ ϵ - ϵ_{θ} (x_{t}, t, y) ∣ ∣^{2}$
里面的y就是条件。至于为什么有效，请看我之前写过的Stable DIffusion那篇文章。在此不过多赘述了。我们来讲这种方法所存在的问题。

很显然的，这种训练的方式，会有一个问题，那就是神经网络或许会学会忽略或者淡化掉我们输入的条件信息。因为就算我们不输入信息，他也照样能够生成。

接下来我们来讲两种更为流行的方法——分类指导器（Classifier Guidance）和无分类指导器（ Classifier-Free Guidance）

3、Classifier Guidance

为了简单起见。我们从分数模型的角度出发。

回忆一下在SDE里面的结论。其反向过程为

[

(

)

−

(

)

∇

log

⁡

(

)

]

(

)

(1)

\mathbb{dx}=\left[\mathbb{f(x,t)}-g(t)^2
abla_x\log p_t(x)\right]\mathbb{dt}+g(t)\mathbb{d\bar w} ag{1}

$d x = [f (x, t) - g (t)^{2} \nabla_{x} lo g p_{t} (x)] d t + g (t) d w ˉ (1)$
如果施加条件的话，还是根据Reverse-time diffusion equation models – ScienceDirect这篇论文，可得条件生成时的反向SDE为

[

(

)

−

(

)

∇

log

⁡

(

∣

)

]

(

)

(2)

\mathbb{dx}=\left[\mathbb{f(x,t)}-g(t)^2
abla_x\log p_t(x|y)\right]\mathbb{dt}+g(t)\mathbb{d\bar w} ag{2}

$d x = [f (x, t) - g (t)^{2} \nabla_{x} lo g p_{t} (x ∣ y)] d t + g (t) d w ˉ (2)$
我们利用贝叶斯公式，对

∇

log

⁡

(

∣

)

abla x \log p_t(x|y)

$\nabla x lo g p_{t} (x ∣ y)$ 进行处理

∇

log

⁡

(

∣

)

∇

log

⁡

(

∣

)

(

)

(

)

∇

(

log

⁡

(

∣

)

log

⁡

(

)

−

log

⁡

(

)

∇

log

⁡

(

)

∇

log

⁡

(

∣

)

\begin{aligned}
abla_x \log p_t(x|y)=&
abla_x\log\frac{p_t(y|x)p_t(x)}{p_t(y)}\=&
abla_x\left(\log p_t(y|x)+\log p_t(x)-\log p_t(y)\right)\=&
abla_x \log p_t(x)+
abla_x\log p_t(y|x)\end{aligned}
onumber

$\nabla_{x} lo g p_{t} (x ∣ y) = = = \nabla_{x} lo g \frac{p _{t} ( y ∣ x ) p _{t} ( x )}{p _{t} ( y )} \nabla_{x} (lo g p_{t} (y ∣ x) + lo g p_{t} (x) - lo g p_{t} (y)) \nabla_{x} lo g p_{t} (x) + \nabla_{x} lo g p_{t} (y ∣ x)$
第二个等号到第三个等号是因为对

log

⁡

(

)

\log p_t(y)

$lo g p_{t} (y)$ 关于x求梯度等于0（

log

⁡

(

)

\log p_t(y)

$lo g p_{t} (y)$ 与x无关）

把它代入Eq.(2)可得

[

(

)

−

(

)

(

∇

log

⁡

(

)

∇

log

⁡

(

∣

)

]

(

)

(3)

\mathbb{dx}=\left[\mathbb{f(x,t)}-g(t)^2\left(
abla_x\log p_t(x)+
abla_x\log p_t(y|x)\right)\right]\mathbb{dt}+g(t)\mathbb{d\bar w} ag{3}

$d x = [f (x, t) - g (t)^{2} (\nabla_{x} lo g p_{t} (x) + \nabla_{x} lo g p_{t} (y ∣ x))] d t + g (t) d w ˉ (3)$
对比Eq.(1)和Eq.(3)。我们不难发现，它们的差别，居然是只多了一个

∇

log

⁡

(

∣

)

abla_x\log p_t(y|x)

$\nabla_{x} lo g p_{t} (y ∣ x)$

(

∣

)

p_t(y|x)

$p_{t} (y ∣ x)$ 是什么？是以

$x$ 作为条件，时间为t对应条件y的概率。我们可以怎么求呢？该怎么求出来呢？

当然是使用神经网络了。也就是说，我们可以额外设定一个神经网络，该神经网络输入是

x_t

$x_{t}$ ，输出是条件为y的概率

所以，实际上我们现在需要训练两部分，一部分是

∇

log

⁡

(

)

abla_x\log p_t(x)

$\nabla_{x} lo g p_{t} (x)$ ，这我们在SDE中已经讲过该如何训练了。

另一个就是

∇

log

⁡

(

∣

)

abla_x\log p_t(y|x)

$\nabla_{x} lo g p_{t} (y ∣ x)$ ，他就是一个分类神经网络网络。训练好之后，我们就可以使用Eq.(3)通过不同的数值求解器，进行优化了。

作者在此基础上，又引入了一个控制参数

\lambda

$λ$

∇

log

⁡

(

∣

)

∇

log

⁡

(

)

∇

log

⁡

(

∣

)

(4)

abla_x \log p_t(x|y)=
abla_x\log p_t(x)+\lambda
abla_x\log p_t(y|x) ag{4}

$\nabla_{x} lo g p_{t} (x ∣ y) = \nabla_{x} lo g p_{t} (x) + λ \nabla_{x} lo g p_{t} (y ∣ x) (4)$
当

\lambda=0

$λ = 0$ ，表示不加入任何条件。当

\lambda

$λ$ 很大时，模型会产生大量附带条件信息的样本。

这种方法的一个缺点就是，需要额外学习一个分类器

(

∣

)

p_t(y|x)

$p_{t} (y ∣ x)$

4、Classifier-Free Guidance

之前推出

∇

log

⁡

(

∣

)

∇

log

⁡

(

)

∇

log

⁡

(

∣

)

(5)

abla_x \log p_t(x|y)=
abla_x \log p_t(x)+
abla_x\log p_t(y|x) ag{5}

$\nabla_{x} lo g p_{t} (x ∣ y) = \nabla_{x} lo g p_{t} (x) + \nabla_{x} lo g p_{t} (y ∣ x) (5)$
把该式子代入Eq.(4)可得

∇

log

⁡

(

∣

)

∇

log

⁡

(

)

(

∇

log

⁡

(

∣

)

−

∇

log

⁡

(

)

∇

log

⁡

(

)

∇

log

⁡

(

∣

)

−

∇

log

⁡

(

)

(

−

)

∇

log

⁡

(

)

∇

log

⁡

(

∣

)

\begin{aligned}
abla_x \log p_t(x|y)=&
abla_x\log p_t(x)+\lambda\left(
abla_x\log p_t(x|y)-
abla_x\log p_t(x)\right)\=&
abla_x\log p_t(x)+\lambda
abla_x\log p_t(x|y)-\lambda
abla_x\log p_t(x)\=&\left(1-\lambda\right)
abla_x\log p_t(x)+\lambda
abla_x\log p_t(x|y)\end{aligned}
onumber

$\nabla_{x} lo g p_{t} (x ∣ y) = = = \nabla_{x} lo g p_{t} (x) + λ (\nabla_{x} lo g p_{t} (x ∣ y) - \nabla_{x} lo g p_{t} (x)) \nabla_{x} lo g p_{t} (x) + λ \nabla_{x} lo g p_{t} (x ∣ y) - λ \nabla_{x} lo g p_{t} (x) (1 - λ) \nabla_{x} lo g p_{t} (x) + λ \nabla_{x} lo g p_{t} (x ∣ y)$
此时我们注意到，当

\lambda=0

$λ = 0$ 是，第二项完全为0，会忽略掉条件；当

\lambda=1

$λ = 1$ 时，使用第二项，第二项就是附带有条件情况下的分布分数网络；而当

\lambda> 1

$λ > 1$ ，模型会优化考虑条件生成样本，并且远离第一项的无条件分数网络的方向，换句话说，它降低了生成不使用条件信息的样本的概率，而有利于生成明确使用条件信息的样本。

事实上，如果你看了free-Classifier Guidance这篇论文，会发现我们的结论不一样。

其实论文里面的控制参数是

$w$ ，也就是说，Eq.(4)就变成了这样

∇

log

⁡

(

∣

)

∇

log

⁡

(

)

∇

log

⁡

(

∣

)

abla_x \log p_t(x|y)=
abla_x\log p_t(x)+w
abla_x\log p_t(y|x)

$\nabla_{x} lo g p_{t} (x ∣ y) = \nabla_{x} lo g p_{t} (x) + w \nabla_{x} lo g p_{t} (y ∣ x)$
我们把控制参数改成

1+w

$1 + w$ 不会有任何影响

∇

log

⁡

(

∣

)

∇

log

⁡

(

)

(

)

∇

log

⁡

(

∣

)

abla_x \log p_t(x|y)=
abla_x\log p_t(x)+(1+w)
abla_x\log p_t(y|x)

$\nabla_{x} lo g p_{t} (x ∣ y) = \nabla_{x} lo g p_{t} (x) + (1 + w) \nabla_{x} lo g p_{t} (y ∣ x)$
把Eq.(5)代入该式子

∇

log

⁡

(

∣

)

∇

log

⁡

(

)

(

)

(

∇

log

⁡

(

∣

)

−

∇

log

⁡

(

)

∇

log

⁡

(

)

(

)

∇

log

⁡

(

∣

)

−

(

)

∇

log

⁡

(

)

(

)

∇

log

⁡

(

∣

)

−

∇

log

⁡

(

)

(6)

\begin{aligned}
abla_x \log p_t(x|y)=&
abla_x\log p_t(x)+(1+w)\left(
abla_x\log p_t(x|y)-
abla_x\log p_t(x)\right)\=&
abla_x\log p_t(x)+(1+w)
abla_x\log p_t(x|y)-(1+w)
abla_x\log p_t(x)\=&(1+w)
abla_x\log p_t(x|y)-w
abla_x\log p_t(x)\end{aligned} ag{6}

$\nabla_{x} lo g p_{t} (x ∣ y) = = = \nabla_{x} lo g p_{t} (x) + (1 + w) (\nabla_{x} lo g p_{t} (x ∣ y) - \nabla_{x} lo g p_{t} (x)) \nabla_{x} lo g p_{t} (x) + (1 + w) \nabla_{x} lo g p_{t} (x ∣ y) - (1 + w) \nabla_{x} lo g p_{t} (x) (1 + w) \nabla_{x} lo g p_{t} (x ∣ y) - w \nabla_{x} lo g p_{t} (x) (6)$
这就是原论文里面的结论。

那么接下来，我们来探讨一下该如何去训练。

对于

∇

log

⁡

(

)

abla_x\log p_t(x)

$\nabla_{x} lo g p_{t} (x)$ ，这个不用说了，之前我们训练的就是这个；如何计算

∇

log

⁡

(

∣

)

abla_x\log p_t(x|y)

$\nabla_{x} lo g p_{t} (x ∣ y)$ 呢，它实际上就是在给定y的情况下，求出

(

∣

)

p_t(x|y)

$p_{t} (x ∣ y)$ 。那我们可以怎么做呢？

在NCSN，我们是使用一个加噪分布

(

∣

)

q( ilde x|x)

$q (x ~ ∣ x)$ 取代

(

)

p(x)

$p (x)$ ，而从让它是可解的。

对于

(

∣

)

p_t(x|y)

$p_{t} (x ∣ y)$ ，即便是加多了一个条件之后，我们仍然建模为

(

∣

)

q( ilde x|x)

$q (x ~ ∣ x)$ ，也就是说，我们仍然把它建模成一个正向加噪过程。因此，无论是否增加条件。最终的损失函数结果都是

∣

−

∇

log

⁡

(

∣

)

∣

−

∇

log

⁡

(

∣

)

∣

L=||s_ heta-
abla_x\log q( ilde x|x)||^2=||s_ heta-
abla_x\log q(x_t|x_0)||^2

$L = ∣∣ s_{θ} - \nabla_{x} lo g q (x ~ ∣ x) ∣ ∣^{2} = ∣∣ s_{θ} - \nabla_{x} lo g q (x_{t} ∣ x_{0}) ∣ ∣^{2}$
后者是通过SDE统一的结果（我在SDE那一节讲过）

那该如何体现条件y呢？其实我们在第二节的时候已经说过了，就是在里面神经网络的输出加入一个条件y。

∣

(

)

−

∇

log

⁡

(

∣

)

∣

(7)

L=||s_ heta(x_t,t,y)-
abla_x\log q(x_t|x_0)||^2 ag{7}

$L = ∣∣ s_{θ} (x_{t}, t, y) - \nabla_{x} lo g q (x_{t} ∣ x_{0}) ∣ ∣^{2} (7)$
而不施加条件的时候，长这样

∣

(

)

−

∇

log

⁡

(

∣

)

∣

(8)

L=||s_ heta(x_t,t)-
abla_x\log q(x_t|x_0)||^2 ag{8}

$L = ∣∣ s_{θ} (x_{t}, t) - \nabla_{x} lo g q (x_{t} ∣ x_{0}) ∣ ∣^{2} (8)$
由Eq.(5)可知，我们需要训练两种情况，一种是有条件的，对应Eq.(7)；另外一种是无条件的，对应Eq.(8)。

理论上，我们其实也是要训练两个神经网络。但实际上，我们可以把他们结合成一种神经网络。

具体操作就是把无条件的情况作为一种特例。

当我们训练有条件的神经网络的时候，会照样把条件输入进网络里面。而训练无条件的时候，我们构造一个无条件的标识符，把它作为条件输入给神经网络，比如对于所有无条件的情况，我都构造一个0作为条件输入到神经网络里面。通过这种方式，我们就可以把两个网络变成一个网络了，

对于损失函数，直接使用Eq.(7)。我们在SDE里面讲过

∇

log

⁡

(

)

−

abla_x \log p(x)=-\frac{1}{\sigma}\epsilon

$\nabla_{x} lo g p (x) = - \frac{1}{σ} ϵ$ 。所以我们最终我们把预测噪声，变成了预测分数。我们同样可以把它变回来，变成预测分数

∣

−

(

)

∣

L=||\epsilon-\epsilon_{ heta}(x_t,t,y)||^2

$L = ∣∣ ϵ - ϵ_{θ} (x_{t}, t, y) ∣ ∣^{2}$
所以损失函数就变成了这样。在训练的时候，作者设定一个大于等于0，小于等于1的超参数

p_{uncond}

$p_{u n co n d}$ ，它的作用就是判断是否需要输入条件（从0-1分布采样一个值，大于

p_{uncond}

$p_{u n co n d}$ 则使用条件，反之则不使用）。也就是说，这相当于dropout一样，随机舍弃掉一些条件，把他们作为无条件的情况（因为我们既要学习有条件的，又要学习无条件的）。所以，最终的训练过程就是这样

扩散模型条件生成——Classifier Guidance和Classifier-free Guidance原理解析插图

其中里面的

\lambda

$λ$ 你就当作是时刻t吧（其实不是，其实是时刻t的噪声（噪声的初始化不一样，不是传统的等差数列，是用三角函数初始化的）。由于与本篇内容无关，故而忽略），c是条件。

同样的，采用过程使用Eq.(6)的结构进行采样

扩散模型条件生成——Classifier Guidance和Classifier-free Guidance原理解析插图(1)

5、结束

扩散模型条件生成——Classifier Guidance和Classifier-free Guidance原理解析插图(2)

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

1、前言

2、常用的条件生成方法

3、Classifier Guidance

4、Classifier-Free Guidance

5、结束

admin 钻石

相关推荐