GAN 生成对抗网络

Author：那随意了
发布时间：August 1, 2024
992 views
No comments
12872 words
Categories：代码

GAN

概要

我们建议使用新的框架来评估生成的模型，通过对抗的过程，其中我们同时训练俩个模型：生成模型G它用来捕获数据的分布，还有区分模型D用来估计样本来自训练数据而不是G的概率。训练G的过程是最大化D发生错误的概率，这个框架对应于一个极大极小的二人游戏。在任意函数的D和G空间中，存在唯一的解，其中G恢复训练数据分布，D在任何地方都为1/2。在案例中D和G是根据多层感知机定义的，整个系统的训练是通过反向传播。它不需要很多的马尔科夫链或者近似推断网络在整个训练或者样例生成的过程中。通过对生成样本进行定性和定量评估，实验表明了框架的潜力。

引言

深度学习的前景是发现丰富的分层的模型，他代表着人工智能应用中遇到的各种数据的概率分布。比如自然图片，包含语音的音频波形，和自然语料库中的符号。如今，大部分成功的深度学习模型涉及复杂的辨别模型，通常是那些高维的，丰富的感官输入到一个类标签的模型。这些惊人的成功主要是基于反向传播和dropout算法，使用分段线性单元，它们的梯度表现的特别好。

分段线性单元指的是类似relu这样的分段线性函数（非光滑的）。可以避免梯度消失问题，过拟合，尽管函数是分段线性的，但它还是引入了非线性元素。
深度生成模型是一种深度学习方法，它的目标是学习到目标浅层的概率分布，生成新的相似的数据样例。深度生成模型的影响较小，它的目标是学习到潜在的概率分布，它主要被用在无监督学习中，意思是他们不需要数据标记去学习数据的结构，他们可以用于不同的任务比如图像，文本，语音，甚至更复杂的结构数据比如药物中的分子。

深度生成模型很少会受到影响，这是由于不同的，这是由于在极大似然估计和相关策略中出现的许多难以处理的概率计算难以近似，而且由于不同的资源，并且难以在生成环境中充分利用线性单元的好处。我们提出了一个新的生成模型预测预测程序，它克服了这些困难。

在提出的对抗网络框架中，生成的模型正在与对手竞争：一个进行区分的模型它学习，确定哪个样例来自模型分布或者数据分布。而生成的模型可以被认为类似于一群伪造者，试图制造假币，并在不被发现的情况下使用，其中判别模型是类似于警察，尝试察侦查处假币。竞争驱动的俩个团队强化他们的方法直到和真品不能在区分。

这个框架可以为了更多模型和优化算法产生特殊的训练算法。在文章中，我们探讨了生成模型通过多层感知机传递随机噪声来生成样本的特殊情况，并且判别模型也是多层感知机。我们把这种特殊情况称为对抗生成网络。在这个例子中，我们可以使用只有非常成功的反向传播和dropout算法训练俩个模型，仅使用前向传播从生成模型中获取样本。不需要近似推理或者马尔科夫链。

对抗网络

当模型都是多层感知机时，对抗生成框架非常简单易用。为了训练在数据x上生成的分布$p_g$，我们定义了输入噪声的先验$p_z(z)$，将数据空间的映射表示为$G(z;\theta_g)$，其中G是可微的函数代表着参数为$\theta_g$的多层感知机。我们定义下一个多层感知机$D(x;\theta_d)$它输出一个标量。D(x)代表了来自$p_g$以外数据的概率。我们训练D以最大化标签在训练样本和G中的样本中正确的概率。我们同时训练G以最小化$\log(1-D(G(z)))$。换句话说，D和G以值函数V(G,D)进行如下的二人极大极小博弈：

$$ \min_G\max_DV(D,G)=\mathbb{E}_{\boldsymbol{x}\sim p_{\mathrm{dana}}(\boldsymbol{x})}[\log D(\boldsymbol{x})]+\mathbb{E}_{\boldsymbol{z}\sim p_{\boldsymbol{z}}(\boldsymbol{z})}[\log(1-D(G(\boldsymbol{z})))].（1） $$

在下一个章节中，我们提出了对抗网络的理论分析，本质上表明，当G和D有足够的容量时，训练允许人们恢复数据生成分布，即非参数限制。参见图1中不太正式的格式，对该方法进行更多教学解释。实践中，我们必须使用迭代器，数值方法来执行游戏。在训练的内循环中将D优化完成在计算上是不可取的，并且有限的数据会导致过拟合。改为，我们交替进行k步优化D和一步优化G。这导致D保持在最优解附近，所以只要G变化的足够慢。该过程在算法1中正式提出。

这里的D通常代表Discriminator判别器，G通常代表Generator生成器，
这里log(1 - D(G(z)))是损失函数其中，G(z)代表了当输入为z时，生成器的输出。（合成样本）
D(G(z))是判别器在评估生成器生成的数据，它给定了合成数据是真实数据的概率。1-D(G(z))就是评估器给出的值为虚假的概率。
log(1 - D(G(z)))是合成数据为假的概率的对数。在GAN中，对损失函数求对数是很常见的，因为它有助于稳定化训练过程（值随着判别器为真的时候会显著增加）。这里log的底为e，

事实上，等式1无法提供足够的梯度使B能够学好。早起学习中当G很弱时，D可以高度自信的拒绝样例，因为它与训练数据有着明确的不同。在这个例子中，log(1 - D(G(z)))饱和。与其训练话最小log(1 - D(G(z)))我们不如训练最大化log(D(G(z)))。这个目标函数的会导致G和D具有相同的固定点，但在学习的早期有更强大的梯度。

$p_g$是生成器产生的概率分布，$p_x$是表示真实数据概率分布。$p_{data}$是实际分布

以上是图1，生成对抗网络是通过同步更新判别来训练的（D是蓝色虚线）。目的是让这个分布能够区分出，来自数据生成分布（黑色，点划线）$p_x$的样本和来自(模型)生成分布$p_g$（G绿色实线）的样本。下面的水平线是z的采样区域，在这种情况下是均匀的。上述的水平线是x定义域的一部分。向上的箭头展示了如何映射x=G(z)如何在变换后的样本上施加非均匀的分布$p_g$。G在$p_g$高密度区域收缩，低密度区域膨胀。

（a）考虑一个接近收敛的对抗组：$p_g$接近$P_{data}$，D是部分准确分类器。

（b）在算法D的内部循环中，D被训练来区分样本和数据收敛到$D^*(x)=\frac{p_{data}(x)}{p_{data}(x)+p_g(x)}$。

（c）在更新G之后，D的梯度引导G(z)流向更有可能被分类为数据的区域

（d）在几轮训练后，如果G和D有足够的容量他们将达到俩者都无法提高的点因为此时$p_g=p_{data}$，判别器无法区分这俩个分布，即D(x)=1/2.

算法1

生成对抗网络中的小批量随机梯度下降，应用到鉴别器上的步数，k是一个超参数，我们让k为1，便宜的选择。

for 训练迭代的次数 do

for k steps do
    从噪声先验$p_g(z)$中抽取m个噪声小批量样本$\{z^{(1)},....,z^{(m)}\}$
    从数据生成的分布$p_{data}(x)$中抽取m个小批量样本$\{x^{(1)},....,x^{(m)}\}$
    通过上升的梯度更新判别器
    $\nabla_{\theta_d}\frac1m\sum_{i=1}^m\left[\log D\left(\boldsymbol{x}^{(i)}\right)+\log\left(1-D\left(G\left(\boldsymbol{z}^{(i)}\right)\right)\right)\right]$
end for
从噪声先验$p_g(z)$中抽取m个噪声小批量样本$\{z^{(1)},....,z^{(m)}\}$
通过降低他的随机梯度来进行更新
$\nabla_{\theta_g}\frac1m\sum_{i=1}^m\log\left(1-D\left(G\left(\boldsymbol{z}^{(i)}\right)\right)\right).$

end for
基于梯度的更新可以使用任何基于梯度学习的更新规则，我们使用momentum

第一个公式 $\nabla_{\theta_d}\frac1m\sum_{i=1}^m\left[\log D\left(\boldsymbol{x}^{(i)}\right)+\log\left(1-D\left(G\left(\boldsymbol{z}^{(i)}\right)\right)\right)\right]$
第一部分是为了让判别器在真实数据上输出尽可能接近1的值（ln1就是0）
第二部分是为了让判别器生成数据上输出尽可能接近0的值

理论成果

当$\boldsymbol{z}\sim p_{\boldsymbol{z}}$生成器G隐含了概率分布$p_g$作为G(z)观测到的分布。因此如果给定足够的容量和训练数据，我们用算法1去估计$p_{data}$。本章的结果是在非参数设置中完成的，通过研究概率密度函数在空间中的收敛性，我们提出了一个具有无限容量的模型。

我们将在4.1中展示这个极大极小游戏的对于$p_g=p_{data}$的全局最优。我们将在展示4.2章节展示算法1优化Eq1，从而得到了期望的结果。

$p_{g}=p_{data}$全局最优

我们首先考虑在确定生成器D的情况优化判别器。

观点1:，对于固定的G，优化的判别器D是

$$ D_G^*(\boldsymbol{x})=\frac{p_{data}(\boldsymbol{x})}{p_{data}(\boldsymbol{x})+p_g(\boldsymbol{x})} $$

证明:判别器D的训练准则，给定任何生成器G，最大化V(G,D)的值

$$ \begin{aligned} V(G,D)& =\int_{\boldsymbol{x}}p_{\mathrm{data}}(\boldsymbol{x})\log(D(\boldsymbol{x}))dx+\int_{z}p_{\boldsymbol{z}}(\boldsymbol{z})\operatorname{log}(1-D(g(\boldsymbol{z})))dz \\ &=\int_{\boldsymbol{x}}p_\text{data}(\boldsymbol{x})\log(D(\boldsymbol{x}))+p_g(\boldsymbol{x})\log(1-D(\boldsymbol{x}))dx& \text{(3)} \end{aligned} $$

对于任何$(a,b) \in \mathbb{R}^2\setminus\{0,0\},$函数$y \to a\log(y)+b\log(1 - y)$在[0,1]中的$\frac{a}{a+b}$达到最大值。鉴别器不需要$Supp(p_\text{data})\cup Supp(p_g)$之外的定义，证明结束。

注意这个D的训练对象可以解释为最大化估计条件概率的对数似然$P(Y=y|x)$,其中y代表了x来自$p_{data}$（当y=1时，）或者来自$p_g$（当y=0），等式1中的极大极小游戏可以重新表述为

$$ \begin{aligned} C(G)& =\max_DV(G,D) \\ &=\mathbb{E}_{\boldsymbol{x}\sim p_\mathrm{data}}[\log D_G^*(\boldsymbol{x})]+\mathbb{E}_{\boldsymbol{z}\sim p_{\boldsymbol{z}}}[\log(1-D_G^*(G(\boldsymbol{z})))]& \left(4\right) \\ &=\mathbb{E}_{\boldsymbol{x}\sim p_\mathrm{data}}[\log D_G^*(\boldsymbol{x})]+\mathbb{E}_{\boldsymbol{x}\sim p_g}[\log(1-D_G^*(\boldsymbol{x}))] \\ &=\mathbb{E}_{\boldsymbol{x}\sim p_\mathrm{data}}\left[\log\frac{p_\mathrm{data}(\boldsymbol{x})}{P_\mathrm{data}(\boldsymbol{x})+p_g(\boldsymbol{x})}\right]+\mathbb{E}_{\boldsymbol{x}\sim p_g}\left[\log\frac{p_g(\boldsymbol{x})}{p_\mathrm{data}(\boldsymbol{x})+p_g(\boldsymbol{x})}\right] \end{aligned} $$

原理1：虚拟训练标准C的局全局最小值（G）在有且仅有$p_g=p_{data}$时到达，在这个点$C(G)$取值为log4

证明：对于$p_g=p_{data}$，$D_{G}^{*}(\boldsymbol{x})=\frac{1}{2}$（考虑等式2）。检查等式4在$D_{G}^{*}(\boldsymbol{x})=\frac{1}{2}$时，我们找到了$C(G)=\log\frac12+\log\frac12=-\log4$。可以看到这个是C(G)中最好的概率值，为了达到$p_g=p_{data}$，观察

$$ \mathbb{E}_{\boldsymbol{x}\sim p_{\mathrm{data}}}\left[-\log2\right]+\mathbb{E}_{\boldsymbol{x}\sim p_{g}}\left[-\log2\right]=-\log4 $$

通过减去这个表达式$C(G)=V(D_G^*,G)$我们得到了

$$ C(G)=-\log(4)+KL\left(p_\text{data}\left\|\frac{p_\text{data}+p_g}2\right)+KL\left(p_g\left\|\frac{p_\text{data}+p_g}2\right)\right.\right.\quad\text{(5)} $$

其中KL是Kullback-Leibler散度（也称为相对熵）。我们在前面的表达式中认识到模型与数据生成过程之间的Jensen–Shannon divergence（JS散度）。

$$ C(G)=-\log(4)+2\cdot JSD\left(p_\text{data}\parallel p_g\right) $$

因此俩个分布之间的JS散度总是非负的，如果相等则为0，我们表明了$C^*=-\log(4)$是C(G)的全局最小，唯一的解是$p_g=p_{data}$,即生成的数据完美的复制了数据分布。

算法1的收敛性

观点2：如果G和D有足够的容量，在算法1的每一步上，在给定G的情况下判别器达到的最优值，并对$p_g$进行更新，已完善标准

$$ \mathbb{E}_{\boldsymbol{x}\sim p_{data}}[\log D_G^*(\boldsymbol{x})]+\mathbb{E}_{\boldsymbol{x}\sim p_g}[\log(1-D_G^*(\boldsymbol{x}))] $$

然后$p_g$收敛于$p_{data}$

证明。考虑$V(G,D) = U(p_g,D)$是$p_g$的函数，如果按上述标准所做。注意$U(p_g,D)$在$p_g$中是凸的。凸函数上确届的子导数，包括了函数在最大值处的倒数。换句话说，如果$f(x)=\sup_{\alpha\in\mathcal{A}}f_\alpha(x)$并且$f_{\alpha}$在x上的每个$\alpha$上都是凸的，如果$\beta=\arg\sup_{\alpha\in\mathcal{A}}f_\alpha(x)$,那么$\partial f_\beta(x)\in\partial f$。这个等式计算梯度下降以更新$p_g$，在给定G的最优D处。$\sup_DU(\hat{p_g},D)$在$p_g$中是凸的其中具有独特的全局最优，如1章证明的那样，因此，只要对$p_g$进行足够小的更新，$p_g$就能收敛于$p_x$,从而得出证明。

现实中，对抗网络代表了经由函数$G(\boldsymbol{z};\theta_g)$受限制的$p_g$分布，我们优化$\theta_g$而不是$p_g$自身,所以证明不成立。然而，多层感知机在实践中的优异表现表明了，他们是合理的模型，尽管他们缺乏理论保证。

实验

表1：基于怕尔森窗口的对数似然估计。在MNIST数据集上的报告数字，是测试集样本上对数似然的均值，用样本均值的标准误差计算。在TFD上我们计算数据集折叠之后的标准差，没一折的验证集选择不同的$\sigma$。在TFD上，$\sigma$在没一折上经过了验证并在每个均值对数似然上并计算每个折叠的平均似然对数。对于MNIST我们与数据集的实值（而不是二进制）版本进行比较。

Maxout 是一个激活函数，用于解决传统激活函数比如relu的局限性。在Maxout激活函数中，输出是输入的一组线性结合中的最大值。给定输入向量x和权重w（其中有n个输入和m是分段线性函数的片段数）
$y=\max(\mathbf{Wx}+\mathbf{b})$
如果线性函数有俩个段，那么Maxout单元计算
$y=\max(w_1^T\mathbf{x}+b_1,w_2^T\mathbf{x}+b_2)$

我们训练对抗网络一系列数据集，包括了MNIST数据集，多伦多人脸数据库(Toronto Face Database TFD)和CIFAR-10。生成网络混合了relu和sigmoid做激活。同时判别网络使用了maxout进行激活。鉴别器的训练中使用了dropout。同时我们的理论框架允许生成器的中间层使用噪声，我们使用噪声作为生成器最底层的输入。

高斯怕尔森窗一般是指使用了高斯分布的怕尔森窗口，它是一种非参数方法，用于在一组数据点估计随机变量的概率密度函数（PDF）。

我们通过将高斯怕尔森窗你和到G生成的样本并报告分布下的对数似然，来估计$p_g$下测试数据的概率。在验证集中进行交叉验证，得到高斯分布的$\sigma$参数。Breuleux等人介绍了这一过程。并且被用于各种生成模型中，在这些模型中精确的似然函数是不可处理的。结果如图1所示。这种估计可能性的方法有很大的方差，并且不能在高纬空间中发挥的很好，但是他是目前我们已知的最好方法。能够采样但不能直接估计似然的生成模型方面的进展激发了对概率论进一步研究的动力。

如何评估这样的模型在图2和图3

我们展示了训练之后，来自生成网络的抽取的样本。虽然我们不认为，这些样本是更好于现有方法生成的样本，我们相信这些样本至少与文献中更好的生成模型具有竞争力，并突出了对抗性框架的潜力。

图2：模型中样本的可视化。最右边的一列展示了接近训练样本的邻居样本，以便展示这些模型没有记忆训练集。样本是随机抽取的没有进行挑选。与大多数其他的深度生成模型的可视化不同，这些图像显式了模型分布的实际样本，而不是条件均值给定的隐藏单元样本。此外，这些样本是无关的，因为采样过程不依赖于马尔科夫链混合

a) MNIST b) TFD c) CIFAR-10 (全连接模型) d) CIFAR-10 (卷积判别器和反卷积器)

优点和缺点

这是一个新的框架它的优点和确定取决于相关的之前的模型框架的工作。它的缺点主要是$p_g(x)$没有明确的表示，这个D必须和G在训练中保持良好的同步（在现实中，G一定不能在没有更新D的情况下训练太多，这是为了避免在出现Helvetica场景，其中的G将太多的z值折叠为相同的x值，没有足够的多样性来建模$p_{data}$）就像玻尔兹曼机的负链一样，必须学习过程必须保持最新。优点是永远不需要马尔科夫链，只使用反向传播来获得梯度，在学习过程中不需要进行推理，并且可以将各种各样的概念纳入到模型中。表2概述了对比生成对抗网络与其他生成建模方法。

退化分布（Degenerate Distribution）是一种特殊的概率分布，它集中在一个单独的点上，也就是说，所有概率都集中在某一个确定的值上，而其他任何值的概率都是零。

上述的优点主要是计算性的，对抗的模型也可能从生成网络中获得一些统计学的优势，因为生成网络不直接使用数据示例进行更新，二色使用鉴别器的梯度。这意味着输入部分不能直接复制到生成阐述中。另一个对抗网络的优势，它可以表现的非常尖锐，甚至是退化的分布，而给予马尔科夫链，为了使链能够使不同的模式混合，分布会有些模糊。

	深度有向图模型	深度无向图模型	生成自编码器	对抗模型
训练	训练过程中需要推理	训练过程中需要推理。MCMC需要近似配分函数梯度。	强制在混合与重建能力里折中	同步判别器和生成器的训练
推理	习得近似的推理	变分推断	基于MCMC的推理	习得近似推理
采样	不困难	需要马尔科夫链	需要马尔科夫链	不困难
评估p(x)	困难，也许可以近似AIS	困难，也许可以近似AIS	未明确表示，也许可以用怕尔森密度估计近似	未明确表示，也许可以用怕尔森密度估计近似
模型设计	模型需要设计以和期望的方案一起工作。一些推理方案支持与GAN近似的模型族	需要精心设计保证多个特性	任何可微函数在理论上都是允许的	任何可微函数在理论上都是允许的

表2：生成模型中的挑战：每个主要操作都设计一个模型，在不同方法进行深度生成模型的不同的困难总结

结论和未来工作

这个框架允许任何简单的扩展，

通过增加c作为G和D的输入，条件生成模型可以被表示为p(x|c)
通过训练一个辅助网络来预测给定 x 时的 z，可以实现学习近似的推理，这类似于用唤醒-睡眠算法训练的推理网络，但是有一个优势，在生成网络训练完成后，可以对固定的网训练推理网络。
我们可以近似的模型所有的条件$p(\boldsymbol{x}_S\mid\boldsymbol{x}_S)$，其中S是指标x的子集，通过训练一系列共享参数条件的模型。本质上，人们可以使用对抗网络来实现确定性MP-DBM的随机扩展
监督学习：当可用的标记数据有限时，来自判别器或推理网络的特征可以提高分类器的性能。
效率提升：通过更好的协调G和D，或者确定更好的训练集中样本Z的分布可以大大加速

Last modification：August 1, 2024

如果觉得我的文章对你有用，请随意赞赏

GAN 生成对抗网络

那随意了 • 2024 年 08 月 01 日

<h1>GAN</h1><h2>概要</h2>我们建议使用新的框架来评估生成的模型，通过对抗的过程，其中我们同时训练俩个模型：生成模型G它用来捕获数据的分布，还有区分模型D用来估计样本来自训练数据而不是G的概率。训练G的过程是最大化D发生错误的概率，这个框架对应于一个极大极小的二人游戏。在任意函数的D和G空间中，存在唯一的解，其中G恢复训练数据分布，D在任何地方都为1/2。在案例中D和G是根据多层感知机定义的，整个系统的训练是通过反向传播。它不需要很多的马尔科夫链或者近似推断网络在整个训练或者样例生成的过程中。通过对生成样本进行定性和定量评估，实验表明了框架的潜力。<h2>引言</h2>深度学习的前景是发现丰富的分层的模型，他代表着人工智能应用中遇到的各种数据的概率分布。比如自然图片，包含语音的音频波形，和自然语料库中的符号。如今，大部分成功的深度学习模型涉及复杂的辨别模型，通常是那些高维的，丰富的感官输入到一个类标签的模型。这些惊人的成功主要是基于反向传播和dropout算法，使用分段线性单元，它们的梯度表现的特别好。<blockquote>分段线性单元指的是类似relu这样的分段线性函数（非光滑的）。可以避免梯度消失问题，过拟合，尽管函数是分段线性的，但它还是引入了非线性元素。深度生成模型是一种深度学习方法，它的目标是学习到目标浅层的概率分布，生成新的相似的数据样例。深度生成模型的影响较小，它的目标是学习到潜在的概率分布，它主要被用在无监督学习中，意思是他们不需要数据标记去学习数据的结构，他们可以用于不同的任务比如图像，文本，语音，甚至更复杂的结构数据比如药物中的分子。</blockquote>深度生成模型很少会受到影响，这是由于不同的，这是由于在极大似然估计和相关策略中出现的许多难以处理的概率计算难以近似，而且由于不同的资源，并且难以在生成环境中充分利用线性单元的好处。我们提出了一个新的生成模型预测预测程序，它克服了这些困难。在提出的对抗网络框架中，生成的模型正在与对手竞争：一个进行区分的模型它学习，确定哪个样例来自模型分布或者数据分布。而生成的模型可以被认为类似于一群伪造者，试图制造假币，并在不被发现的情况下使用，其中判别模型是类似于警察，尝试察侦查处假币。竞争驱动的俩个团队强化他们的方法直到和真品不能在区分。这个框架可以为了更多模型和优化算法产生特殊的训练算法。在文章中，我们探讨了生成模型通过多层感知机传递随机噪声来生成样本的特殊情况，并且判别模型也是多层感知机。我们把这种特殊情况称为对抗生成网络。在这个例子中，我们可以使用只有非常成功的反向传播和dropout算法训练俩个模型，仅使用前向传播从生成模型中获取样本。不需要近似推理或者马尔科夫链。<h2>相关工作</h2>直到最近，大部分的深度生成式模型的工作都集中在提供了一个概率分布函数的参数说明的模型上。这个模型可以使用最大对数似然。在这类模型中，也许最成功的是深玻尔兹曼机。这样的模型生成难以处理的似然函数，因此需要对梯度下降法进行多次近似，这些困难促使了开发生成式模型-不能明确表示可能性的模型，但能够从期望分布中生成样本。生成随机网络是一个生成模型的例子，它可以使用精确的反向传播进行训练，而不是需要很多近似值的玻尔兹曼机。这项工作通过消除生成随机网络中使用的马尔可夫链，扩展了生成机器的思想。我们的工作通过通过利用一个观察结果来生成过程中的反向传播计算，即通过导数$$
\lim_{\sigma\to0}\nabla_{\boldsymbol{x}}\mathbb{E}_{\epsilon\sim\mathcal{N}(0,\sigma^2\boldsymbol{I})}f(\boldsymbol{x}+\epsilon)=\nabla_{\boldsymbol{x}}f(\boldsymbol{x}).
$$在开展这项研究时，我们并未意识到Kingma和Welling以及Rezende等人，已经开发出了更广泛的反向传播规则，允许在有限方差的高斯分布中反向传播，然后反向传播到协方差参数和均值。这些反向传播规则可以允许人们学习生成器中的条件方差，在工作中我们把它视为一个超参数。Kingma和Welling和Rezende等。使用了随机反向传播以训练VAE（variational autoencoders变分自编码器）。类似生成对抗网络，变分自编码器将一个可微的生成网络与第二个神经网络配对。不像生成对抗网络，VAE中的第二个神经网络是执行近似推理的识别模型。GAN需要通过可见单元进行微分，因此不能建模离散数据，其中VAE需要隐藏单元进行微分，因此不能有潜在的离散变量。其他类似VAE的方法也存在，但与我们方法的关系不太密切。<blockquote>变分近似法（Variational Approximation）是一种统计学和机器学习领域中常用的近似推断方法，它被广泛应用于复杂概率模型的参数估计和后验分布的近似。这种方法的核心思想是将一个复杂的概率分布用一个较简单的分布来近似，并通过优化来最小化这两个分布之间的差异。</blockquote>以前的工作也采用了使用判别标准来训练生成模型的方法。这些方法使用的标准对于深度生成模型来说是难以处理的。这些方法甚至甚至很难对深度模型进行近似，因为它们涉及概率比值，而这些概率比值无法使用下界概率的变分近似方法来近似。噪声对比估计（Noise-contrastive estimation (NCE)）通过学习权重值来训练生成模型，它使得模型可用于从固定的噪声中区分数据。使用先前训练过的模型作为噪声分布，可以训练一系列质量不断提高的模型。这可以看做一个非正规竞争方法，在精神上类似于对抗网络游戏中使用的正式竞争。NCE的关键限制是判别器（discriminator），它是根据噪声分布的概率密度与模型分布的概率密度之比，因此需要能在俩个密度中进行评估反向传播的能力。之前的一些工作使用了俩个神经网络竞争的一般概念。大部分的相关工作是可预测性最小化。在可预测性最小化中，每个在神经网络中的隐藏单元被训练成不同于第二个网络的输出，它根据所有其他隐藏单元的值来预测那个隐藏单元。这个工作在三个重要方面不同于可预测性最小化。<ol><li>在这个工作中，在网络中的竞争是唯一的训练标准，并且它本身就足以训练网络。可预测性最小化只是一个正则化项，这鼓励神经网络的隐藏单元在完成其他任务的时候保持统计独立。</li><li>竞争的性质是不同的。在可预测性最小化中，俩个网络输出进行比较，一个网络训练以制造类似输出，另一个训练训练制造不同输出。所提到的输出是一个标量。在GAN中，一个网络产生丰富的高纬度的向量，这被作用于与另一个网络的输入，并试图选择另一个网络不知道如何处理的输入。</li><li>学习过程中的规范是不同的。可预测性最小化被描述为一个目标函数最小优化的问题，学习趋向于目标函数的最小值。GAN是基于极大极小博弈，而不是优化问题，有一个价值函数，其中之一寻求最大化，另一个寻求最小化。这个游戏在鞍点结束，这是相对一方策略的最小值而相对另一方的最大值。</li></ol>生成对抗网络在一些时候混淆了对抗样本（adversarial examples）的一些概念，对抗样本是一个直接在分类网络的输入上用于基于梯度的优化的例子，以便找到与数据相似但分类错误的例子。这和现在的工作不一样，因为对抗样本不是为了训练生成模型的机器。相反，对抗样本是主要的分析工具用于展示神经网络以有趣的方式运行，它经常自信地对俩个图像进行不同的分类，即使这俩张图片的差距对人类来说是非常细微的。这些对抗样本的存在建议了生成对抗网络训练可能是低效的，因为它们展示了，现代的判别网络在不模仿任何人类可感知类别属性下，有可能使现代判别网络自信的识别一个类。<h2>对抗网络</h2>当模型都是多层感知机时，对抗生成框架非常简单易用。为了训练在数据x上生成的分布$p_g$，我们定义了输入噪声的先验$p_z(z)$，将数据空间的映射表示为$G(z;\theta_g)$，其中G是可微的函数代表着参数为$\theta_g$的多层感知机。我们定义下一个多层感知机$D(x;\theta_d)$它输出一个标量。D(x)代表了来自$p_g$以外数据的概率。我们训练D以最大化标签在训练样本和G中的样本中正确的概率。我们同时训练G以最小化$\log(1-D(G(z)))$。换句话说，D和G以值函数V(G,D)进行如下的二人极大极小博弈：$$
\min_G\max_DV(D,G)=\mathbb{E}_{\boldsymbol{x}\sim p_{\mathrm{dana}}(\boldsymbol{x})}[\log D(\boldsymbol{x})]+\mathbb{E}_{\boldsymbol{z}\sim p_{\boldsymbol{z}}(\boldsymbol{z})}[\log(1-D(G(\boldsymbol{z})))].（1）
$$在下一个章节中，我们提出了对抗网络的理论分析，本质上表明，当G和D有足够的容量时，训练允许人们恢复数据生成分布，即非参数限制。参见图1中不太正式的格式，对该方法进行更多教学解释。实践中，我们必须使用迭代器，数值方法来执行游戏。在训练的内循环中将D优化完成在计算上是不可取的，并且有限的数据会导致过拟合。改为，我们交替进行k步优化D和一步优化G。这导致D保持在最优解附近，所以只要G变化的足够慢。该过程在算法1中正式提出。<blockquote>这里的D通常代表Discriminator判别器，G通常代表Generator生成器，这里log(1 - D(G(z)))是损失函数其中，G(z)代表了当输入为z时，生成器的输出。（合成样本）D(G(z))是判别器在评估生成器生成的数据，它给定了合成数据是真实数据的概率。1-D(G(z))就是评估器给出的值为虚假的概率。log(1 - D(G(z)))是合成数据为假的概率的对数。在GAN中，对损失函数求对数是很常见的，因为它有助于稳定化训练过程（值随着判别器为真的时候会显著增加）。这里log的底为e，</blockquote>事实上，等式1无法提供足够的梯度使B能够学好。早起学习中当G很弱时，D可以高度自信的拒绝样例，因为它与训练数据有着明确的不同。在这个例子中，log(1 - D(G(z)))饱和。与其训练话最小log(1 - D(G(z)))我们不如训练最大化log(D(G(z)))。这个目标函数的会导致G和D具有相同的固定点，但在学习的早期有更强大的梯度。<img src="https://s3.bmp.ovh/imgs/2024/07/31/d88f1b192d76aca6.png" alt="" title=""style=""><blockquote>$p_g$是生成器产生的概率分布，$p_x$是表示真实数据概率分布。$p_{data}$是实际分布</blockquote>以上是图1，生成对抗网络是通过同步更新判别来训练的（D是蓝色虚线）。目的是让这个分布能够区分出，来自数据生成分布（黑色，点划线）$p_x$的样本和来自(模型)生成分布$p_g$（G绿色实线）的样本。下面的水平线是z的采样区域，在这种情况下是均匀的。上述的水平线是x定义域的一部分。向上的箭头展示了如何映射x=G(z)如何在变换后的样本上施加非均匀的分布$p_g$。G在$p_g$高密度区域收缩，低密度区域膨胀。（a）考虑一个接近收敛的对抗组：$p_g$接近$P_{data}$，D是部分准确分类器。（b）在算法D的内部循环中，D被训练来区分样本和数据收敛到$D^*(x)=\frac{p_{data}(x)}{p_{data}(x)+p_g(x)}$。（c）在更新G之后，D的梯度引导G(z)流向更有可能被分类为数据的区域（d）在几轮训练后，如果G和D有足够的容量他们将达到俩者都无法提高的点因为此时$p_g=p_{data}$，判别器无法区分这俩个分布，即D(x)=1/2.<hr>算法1生成对抗网络中的小批量随机梯度下降，应用到鉴别器上的步数，k是一个超参数，我们让k为1，便宜的选择。for 训练迭代的次数 do<pre><code>for k steps do
 从噪声先验$p_g(z)$中抽取m个噪声小批量样本$\{z^{(1)},....,z^{(m)}\}$
 从数据生成的分布$p_{data}(x)$中抽取m个小批量样本$\{x^{(1)},....,x^{(m)}\}$
 通过上升的梯度更新判别器
 $\nabla_{\theta_d}\frac1m\sum_{i=1}^m\left[\log D\left(\boldsymbol{x}^{(i)}\right)+\log\left(1-D\left(G\left(\boldsymbol{z}^{(i)}\right)\right)\right)\right]$
end for
从噪声先验$p_g(z)$中抽取m个噪声小批量样本$\{z^{(1)},....,z^{(m)}\}$
通过降低他的随机梯度来进行更新
$\nabla_{\theta_g}\frac1m\sum_{i=1}^m\log\left(1-D\left(G\left(\boldsymbol{z}^{(i)}\right)\right)\right).$</code></pre>end for 基于梯度的更新可以使用任何基于梯度学习的更新规则，我们使用momentum<blockquote>第一个公式 $\nabla_{\theta_d}\frac1m\sum_{i=1}^m\left[\log D\left(\boldsymbol{x}^{(i)}\right)+\log\left(1-D\left(G\left(\boldsymbol{z}^{(i)}\right)\right)\right)\right]$<ol><li>第一部分是为了让判别器在真实数据上输出尽可能接近1的值（ln1就是0）</li><li>第二部分是为了让判别器生成数据上输出尽可能接近0的值</li></ol></blockquote><h2>理论成果</h2>当$\boldsymbol{z}\sim p_{\boldsymbol{z}}$生成器G隐含了概率分布$p_g$作为G(z)观测到的分布。因此如果给定足够的容量和训练数据，我们用算法1去估计$p_{data}$。本章的结果是在非参数设置中完成的，通过研究概率密度函数在空间中的收敛性，我们提出了一个具有无限容量的模型。我们将在4.1中展示这个极大极小游戏的对于$p_g=p_{data}$的全局最优。我们将在展示4.2章节展示算法1优化Eq1，从而得到了期望的结果。<h3>$p_{g}=p_{data}$全局最优</h3>我们首先考虑在确定生成器D的情况优化判别器。观点1:，对于固定的G，优化的判别器D是$$
D_G^*(\boldsymbol{x})=\frac{p_{data}(\boldsymbol{x})}{p_{data}(\boldsymbol{x})+p_g(\boldsymbol{x})}
$$证明:判别器D的训练准则，给定任何生成器G，最大化V(G,D)的值$$
\begin{aligned}
V(G,D)&amp; =\int_{\boldsymbol{x}}p_{\mathrm{data}}(\boldsymbol{x})\log(D(\boldsymbol{x}))dx+\int_{z}p_{\boldsymbol{z}}(\boldsymbol{z})\operatorname{log}(1-D(g(\boldsymbol{z})))dz \\
&amp;=\int_{\boldsymbol{x}}p_\text{data}(\boldsymbol{x})\log(D(\boldsymbol{x}))+p_g(\boldsymbol{x})\log(1-D(\boldsymbol{x}))dx&amp; \text{(3)} 
\end{aligned}
$$对于任何$(a,b) \in \mathbb{R}^2\setminus\{0,0\},$函数$y \to a\log(y)+b\log(1 - y)$在[0,1]中的$\frac{a}{a+b}$达到最大值。鉴别器不需要$Supp(p_\text{data})\cup Supp(p_g)$之外的定义，证明结束。注意这个D的训练对象可以解释为最大化估计条件概率的对数似然$P(Y=y|x)$,其中y代表了x来自$p_{data}$（当y=1时，）或者来自$p_g$（当y=0），等式1中的极大极小游戏可以重新表述为$$
\begin{aligned}
C(G)&amp; =\max_DV(G,D) \\
&amp;=\mathbb{E}_{\boldsymbol{x}\sim p_\mathrm{data}}[\log D_G^*(\boldsymbol{x})]+\mathbb{E}_{\boldsymbol{z}\sim p_{\boldsymbol{z}}}[\log(1-D_G^*(G(\boldsymbol{z})))]&amp; \left(4\right) \\
&amp;=\mathbb{E}_{\boldsymbol{x}\sim p_\mathrm{data}}[\log D_G^*(\boldsymbol{x})]+\mathbb{E}_{\boldsymbol{x}\sim p_g}[\log(1-D_G^*(\boldsymbol{x}))] \\
&amp;=\mathbb{E}_{\boldsymbol{x}\sim p_\mathrm{data}}\left[\log\frac{p_\mathrm{data}(\boldsymbol{x})}{P_\mathrm{data}(\boldsymbol{x})+p_g(\boldsymbol{x})}\right]+\mathbb{E}_{\boldsymbol{x}\sim p_g}\left[\log\frac{p_g(\boldsymbol{x})}{p_\mathrm{data}(\boldsymbol{x})+p_g(\boldsymbol{x})}\right]
\end{aligned}
$$原理1：虚拟训练标准C的局全局最小值（G）在有且仅有$p_g=p_{data}$时到达，在这个点$C(G)$取值为log4证明：对于$p_g=p_{data}$，$D_{G}^{*}(\boldsymbol{x})=\frac{1}{2}$（考虑等式2）。检查等式4在$D_{G}^{*}(\boldsymbol{x})=\frac{1}{2}$时，我们找到了$C(G)=\log\frac12+\log\frac12=-\log4$。可以看到这个是C(G)中最好的概率值，为了达到$p_g=p_{data}$，观察$$
\mathbb{E}_{\boldsymbol{x}\sim p_{\mathrm{data}}}\left[-\log2\right]+\mathbb{E}_{\boldsymbol{x}\sim p_{g}}\left[-\log2\right]=-\log4
$$通过减去这个表达式$C(G)=V(D_G^*,G)$我们得到了$$
C(G)=-\log(4)+KL\left(p_\text{data}\left\|\frac{p_\text{data}+p_g}2\right)+KL\left(p_g\left\|\frac{p_\text{data}+p_g}2\right)\right.\right.\quad\text{(5)}
$$其中KL是Kullback-Leibler散度（也称为相对熵）。我们在前面的表达式中认识到模型与数据生成过程之间的Jensen–Shannon divergence（JS散度）。$$
C(G)=-\log(4)+2\cdot JSD\left(p_\text{data}\parallel p_g\right)
$$因此俩个分布之间的JS散度总是非负的，如果相等则为0，我们表明了$C^*=-\log(4)$是C(G)的全局最小，唯一的解是$p_g=p_{data}$,即生成的数据完美的复制了数据分布。<h3>算法1的收敛性</h3>观点2：如果G和D有足够的容量，在算法1的每一步上，在给定G的情况下判别器达到的最优值，并对$p_g$进行更新，已完善标准$$
\mathbb{E}_{\boldsymbol{x}\sim p_{data}}[\log D_G^*(\boldsymbol{x})]+\mathbb{E}_{\boldsymbol{x}\sim p_g}[\log(1-D_G^*(\boldsymbol{x}))]
$$然后$p_g$收敛于$p_{data}$证明。考虑$V(G,D) = U(p_g,D)$是$p_g$的函数，如果按上述标准所做。注意$U(p_g,D)$在$p_g$中是凸的。凸函数上确届的子导数，包括了函数在最大值处的倒数。换句话说，如果$f(x)=\sup_{\alpha\in\mathcal{A}}f_\alpha(x)$并且$f_{\alpha}$在x上的每个$\alpha$上都是凸的，如果$\beta=\arg\sup_{\alpha\in\mathcal{A}}f_\alpha(x)$,那么$\partial f_\beta(x)\in\partial f$。这个等式计算梯度下降以更新$p_g$，在给定G的最优D处。$\sup_DU(\hat{p_g},D)$在$p_g$中是凸的其中具有独特的全局最优，如1章证明的那样，因此，只要对$p_g$进行足够小的更新，$p_g$就能收敛于$p_x$,从而得出证明。现实中，对抗网络代表了经由函数$G(\boldsymbol{z};\theta_g)$受限制的$p_g$分布，我们优化$\theta_g$而不是$p_g$自身,所以证明不成立。然而，多层感知机在实践中的优异表现表明了，他们是合理的模型，尽管他们缺乏理论保证。<h2>实验</h2><img src="https://s3.bmp.ovh/imgs/2024/08/01/9f97b43f73e8adb5.png" alt="" title=""style="">表1：基于怕尔森窗口的对数似然估计。在MNIST数据集上的报告数字，是测试集样本上对数似然的均值，用样本均值的标准误差计算。在TFD上我们计算数据集折叠之后的标准差，没一折的验证集选择不同的$\sigma$。在TFD上，$\sigma$在没一折上经过了验证并在每个均值对数似然上并计算每个折叠的平均似然对数。对于MNIST我们与数据集的实值（而不是二进制）版本进行比较。<hr><blockquote>Maxout 是一个激活函数，用于解决传统激活函数比如relu的局限性。在Maxout激活函数中，输出是输入的一组线性结合中的最大值。给定输入向量x和权重w（其中有n个输入和m是分段线性函数的片段数）$y=\max(\mathbf{Wx}+\mathbf{b})$如果线性函数有俩个段，那么Maxout单元计算$y=\max(w_1^T\mathbf{x}+b_1,w_2^T\mathbf{x}+b_2)$</blockquote>我们训练对抗网络一系列数据集，包括了MNIST数据集，多伦多人脸数据库(Toronto Face Database TFD)和CIFAR-10。生成网络混合了relu和sigmoid做激活。同时判别网络使用了maxout进行激活。鉴别器的训练中使用了dropout。同时我们的理论框架允许生成器的中间层使用噪声，我们使用噪声作为生成器最底层的输入。<blockquote>高斯怕尔森窗一般是指使用了高斯分布的怕尔森窗口，它是一种非参数方法，用于在一组数据点估计随机变量的概率密度函数（PDF）。</blockquote>我们通过将高斯怕尔森窗你和到G生成的样本并报告分布下的对数似然，来估计$p_g$下测试数据的概率。在验证集中进行交叉验证，得到高斯分布的$\sigma$参数。Breuleux等人介绍了这一过程。并且被用于各种生成模型中，在这些模型中精确的似然函数是不可处理的。结果如图1所示。这种估计可能性的方法有很大的方差，并且不能在高纬空间中发挥的很好，但是他是目前我们已知的最好方法。能够采样但不能直接估计似然的生成模型方面的进展激发了对概率论进一步研究的动力。如何评估这样的模型在图2和图3我们展示了训练之后，来自生成网络的抽取的样本。虽然我们不认为，这些样本是更好于现有方法生成的样本，我们相信这些样本至少与文献中更好的生成模型具有竞争力，并突出了对抗性框架的潜力。<img src="https://s3.bmp.ovh/imgs/2024/08/01/26c2d8cd5712e9db.png" alt="" title=""style="">图2：模型中样本的可视化。最右边的一列展示了接近训练样本的邻居样本，以便展示这些模型没有记忆训练集。样本是随机抽取的没有进行挑选。与大多数其他的深度生成模型的可视化不同，这些图像显式了模型分布的实际样本，而不是条件均值给定的隐藏单元样本。此外，这些样本是无关的，因为采样过程不依赖于马尔科夫链混合a) MNIST b) TFD c) CIFAR-10 (全连接模型) d) CIFAR-10 (卷积判别器和反卷积器)<h2>优点和缺点</h2>这是一个新的框架它的优点和确定取决于相关的之前的模型框架的工作。它的缺点主要是$p_g(x)$没有明确的表示，这个D必须和G在训练中保持良好的同步（在现实中，G一定不能在没有更新D的情况下训练太多，这是为了避免在出现Helvetica场景，其中的G将太多的z值折叠为相同的x值，没有足够的多样性来建模$p_{data}$）就像玻尔兹曼机的负链一样，必须学习过程必须保持最新。优点是永远不需要马尔科夫链，只使用反向传播来获得梯度，在学习过程中不需要进行推理，并且可以将各种各样的概念纳入到模型中。表2概述了对比生成对抗网络与其他生成建模方法。<blockquote>退化分布（Degenerate Distribution）是一种特殊的概率分布，它集中在一个单独的点上，也就是说，所有概率都集中在某一个确定的值上，而其他任何值的概率都是零。</blockquote>上述的优点主要是计算性的，对抗的模型也可能从生成网络中获得一些统计学的优势，因为生成网络不直接使用数据示例进行更新，二色使用鉴别器的梯度。这意味着输入部分不能直接复制到生成阐述中。另一个对抗网络的优势，它可以表现的非常尖锐，甚至是退化的分布，而给予马尔科夫链，为了使链能够使不同的模式混合，分布会有些模糊。<table><thead><tr><th> </th><th>深度有向图模型</th><th>深度无向图模型</th><th>生成自编码器</th><th>对抗模型</th></tr></thead><tbody><tr><td>训练</td><td>训练过程中需要推理</td><td>训练过程中需要推理。MCMC需要近似配分函数梯度。</td><td>强制在混合与重建能力里折中</td><td>同步判别器和生成器的训练</td></tr><tr><td>推理</td><td>习得近似的推理</td><td>变分推断</td><td>基于MCMC的推理</td><td>习得近似推理</td></tr><tr><td>采样</td><td>不困难</td><td>需要马尔科夫链</td><td>需要马尔科夫链</td><td>不困难</td></tr><tr><td>评估p(x)</td><td>困难，也许可以近似AIS</td><td>困难，也许可以近似AIS</td><td>未明确表示，也许可以用怕尔森密度估计近似</td><td>未明确表示，也许可以用怕尔森密度估计近似</td></tr><tr><td>模型设计</td><td>模型需要设计以和期望的方案一起工作。一些推理方案支持与GAN近似的模型族</td><td>需要精心设计保证多个特性</td><td>任何可微函数在理论上都是允许的</td><td>任何可微函数在理论上都是允许的</td></tr></tbody></table>表2：生成模型中的挑战：每个主要操作都设计一个模型，在不同方法进行深度生成模型的不同的困难总结<h2>结论和未来工作</h2>这个框架允许任何简单的扩展，<ol><li>通过增加c作为G和D的输入，条件生成模型可以被表示为p(x|c)</li><li>通过训练一个辅助网络来预测给定 x 时的 z，可以实现学习近似的推理，这类似于用唤醒-睡眠算法训练的推理网络，但是有一个优势，在生成网络训练完成后，可以对固定的网训练推理网络。</li><li>我们可以近似的模型所有的条件$p(\boldsymbol{x}_S\mid\boldsymbol{x}_S)$，其中S是指标x的子集，通过训练一系列共享参数条件的模型。本质上，人们可以使用对抗网络来实现确定性MP-DBM的随机扩展</li><li>监督学习：当可用的标记数据有限时， 来自判别器或推理网络的特征可以提高分类器的性能。</li><li>效率提升：通过更好的协调G和D，或者确定更好的训练集中样本Z的分布可以大大加速</li></ol>

GAN 生成对抗网络

GAN

概要

引言

相关工作

对抗网络

理论成果

$p_{g}=p_{data}$全局最优

算法1的收敛性

实验

优点和缺点

结论和未来工作

Leave a Comment Cancel reply

docker常用命令

postForObject发送参数接方一直为null

js基础

git的常用命令

python、node、php、go、java性能对比测试

Laravel 5.4以上 Mix执行 npm run dev时报错，提示cross-env找不到（not found）的原因及解决办法

Golang调度器GPM原理与调度全分析

Java ConcurrentSkipListMap

go语言文件读写

mongodb安装概念

GAN 生成对抗网络