当前位置：首页 > backend >正文

【课堂笔记】生成对抗网络 Generative Adversarial Network（GAN）

backend 2025/7/16 18:11:12

文章目录

问题背景
原理
更新过程
- 判别器
- 生成器

问题背景

一方面，许多机器学习任务需要大量标注数据，但真实数据可能稀缺或昂贵（如医学影像、稀有事件数据）。如何在少量数据中达到一个很好的训练效果是一个很重要的问题。
另一方面，传统生成模型（如变分自编码器VAE）生成的样本往往模糊或缺乏多样性，难以捕捉真实数据的复杂分布（如高分辨率图像、复杂文本等）。
生成式对抗网络（GAN）提出了用生成器（Generator）和判别器（Discriminator），通过对抗训练相互竞争来提高性能。这样能够生成与真实数据分布相似的合成数据，用于数据增强；同时通过生成器和判别器的对抗训练，生成器学习到真实数据的概率分布，生成的样本更加逼真、细节丰富。

原理

GAN由两个神经网络组成：
（1）生成器 $\mathbf{G}$ ：输入随机噪声 $\sim p_G(z)$ （通常是正态或均匀分布），输出生成的假数据 $\mathbf{G}(z)$ ，试图模仿真实数据分布 $p_{\text{data}}$
（2）判别器 $\mathbf{D}$ ：输入数据（真实数据 $\sim p_{\text{data}}$ 或假数据 $p_{\text{data}}$ ），输出概率 $\mathbf{D}(x) \in [0, 1]$ ，表示数据为真实的概率。
这两个神经网络是对抗性的，生成器 $\mathbf{G}$ 企图让假数据更逼真，来让 $\mathbf{D}$ 犯错；而判别器 $\mathbf{D}$ 试图最大化区分真假数据的准确性。

基于这个目的，我们构造一个损失函数：
（1）对于真实数据 $\sim p_{\text{data}}$ ，我们希望 $\mathbf{D}(x) \rightarrow 1$ ，定义损失为 $-\log\mathbf{D}(x)$
（2）对于生成数据 $\mathbf{G}(z) \sim p_G$ ，我们希望 $\mathbf{D}(\mathbf{G}(z))\rightarrow 0$ ，定义损失为 $-\log(1-\mathbf{D}(\mathbf{G}(z)))$
判别器的目标是最大化正确分类的概率，即最小化以下损失：
$L_D = - \mathbb{E}_{x \sim p_{\text{data}}} \left[ \log D(x) \right] - \mathbb{E}_{z \sim p_z} \left[ \log (1 - D(G(z))) \right]$
生成器的目标是欺骗判别器，即最小化以下损失：
$L_G = \mathbb{E}_{z \sim p_z} \left[ \log (1 - D(G(z))) \right]$
结合两者，我们可以写出GAN的整体目标函数：
$\min_G \max_D \left(\mathbb{E}_{x \sim p_{\text{data}}} \left[ \log D(x) \right] + \mathbb{E}_{z \sim p_z} \left[ \log (1 - D(G(z))) \right]\right)$
接下来去解决这个目标，为了叙述方便定义记号 $V (N, G)$ ，并改写为积分形式：
$\begin{align*} V(D, G) &:= \mathbb{E}_{x \sim p_{\text{data}}} \left[ \log D(x) \right] + \mathbb{E}_{z \sim p_z} \left[ \log (1 - D(G(z))) \right] \\ &=\int_x p_{\text{data}}(x) \log D(x) \, dx + \int_x p_g(x) \log (1 - D(x)) \, dx \\ &=\int_x f(D(x))dx \\ f(D(x)) &:= p_{\text{data}}(x) \log D(x) + p_g(x) \log (1 - D(x)) \end{align*}$
首先我们要找最大化 $V (D, G)$ 的 $D^*$ ，于是对 $D$ 求导：
$\frac{\partial f}{\partial D(x)} = \frac{p_{\text{data}}(x)}{D(x)} - \frac{p_g(x)}{1 - D(x)} = 0 \\ \Rightarrow D^*(x) = \frac{p_{\text{data}}(x)}{p_{\text{data}}(x) + p_g(x)}$
这个结果表面，最有判别器 $D^*$ 输出真实数据和生成数据分布的相对概率。
接下来将 $D^*$ 代入：
$V(D^*, G) = \int_x \left[ p_{\text{data}}(x) \log \left( \frac{p_{\text{data}}(x)}{p_{\text{data}}(x) + p_g(x)} \right) + p_g(x) \log \left( \frac{p_g(x)}{p_{\text{data}}(x) + p_g(x)} \right) \right] dx$
这个式子比较复杂，经过推导可以证明：
$V(D^*, G) = - \log 4 + 2 \cdot \text{JS}(p_{\text{data}} \| p_g)$
其中 $\mathbf{JS}$ 是Jensen-Shannon 散度，它与 $\mathbf{KL}$ 散度的关系为：
$\text{JS}(p_{\text{data}} \| p_g) = \frac{1}{2} \text{KL} \left( p_{\text{data}} \| \frac{p_{\text{data}} + p_g}{2} \right) + \frac{1}{2} \text{KL} \left( p_g \| \frac{p_{\text{data}} + p_g}{2} \right)$
这个结果是合理的。当 $p_g = p_{data}$ 时， $\mathbf{JS}$ 散度为0，此时目标函数达到最小值 $-\log 4$ ， $\mathbf{D}^*(x) = 0.5$ ，将无法区分数据的真假。
对于生成器 $\mathbf{G}$ 的优化等价于最小化这个 $\mathbf{JS}$ 散度。

更新过程

在上述推导中，对随机分布进行了期望积分，但实际操作过程中直接计算上述积分是不可行的，我们会采用蒙特卡洛方法近似期望值，于是下面的 $L_D$ 和 $L_G$ 是用约等于。
蒙特卡洛方法：核心是利用随机性和大数定律，通过从分布 $p (x)$ 中采集大量样本点 $x_1, ..., x_n$ ，然后计算样本均值来近似期望值：
$\mathbb{E}[f(X)] \approx \frac{1}{n} \sum_{i=1}^n f(x_i)$

判别器

在理论分析中，我们得到了最优判别器 $\mathbf{D}^*(x) = \frac{p_{\text{data}}(x)}{p_{\text{data}}(x) + p_g(x)}$ ，然而我们不知道数据实际分布 $p_{\text{data}}$ ，通常采用梯度下降等方式来拟合：
（1）从真实数据中采集一批 $x_1, ..., x_m$ ，从生成器中生成一批 $G(z_1), ..., G(z_m)$
（2）使用梯度下降优化损失 $L_D$ ， $\theta_D$ 是神经网络 $\mathbf{D}$ 的参数：
$L_D \approx -\frac{1}{m} \sum_{i=1}^m \left[ \log D(x_i) + \log (1 - D(G(z_i))) \right] \\ \theta_D \gets \theta_D + \eta \cdot \nabla_{\theta_D} L_D$

生成器

生成器的训练和判别器交替进行，同样采用梯度下降等方法来拟合：
（1）从生成器中生成一批 $G(z_1), ..., G(z_m)$
（2）使用当前判别器 $\mathbf{D}$ （已部分训练）计算生成器损失的近似：
$L_G \approx -\frac{1}{m} \sum_{i=1}^m \log D(G(z_i))$
（3）计算梯度并更新参数：
$\nabla_{\theta_G} L_G \approx -\frac{1}{m} \sum_{i=1}^m \nabla_{\theta_G} \log D(G(z_i)) \\ \theta_G \gets \theta_G - \eta \cdot \nabla_{\theta_G} L_G$