当前位置：首页 > java >正文

【LLIE专题】EnlightenGAN 无监督低照度图像增强

java 2025/6/29 16:05:29

在这里插入图片描述

EnlightenGAN: Deep Light Enhancement without Paired Supervision（IEEE,2021）

专题介绍
一、研究背景
二、EnlightenGAN方法
- 2.1 总体方案
- 2.2 详细方案
- - 2.21 全局-局部判别器
  - 2.22 自正则化感知损失
  - 2.23 注意力引导 U-Net 生成器
三、实验结果
- - 1. 定量实验
  - - 1.1 无参考图像质量评估（NIQE）
    - 1.2 人类主观评价（Human Subjective Evaluation）
    - 1.3. 语义保留能力（Classification Accuracy）
  - 2. 定性实验
  - - 2.1. 视觉质量比较
    - 2.2. 域适应能力（Real-World Adaptation）
  - 3. 消融实验
  - - 3.1. 有效性验证
    - 3.2. 自正则化机制的必要性
四、总结

本文将对 EnlightenGAN: Deep Light Enhancement without Paired Supervision，这篇暗光增强算法进行讲解。参考资料如下：

[1] EnlightenGAN文章
[2] EnlightenGAN代码

专题介绍

在低光照环境下，传统成像设备往往因画面昏暗、细节丢失而受限。LLIE（低照度暗光增强）技术应运而生，它通过提升图像亮度、对比度，减少噪点并恢复色彩细节，让暗夜变得清晰可见。

LLIE技术从传统方法如直方图均衡化、Retinex模型等起步，近年来借助深度学习，尤其是卷积神经网络（CNN），GAN模型，扩散模型实现了质的飞跃。这些算法能自动学习图像特征，精准处理低光照图像，效果显著优于传统技术。

本专题将聚焦LLIE技术的核心原理、应用案例及最新进展，让我们一起见证LLIE如何点亮暗夜，开启视觉新视界！欢迎一起探讨交流！

系列文章如下
【1】ZeroDCE
【2】HVI
【3】CLIP-LIT
【4】GLARE
【5】Retinexformer
【6】SG-LLIE
【7】GPP-LLIE
【8】FusionNet

一、研究背景

在实际场景中，要同时拍摄同一视觉场景的低光照和正常光照照片极具挑战性。本文提出了一种高效的无监督生成对抗网络，称为EnlightenGAN，它无需低光照/正常光照图像对即可进行训练，且在各种真实世界测试图像上表现出良好的泛化能力。
本文不使用真实数据来监督学习，而是利用从输入本身提取的信息对非配对训练进行正则化，并针对低光照图像增强问题采用了一系列创新方法，包括全局 - 局部判别器结构、自正则化感知损失融合以及注意力机制。由于非配对训练带来的高度灵活性，EnlightenGAN能轻松适用于不同场景的真实世界图像。

二、EnlightenGAN方法

2.1 总体方案

EnlightenGAN是一种无监督的暗光增强方案，主要运用了以下几个策略实现无监督增强。

全局 - 局部判别器：全局判别器处理整体光照，局部判别器确保局部区域的真实感，避免过曝或欠曝。
自正则化感知损失：利用预训练 VGG 模型约束低光输入与增强输出的特征距离，保留图像内容。
注意力引导 U-Net 生成器：使用输入图像的光照信息生成注意力图，指导网络重点增强暗区域，抑制亮区域。

2.2 详细方案

2.21 全局-局部判别器

作者注意到图像级（图像全局尺度上的）普通判别器在空间变化光照图像上（图像不同区域光照不同）往往效果不佳；如果输入图像的某些局部区域需要与其他部分进行不同程度的增强，例如，在整体较暗的背景中有一个小的明亮区域，仅靠全局图像判别器往往无法提供所需的适应性。

因此为了在全局改善光照的同时自适应地增强局部区域，提出了一种新颖的全局 - 局部判别器结构，两者均使用PatchGAN进行真假判别。除了图像级别的全局判别器之外，通过从输出图像和真实正常光照图像中随机裁剪局部图像块来添加局部判别器，并学习区分它们是真实的（来自真实图像）还是虚假的（来自增强后的输出）。这种全局 - 局部结构确保增强图像的所有局部图像块看起来都像真实的正常光照图像，这对于避免局部过曝或欠曝至关重要。

全局判别器，采用了相对判别器结构。相对判别器的标准函数为：
$D_{Ra}(x_r, x_f)=\sigma(C(x_r)-\mathbb{E}_{x_f \sim \mathbb{P}_{fake }}[C(x_f)]), (1)$

$D_{Ra}(x_f, x_r)=\sigma(C(x_f)-\mathbb{E}_{x_r \sim \mathbb{P}_{real }}[C(x_r)]), (2)$
在EnlightenGAN中，相对判别器（Relativistic Discriminator）的设计旨在优化生成对抗网络（GAN）的训练稳定性与生成质量，其核心思想是通过比较真实数据与虚假数据的相对真实性来引导生成器学习，而非传统判别器仅单独判断数据的真伪。以下是相对判别器公式的详细解析：

符号解析：
- $x_r$ ：真实数据（正常光图像）， $x_f$ ：虚假数据（生成器输出的增强图像）。
- $C (x)$ ：判别器网络对输入数据的特征提取结果。
- $\mathbb{E}_{x \sim \mathbb{P}}[\cdot]$ ：对分布 $\mathbb{P}$ 中样本的期望运算。
- $\sigma$ ：Sigmoid函数，将输出映射到(0,1)区间，表征概率。
核心逻辑：
- 公式（1）计算“真实数据 $x_r$ 比虚假数据 $x_f$ 更真实”的概率：通过比较 $C(x_r)$ 与虚假数据特征期望 $\mathbb{E}[C(x_f)]$ 的差值，若差值越大，说明 $x_f$ 越真实。
- 公式（2）计算“虚假数据 $x_f$ 比真实数据 $x_r$ 更真实”的概率：反之，若 $C(x_f)$ 显著大于真实数据特征期望 $\mathbb{E}[C(x_r)]$ ，则 $x_f$ 更接近真实分布。

在神经网络训练中，理论上的期望 $\mathbb{E}_{x \sim \mathbb{P}}[\cdot]$ 无法直接精确计算，通常通过样本平均来近似：

批量采样（Mini-Batch）：
- 从分布 $\mathbb{P}$ 中随机采样一个批量（Batch）的样本 $\{x_1, x_2, \dots, x_N\}$ 。
- 用样本均值近似期望： $\mathbb{E}_{x \sim \mathbb{P}}[f(x)] \approx \frac{1}{N} \sum_{i=1}^N f(x_i)$ 。
以本文中的公式为例：
- 计算 $\mathbb{E}_{x_f \sim \mathbb{P}_{fake}}[C(x_f)]$ 时，生成器 $G$ 会批量生成若干增强图像 $\{x_f^1, x_f^2, \dots, x_f^N\}$ ，代入判别器 $C$ 得到特征值 $\{C(x_f^1), C(x_f^2), \dots, C(x_f^N)\}$ ，其平均值即为该期望的近似值。
- 同理， $\mathbb{E}_{x_r \sim \mathbb{P}_{real}}[C(x_r)]$ 通过对真实图像批量采样后计算判别器输出的平均值得到。

在EnlightenGAN中，作者对相对判别器进行改进时采用了最小二乘生成对抗网络（LSGAN）的损失函数，以提升训练稳定性和生成图像质量。将相对判别器的输出值（原本通过Sigmoid映射到(0,1)）直接作为LSGAN的输入，通过平方误差损失约束判别器和生成器。替换后公式如下：
$\mathcal{L}_D^{Global} = \mathbb{E}_{x_r \sim \mathbb{P}_{real}}\left[\left(D_{Ra}(x_r, x_f) - 1\right)^2\right] + \mathbb{E}_{x_f \sim \mathbb{P}_{fake}}\left[D_{Ra}(x_f, x_r)^2\right] \quad (3)$
$\mathcal{L}_G^{Global} = \mathbb{E}_{x_f \sim \mathbb{P}_{fake}}\left[\left(D_{Ra}(x_f, x_r) - 1\right)^2\right] + \mathbb{E}_{x_r \sim \mathbb{P}_{real}}\left[D_{Ra}(x_r, x_f)^2\right] \quad (4)$

局部判别器直接采用传统LSGAN损失，无需相对结构：
$\mathcal{L}_D^{Local} = \mathbb{E}_{x_r \sim \mathbb{P}_{real-patches}}\left[\left(D(x_r) - 1\right)^2\right] + \mathbb{E}_{x_f \sim \mathbb{P}_{fake-patches}}\left[\left(D(x_f) - 0\right)^2\right] \quad (5)$
$\mathcal{L}_G^{Local} = \mathbb{E}_{x_f \sim \mathbb{P}_{fake-patches}}\left[\left(D(x_f) - 1\right)^2\right] \quad (6)$
通过随机裁剪5个图像块送入判别器进行计算，局部判别器利用LSGAN损失约束生成图像的局部细节真实性，避免过曝或欠曝。

2.22 自正则化感知损失

自正则化感知损失（Self Feature Preserving Loss）：在EnlightenGAN中，由于缺乏配对训练数据，传统基于输出图像与真实图像间特征距离的感知损失无法适用。因此提出自身特征保留损失，通过约束输入低光图像与其增强后的正常光输出之间的VGG特征距离，来保留图像内容特征。公式为 $\mathcal{L}_{SFP}(I^{L})=\frac{1}{W_{i,j}H_{i,j}}\sum_{x = 1}^{W_{i,j}}\sum_{y = 1}^{H_{i,j}}(\phi_{i,j}(I^{L})-\phi_{i,j}(G(I^{L})))^{2}$ ，其中 $I^{L}$ 为输入低光图像， $G(I^{L})$ 是生成器的增强输出， $\phi_{i,j}$ 是从在ImageNet上预训练的VGG-16模型提取的特征图。该损失强调自正则化效用，确保图像在增强前后内容特征的一致性，且对输入像素强度范围不敏感。（对输入像素强度不敏感是由于①特征空间的高层抽象：VGG 特征剥离了像素强度的绝对数值，聚焦结构语义。②预训练模型的光照鲁棒性：ImageNet 预训练使特征对光照变化天然不敏感）
总损失（Total Loss）：为了更好地训练EnlightenGAN，作者将不同部分的损失进行整合得到总损失。公式为 $=\mathcal{L}_{SFP}^{Global }+\mathcal{L}_{SFP}^{Local }+\mathcal{L}_{G}^{Global }+\mathcal{L}_{G}^{Local }$ 。其中， $\mathcal{L}_{SFP}^{Global }$ 和 $\mathcal{L}_{SFP}^{Local }$ 分别是全局和局部的自身特征保留损失，用于约束图像整体和局部区域在增强前后的特征一致性； $\mathcal{L}_{G}^{Global }$ 和 $\mathcal{L}_{G}^{Local }$ 是全局和局部生成器的对抗损失，通过与判别器的博弈，促使生成器生成更接近真实正常光图像的结果，从而实现低光图像的有效增强。通过这种多损失融合的方式，EnlightenGAN能够在无配对数据的情况下，综合提升图像增强的效果。

2.23 注意力引导 U-Net 生成器

EnlightenGAN采用自正则化注意力引导的U-Net作为生成器，其核心在于结合U-Net的多尺度特征提取能力与自正则化注意力机制，实现对低光图像的自适应增强。
Unet网络结构这里不做过多解释，非常常见的一个网络结构。

注意力机制的核心目标
低光图像通常存在光照不均匀问题（如局部过曝或欠曝），注意力机制旨在引导模型重点增强暗区域，抑制亮区域，实现自适应光照调整。
自正则化注意力图的生成
- 光照信息提取：从输入RGB图像中提取光照通道I（如通过HSV色彩空间或直接取RGB三通道最大值），归一化到[0,1]区间。
- 注意力图计算：通过 $1 - I$ （元素级减法）生成注意力图，其中暗区域对应高权重（值接近1），亮区域对应低权重（值接近0），无需额外监督，属于自正则化过程。
注意力图的应用方式
- 特征加权：将注意力图调整尺寸以匹配各层特征图，逐元素相乘，增强暗区域对应的特征响应，抑制亮区域特征。
- 端到端整合：注意力机制嵌入到U-Net的每个中间层，影响特征提取和上采样过程，最终作用于输出图像。

三、实验结果

1. 定量实验

1.1 无参考图像质量评估（NIQE）

Natural Image Quality Evaluator（NIQE）用于评估无参考图像的感知质量，分数越低表示图像越接近自然视觉效果。
在这里插入图片描述

EnlightenGAN在MEF（3.232）、LIME（3.719）、DICM（3.570）三个数据集上取得最低NIQE值，整体平均NIQE为3.385，优于RetinexNet（3.920）、CycleGAN（3.554）等方法。
LLNet（4.751）和RetinexNet在部分数据集上表现较差，验证了无监督方法的优势。