当前位置: 首页 > java >正文

【LLIE专题】EnlightenGAN 无监督低照度图像增强

在这里插入图片描述

EnlightenGAN: Deep Light Enhancement without Paired Supervision(IEEE,2021)

  • 专题介绍
  • 一、研究背景
  • 二、EnlightenGAN方法
    • 2.1 总体方案
    • 2.2 详细方案
      • 2.21 全局-局部判别器
      • 2.22 自正则化感知损失
      • 2.23 注意力引导 U-Net 生成器
  • 三、实验结果
      • 1. 定量实验
        • 1.1 无参考图像质量评估(NIQE)
        • 1.2 人类主观评价(Human Subjective Evaluation)
        • 1.3. 语义保留能力(Classification Accuracy)
      • 2. 定性实验
        • 2.1. 视觉质量比较
        • 2.2. 域适应能力(Real-World Adaptation)
      • 3. 消融实验
        • 3.1. 有效性验证
        • 3.2. 自正则化机制的必要性
  • 四、总结

本文将对 EnlightenGAN: Deep Light Enhancement without Paired Supervision,这篇暗光增强算法进行讲解。参考资料如下:

[1] EnlightenGAN文章
[2] EnlightenGAN代码


专题介绍

在低光照环境下,传统成像设备往往因画面昏暗、细节丢失而受限。LLIE(低照度暗光增强)技术应运而生,它通过提升图像亮度、对比度,减少噪点并恢复色彩细节,让暗夜变得清晰可见。

LLIE技术从传统方法如直方图均衡化、Retinex模型等起步,近年来借助深度学习,尤其是卷积神经网络(CNN),GAN模型,扩散模型实现了质的飞跃。这些算法能自动学习图像特征,精准处理低光照图像,效果显著优于传统技术。

本专题将聚焦LLIE技术的核心原理、应用案例及最新进展,让我们一起见证LLIE如何点亮暗夜,开启视觉新视界!欢迎一起探讨交流!

系列文章如下
【1】ZeroDCE
【2】HVI
【3】CLIP-LIT
【4】GLARE
【5】Retinexformer
【6】SG-LLIE
【7】GPP-LLIE
【8】FusionNet


一、研究背景

在实际场景中,要同时拍摄同一视觉场景的低光照和正常光照照片极具挑战性。本文提出了一种高效的无监督生成对抗网络,称为EnlightenGAN,它无需低光照/正常光照图像对即可进行训练,且在各种真实世界测试图像上表现出良好的泛化能力。
本文不使用真实数据来监督学习,而是利用从输入本身提取的信息对非配对训练进行正则化,并针对低光照图像增强问题采用了一系列创新方法,包括全局 - 局部判别器结构、自正则化感知损失融合以及注意力机制。由于非配对训练带来的高度灵活性,EnlightenGAN能轻松适用于不同场景的真实世界图像。

二、EnlightenGAN方法

2.1 总体方案

EnlightenGAN是一种无监督的暗光增强方案,主要运用了以下几个策略实现无监督增强。

  • 全局 - 局部判别器:全局判别器处理整体光照,局部判别器确保局部区域的真实感,避免过曝或欠曝。
  • 自正则化感知损失:利用预训练 VGG 模型约束低光输入与增强输出的特征距离,保留图像内容。
  • 注意力引导 U-Net 生成器:使用输入图像的光照信息生成注意力图,指导网络重点增强暗区域,抑制亮区域。
    在这里插入图片描述

2.2 详细方案

2.21 全局-局部判别器

作者注意到图像级(图像全局尺度上的)普通判别器在空间变化光照图像上(图像不同区域光照不同)往往效果不佳;如果输入图像的某些局部区域需要与其他部分进行不同程度的增强,例如,在整体较暗的背景中有一个小的明亮区域,仅靠全局图像判别器往往无法提供所需的适应性。

因此为了在全局改善光照的同时自适应地增强局部区域,提出了一种新颖的全局 - 局部判别器结构,两者均使用PatchGAN进行真假判别。除了图像级别的全局判别器之外,通过从输出图像和真实正常光照图像中随机裁剪局部图像块来添加局部判别器,并学习区分它们是真实的(来自真实图像)还是虚假的(来自增强后的输出)。这种全局 - 局部结构确保增强图像的所有局部图像块看起来都像真实的正常光照图像,这对于避免局部过曝或欠曝至关重要。

全局判别器,采用了相对判别器结构。相对判别器的标准函数为:
D R a ( x r , x f ) = σ ( C ( x r ) − E x f ∼ P f a k e [ C ( x f ) ] ) , ( 1 ) D_{Ra}(x_r, x_f)=\sigma(C(x_r)-\mathbb{E}_{x_f \sim \mathbb{P}_{fake }}[C(x_f)]), (1) DRa(xr,xf)=σ(C(xr)ExfPfake[C(xf)]),(1)

D R a ( x f , x r ) = σ ( C ( x f ) − E x r ∼ P r e a l [ C ( x r ) ] ) , ( 2 ) D_{Ra}(x_f, x_r)=\sigma(C(x_f)-\mathbb{E}_{x_r \sim \mathbb{P}_{real }}[C(x_r)]), (2) DRa(xf,xr)=σ(C(xf)ExrPreal[C(xr)]),(2)
在EnlightenGAN中,相对判别器(Relativistic Discriminator)的设计旨在优化生成对抗网络(GAN)的训练稳定性与生成质量,其核心思想是通过比较真实数据与虚假数据的相对真实性来引导生成器学习,而非传统判别器仅单独判断数据的真伪。以下是相对判别器公式的详细解析:

  • 符号解析
    • x r x_r xr:真实数据(正常光图像), x f x_f xf:虚假数据(生成器输出的增强图像)。
    • C ( x ) C(x) C(x):判别器网络对输入数据的特征提取结果。
    • E x ∼ P [ ⋅ ] \mathbb{E}_{x \sim \mathbb{P}}[\cdot] ExP[]:对分布 P \mathbb{P} P中样本的期望运算。
    • σ \sigma σ:Sigmoid函数,将输出映射到(0,1)区间,表征概率。
  • 核心逻辑
    • 公式(1)计算“真实数据 x r x_r xr比虚假数据 x f x_f xf更真实”的概率:通过比较 C ( x r ) C(x_r) C(xr)与虚假数据特征期望 E [ C ( x f ) ] \mathbb{E}[C(x_f)] E[C(xf)]的差值,若差值越大,说明 x f x_f xf越真实。
    • 公式(2)计算“虚假数据 x f x_f xf比真实数据 x r x_r xr更真实”的概率:反之,若 C ( x f ) C(x_f) C(xf)显著大于真实数据特征期望 E [ C ( x r ) ] \mathbb{E}[C(x_r)] E[C(xr)],则 x f x_f xf更接近真实分布。

在神经网络训练中,理论上的期望 E x ∼ P [ ⋅ ] \mathbb{E}_{x \sim \mathbb{P}}[\cdot] ExP[]无法直接精确计算,通常通过样本平均来近似:

  1. 批量采样(Mini-Batch)

    • 从分布 P \mathbb{P} P中随机采样一个批量(Batch)的样本 { x 1 , x 2 , … , x N } \{x_1, x_2, \dots, x_N\} {x1,x2,,xN}
    • 用样本均值近似期望: E x ∼ P [ f ( x ) ] ≈ 1 N ∑ i = 1 N f ( x i ) \mathbb{E}_{x \sim \mathbb{P}}[f(x)] \approx \frac{1}{N} \sum_{i=1}^N f(x_i) ExP[f(x)]N1i=1Nf(xi)
  2. 以本文中的公式为例

    • 计算 E x f ∼ P f a k e [ C ( x f ) ] \mathbb{E}_{x_f \sim \mathbb{P}_{fake}}[C(x_f)] ExfPfake[C(xf)]时,生成器 G G G会批量生成若干增强图像 { x f 1 , x f 2 , … , x f N } \{x_f^1, x_f^2, \dots, x_f^N\} {xf1,xf2,,xfN},代入判别器 C C C得到特征值 { C ( x f 1 ) , C ( x f 2 ) , … , C ( x f N ) } \{C(x_f^1), C(x_f^2), \dots, C(x_f^N)\} {C(xf1),C(xf2),,C(xfN)},其平均值即为该期望的近似值。
    • 同理, E x r ∼ P r e a l [ C ( x r ) ] \mathbb{E}_{x_r \sim \mathbb{P}_{real}}[C(x_r)] ExrPreal[C(xr)]通过对真实图像批量采样后计算判别器输出的平均值得到。

在EnlightenGAN中,作者对相对判别器进行改进时采用了最小二乘生成对抗网络(LSGAN)的损失函数,以提升训练稳定性和生成图像质量。 将相对判别器的输出值(原本通过Sigmoid映射到(0,1))直接作为LSGAN的输入,通过平方误差损失约束判别器和生成器。 替换后公式如下:
L D G l o b a l = E x r ∼ P r e a l [ ( D R a ( x r , x f ) − 1 ) 2 ] + E x f ∼ P f a k e [ D R a ( x f , x r ) 2 ] ( 3 ) \mathcal{L}_D^{Global} = \mathbb{E}_{x_r \sim \mathbb{P}_{real}}\left[\left(D_{Ra}(x_r, x_f) - 1\right)^2\right] + \mathbb{E}_{x_f \sim \mathbb{P}_{fake}}\left[D_{Ra}(x_f, x_r)^2\right] \quad (3) LDGlobal=ExrPreal[(DRa(xr,xf)1)2]+ExfPfake[DRa(xf,xr)2](3)
L G G l o b a l = E x f ∼ P f a k e [ ( D R a ( x f , x r ) − 1 ) 2 ] + E x r ∼ P r e a l [ D R a ( x r , x f ) 2 ] ( 4 ) \mathcal{L}_G^{Global} = \mathbb{E}_{x_f \sim \mathbb{P}_{fake}}\left[\left(D_{Ra}(x_f, x_r) - 1\right)^2\right] + \mathbb{E}_{x_r \sim \mathbb{P}_{real}}\left[D_{Ra}(x_r, x_f)^2\right] \quad (4) LGGlobal=ExfPfake[(DRa(xf,xr)1)2]+ExrPreal[DRa(xr,xf)2](4)

局部判别器直接采用传统LSGAN损失,无需相对结构
L D L o c a l = E x r ∼ P r e a l − p a t c h e s [ ( D ( x r ) − 1 ) 2 ] + E x f ∼ P f a k e − p a t c h e s [ ( D ( x f ) − 0 ) 2 ] ( 5 ) \mathcal{L}_D^{Local} = \mathbb{E}_{x_r \sim \mathbb{P}_{real-patches}}\left[\left(D(x_r) - 1\right)^2\right] + \mathbb{E}_{x_f \sim \mathbb{P}_{fake-patches}}\left[\left(D(x_f) - 0\right)^2\right] \quad (5) LDLocal=ExrPrealpatches[(D(xr)1)2]+ExfPfakepatches[(D(xf)0)2](5)
L G L o c a l = E x f ∼ P f a k e − p a t c h e s [ ( D ( x f ) − 1 ) 2 ] ( 6 ) \mathcal{L}_G^{Local} = \mathbb{E}_{x_f \sim \mathbb{P}_{fake-patches}}\left[\left(D(x_f) - 1\right)^2\right] \quad (6) LGLocal=ExfPfakepatches[(D(xf)1)2](6)
通过随机裁剪5个图像块送入判别器进行计算,局部判别器利用LSGAN损失约束生成图像的局部细节真实性,避免过曝或欠曝。

2.22 自正则化感知损失

  • 自正则化感知损失(Self Feature Preserving Loss):在EnlightenGAN中,由于缺乏配对训练数据,传统基于输出图像与真实图像间特征距离的感知损失无法适用。因此提出自身特征保留损失,通过约束输入低光图像与其增强后的正常光输出之间的VGG特征距离,来保留图像内容特征。公式为 L S F P ( I L ) = 1 W i , j H i , j ∑ x = 1 W i , j ∑ y = 1 H i , j ( ϕ i , j ( I L ) − ϕ i , j ( G ( I L ) ) ) 2 \mathcal{L}_{SFP}(I^{L})=\frac{1}{W_{i,j}H_{i,j}}\sum_{x = 1}^{W_{i,j}}\sum_{y = 1}^{H_{i,j}}(\phi_{i,j}(I^{L})-\phi_{i,j}(G(I^{L})))^{2} LSFP(IL)=Wi,jHi,j1x=1Wi,jy=1Hi,j(ϕi,j(IL)ϕi,j(G(IL)))2,其中 I L I^{L} IL为输入低光图像, G ( I L ) G(I^{L}) G(IL)是生成器的增强输出, ϕ i , j \phi_{i,j} ϕi,j是从在ImageNet上预训练的VGG-16模型提取的特征图 。该损失强调自正则化效用,确保图像在增强前后内容特征的一致性,且对输入像素强度范围不敏感。(对输入像素强度不敏感是由于①特征空间的高层抽象:VGG 特征剥离了像素强度的绝对数值,聚焦结构语义。②预训练模型的光照鲁棒性:ImageNet 预训练使特征对光照变化天然不敏感)

  • 总损失(Total Loss):为了更好地训练EnlightenGAN,作者将不同部分的损失进行整合得到总损失。公式为 L o s s = L S F P G l o b a l + L S F P L o c a l + L G G l o b a l + L G L o c a l Loss =\mathcal{L}_{SFP}^{Global }+\mathcal{L}_{SFP}^{Local }+\mathcal{L}_{G}^{Global }+\mathcal{L}_{G}^{Local } Loss=LSFPGlobal+LSFPLocal+LGGlobal+LGLocal。其中, L S F P G l o b a l \mathcal{L}_{SFP}^{Global } LSFPGlobal L S F P L o c a l \mathcal{L}_{SFP}^{Local } LSFPLocal分别是全局和局部的自身特征保留损失,用于约束图像整体和局部区域在增强前后的特征一致性; L G G l o b a l \mathcal{L}_{G}^{Global } LGGlobal L G L o c a l \mathcal{L}_{G}^{Local } LGLocal是全局和局部生成器的对抗损失,通过与判别器的博弈,促使生成器生成更接近真实正常光图像的结果,从而实现低光图像的有效增强 。通过这种多损失融合的方式,EnlightenGAN能够在无配对数据的情况下,综合提升图像增强的效果。

2.23 注意力引导 U-Net 生成器

EnlightenGAN采用自正则化注意力引导的U-Net作为生成器,其核心在于结合U-Net的多尺度特征提取能力与自正则化注意力机制,实现对低光图像的自适应增强。
Unet网络结构这里不做过多解释,非常常见的一个网络结构。

  1. 注意力机制的核心目标
    低光图像通常存在光照不均匀问题(如局部过曝或欠曝),注意力机制旨在引导模型重点增强暗区域,抑制亮区域,实现自适应光照调整。

  2. 自正则化注意力图的生成

    • 光照信息提取:从输入RGB图像中提取光照通道I(如通过HSV色彩空间或直接取RGB三通道最大值),归一化到[0,1]区间。
    • 注意力图计算:通过 1 − I 1-I 1I(元素级减法)生成注意力图,其中暗区域对应高权重(值接近1),亮区域对应低权重(值接近0),无需额外监督,属于自正则化过程。
  3. 注意力图的应用方式

    • 特征加权:将注意力图调整尺寸以匹配各层特征图,逐元素相乘,增强暗区域对应的特征响应,抑制亮区域特征。
    • 端到端整合:注意力机制嵌入到U-Net的每个中间层,影响特征提取和上采样过程,最终作用于输出图像。

三、实验结果

1. 定量实验

1.1 无参考图像质量评估(NIQE)

Natural Image Quality Evaluator(NIQE)用于评估无参考图像的感知质量,分数越低表示图像越接近自然视觉效果。
在这里插入图片描述

  • EnlightenGAN在MEF(3.232)、LIME(3.719)、DICM(3.570)三个数据集上取得最低NIQE值,整体平均NIQE为3.385,优于RetinexNet(3.920)、CycleGAN(3.554)等方法。
  • LLNet(4.751)和RetinexNet在部分数据集上表现较差,验证了无监督方法的优势。
1.2 人类主观评价(Human Subjective Evaluation)

选取23张测试图像,用5种方法(LIME、RetinexNet、NPE、SRIE、EnlightenGAN)增强后,让9名受试者基于噪声、曝光、颜色真实性进行两两比较。
在这里插入图片描述

  • EnlightenGAN在23张图像中10次获得最高排名(Rank 1),平均排名1.78,显著优于RetinexNet(平均排名≈3)和LIME(平均排名≈4)。
1.3. 语义保留能力(Classification Accuracy)

在ExDark低光图像分类数据集上,用EnlightenGAN作为预处理,结合ResNet-50分类器。

  • 低光图像直接分类的Top-1准确率为22.02%,经EnlightenGAN增强后提升至23.94%,Top-5准确率从39.46%提升至40.92%,优于LIME(23.32% Top-1)和AHE(23.04% Top-1)。

2. 定性实验

2.1. 视觉质量比较

对比了CycleGAN、RetinexNet、SRIE、LIME、NPE、LLNet。
在这里插入图片描述

  • EnlightenGAN能有效抑制噪声(如黑色天空区域),保留纹理细节(如黄色墙壁),而LIME易导致面部过曝,SRIE和NPE存在背景细节不足问题。
  • 在动态场景(如汽车、云层)中,EnlightenGAN避免了其他方法的过曝伪影,色彩更自然。
2.2. 域适应能力(Real-World Adaptation)

Berkeley Deep Driving(BBD-100k)夜间驾驶数据集,含严重噪声和ISO artifacts。
在这里插入图片描述

  • 域适应版本EnlightenGAN-N通过自正则化机制,在保持亮度的同时抑制噪声,视觉效果最优。

3. 消融实验

3.1. 有效性验证

分别移除局部判别器(Local Discriminator)和自正则化注意力机制(Attention Mechanism),对比完整模型效果。
在这里插入图片描述

  • 缺少局部判别器:全局判别器无法处理局部光照变化,导致天空、屋顶等区域出现颜色失真(如Fig.3(a)-(b)的过曝边界)。
  • 缺少注意力机制:U-Net生成器无法自适应增强暗区域,导致植被边界、T恤等区域欠曝或色彩不一致(如Fig.3©-(e)的纹理模糊)。
3.2. 自正则化机制的必要性
  • 注意力图通过 1 − I 1-I 1I I I I为输入光照通道)自然区分暗区域(高权重)和亮区域(低权重),为模型提供增强导向,无需额外监督。
  • 完整模型在消融实验中视觉评分比缺失组件的版本高20%-30%,验证自正则化对无配对训练的关键作用。

四、总结

这篇论文提出了EnlightenGAN,一种无需配对数据的生成对抗网络,通过全局-局部判别器、自正则化感知损失和注意力机制,有效提升低光图像质量,实验显示其在视觉效果和量化指标上都优于其他方法。


感谢阅读,欢迎留言或私信,一起探讨和交流。
如果对你有帮助的话,也希望可以给博主点一个关注,感谢。

http://www.xdnf.cn/news/14692.html

相关文章:

  • 实现一个AI大模型当前都无法正确实现的基础二叉树读取算法
  • 商业秘密中经营信息的法律保护探析——以客户名册为例
  • 数字孪生技术引领UI前端设计新革命:实时交互与模拟预测
  • 【Bluedroid】蓝牙启动之BTM_reset_complete源码解析
  • yolov13+bytetrack的目标跟踪实现
  • pytorch中的几个概念
  • 港澳地区,海外服务器ping通可能是地区运营商问题
  • c# sugersql 获取子表数据排序
  • MySQL彻底卸载教程
  • 桌面小屏幕实战课程:DesktopScreen 16 HTTP
  • Java锁机制知识点
  • 《Go语言高级编程》RPC 入门
  • python -日期与天数的转换
  • 量化面试绿皮书:56. 多项式求和
  • web3 docs
  • Linux进程关系
  • Flutter 网络请求指南, 从 iOS 到 Flutter 的 Dio + Retrofit 组合
  • 飞算科技依托 JavaAI 核心技术,打造企业级智能开发全场景方案
  • 数据应该如何组织,才能让Excel“读懂”?
  • Django ORM 1. 创建模型(Model)
  • 【2024 CVPR-Backbone】RepViT: Revisiting Mobile CNN From ViT Perspective
  • 什么是上证50etf期权波动率?
  • CPT204-Advanced OO Programming: Lists, Stacks, Queues, and Priority Queues
  • 工作台-02.代码开发
  • HTTP协议中Connection: Keep-Alive和Keep-Alive: timeout=60, max=100的作用
  • 什么是国际期货?期货交易平台搭建
  • [ linux-系统 ] 磁盘与文件系统
  • 【大模型实战 | BERT 量化分析(2)】
  • 从萌芽到领航:广州华锐互动的 AR 奋进之路​
  • 【github】从本地更新仓库里的文件笔记