【LLIE专题】LYT-Net:一种轻量级 YUV Transformer 低光图像增强网络
LYT-NET: Lightweight YUV Transformer-based Network for Low-light Image Enhancement(2024)
- 专题介绍
- 一、研究背景
- 二、方法
- 1. 整体架构
- 2. 关键创新模块
- 2.1 通道降噪模块(CWD)
- 2.2 多头自注意力模块(MHSA)
- 2.3 多阶段挤压融合模块(MSEF)
- 3. 损失函数
- 三、实验结果
- 1、定量实验:性能与复杂度双维度对比
- 2、定性实验
- 四、总结
本文将对 LYT-NET: Lightweight YUV Transformer-based
Network for Low-light Image Enhancement,这篇文章进行讲解。参考资料如下:
[1] 文章
[2] 代码
专题介绍
在低光照环境下,传统成像设备往往因画面昏暗、细节丢失而受限。LLIE(低照度暗光增强)技术应运而生,它通过提升图像亮度、对比度,减少噪点并恢复色彩细节,让暗夜变得清晰可见。
LLIE技术从传统方法如直方图均衡化、Retinex模型等起步,近年来借助深度学习,尤其是卷积神经网络(CNN),GAN模型,扩散模型实现了质的飞跃。这些算法能自动学习图像特征,精准处理低光照图像,效果显著优于传统技术。
本专题将聚焦LLIE技术的核心原理、应用案例及最新进展,让我们一起见证LLIE如何点亮暗夜,开启视觉新视界!欢迎一起探讨交流!
系列文章如下
【1】ZeroDCE
【2】HVI
【3】CLIP-LIT
【4】GLARE
【5】Retinexformer
【6】SG-LLIE
【7】GPP-LLIE
【8】FusionNet
【9】EnligtenGAN
【10】PTG
【11】CSNorm
【12】SG-LLIE结构提取方案
【13】SAIGFormer
【14】BEM
【15】SKF
【16】SIED
一、研究背景
传统 LLIE 方法依赖频率分解、直方图均衡化、Retinex 理论等,虽有一定效果但局限性明显;深度学习兴起后,CNN、GAN 及 Vision Transformer(ViT)架构逐渐应用于 LLIE,但现有 ViT-based 方法在低级别视觉任务中探索不足,且部分模型存在计算复杂度高的问题。这篇论文旨在提出一种轻量级 Transformer-based 模型(LYT-Net) ,在保证低计算复杂度的同时,实现优于现有方法的低光图像增强效果,兼顾性能与效率。
二、方法
从上图可以看出,该方案在PSNR指标上达到了非常好的效果外,计算量也非常小。
下面我们来详细介绍该方案:
上图画的较为简略,下面公式均来自原文
LYT-Net采用双路径架构,在YUV颜色空间中分离亮度通道(Y)与色度通道(U、V)分别处理,结合创新模块与传统Transformer组件,具体结构与模块设计如下:
1. 整体架构
如上图所示,LYT-Net包含多个可分离模块,流程分为四步:
- 通道分离与预处理:将输入图像转换为YUV空间,亮度通道Y通过卷积和池化提取特征,色度通道U、V送入通道降噪模块;
- 特征增强:Y通道特征经多头自注意力(MHSA)模块增强,U、V通道经通道降噪(CWD)模块降噪并保留细节;
- 特征融合:增强后的U、V通道以及经过特征提取后的Y通道特征 经多阶段挤压融合(MSEF)模块处理,再与Y通道拼接;
- 输出生成:拼接后的特征通过最终卷积层,生成高质量增强图像。
2. 关键创新模块
2.1 通道降噪模块(CWD)
- 结构:U型网络架构,以MHSA为bottleneck,集成卷积与注意力机制,包含4个3×3卷积层(1个步长1用于特征提取,3个步长2捕捉多尺度特征),并设计跳跃连接与上采样层;
- 优势:在低空间维度特征图上应用MHSA,大幅提升计算效率;采用插值上采样替代转置卷积,减少参数量,同时保留性能。
2.2 多头自注意力模块(MHSA)
- 流程:
- 输入特征Fin∈RH×W×CF_{in} \in \mathbb{R}^{H×W×C}Fin∈RH×W×C经全连接层线性投影为查询(Q)、键(K)、值(V),维度保持不变;
- 将Q、K、V分割为k个独立头,每个头维度dk=C/kd_k=C/kdk=C/k;
- 对每个头计算自注意力,拼接所有头输出后经线性层投影回原维度,重塑为空间特征Fout∈RH×W×CF_{out} \in \mathbb{R}^{H×W×C}Fout∈RH×W×C。
2.3 多阶段挤压融合模块(MSEF)
该模块核心目标是通过“挤压-激励”机制捕捉关键特征、抑制冗余信息,同时通过残差连接避免梯度消失,确保特征传递的完整性,为后续图像生成提供高质量特征基础。
MSEF模块的工作流程与核心公式
MSEF模块的工作流程分为“特征预处理→挤压操作→激励操作→残差融合”四个步骤,每个步骤对应明确的数学公式,所有公式均来自文档原文,具体如下:
步骤1:特征预处理(层归一化)
输入MSEF模块的特征图记为FinF_{in}Fin(维度为RH×W×C\mathbb{R}^{H×W×C}RH×W×C,其中H为高度、W为宽度、C为通道数)。首先对FinF_{in}Fin进行层归一化(LayerNorm) ,目的是标准化特征分布,加速后续计算的收敛速度,这是“挤压-激励”操作的前置准备。
步骤2:挤压操作(Squeeze)——生成降维描述子SreducedS_{reduced}Sreduced
“挤压操作”通过全局平均池化(GlobalPool) 压缩特征图的空间维度,将(H×W)的空间信息聚合为单值通道描述子,再通过降维全连接层与ReLU激活函数,提取关键全局特征并减少计算量,最终生成降维描述子SreducedS_{reduced}Sreduced。
Sreduced=ReLU(W1⋅GlobalPool(LayerNorm(Fin)))S_{reduced} = \text{ReLU}\left(W_{1} \cdot \text{GlobalPool}\left(\text{LayerNorm}\left(F_{in}\right)\right)\right) \quadSreduced=ReLU(W1⋅GlobalPool(LayerNorm(Fin)))
其中:
- W1W_1W1:降维全连接层的权重矩阵,作用是将全局池化后的特征维度从C降至更低维度(如C/rC/rC/r,r为压缩比);
- GlobalPool\text{GlobalPool}GlobalPool:全局平均池化操作,公式本质为对每个通道的所有空间像素取平均;
- ReLU\text{ReLU}ReLU:激活函数,引入非线性,增强模型对复杂特征的表达能力。
步骤3:激励操作(Excite)——生成扩展描述子SexpandedS_{expanded}Sexpanded
“激励操作”将降维描述子SreducedS_{reduced}Sreduced通过升维全连接层恢复至原始通道维度C,再通过Tanh激活函数对通道特征进行“权重分配”——对重要通道特征赋予高权重,对冗余通道特征赋予低权重,最终生成扩展描述子SexpandedS_{expanded}Sexpanded。
Sexpanded=Tanh(W2⋅Sreduced)⋅LayerNorm(Fin)S_{expanded} = \text{Tanh}\left(W_{2} \cdot S_{reduced}\right) \cdot \text{LayerNorm}\left(F_{in}\right) \quadSexpanded=Tanh(W2⋅Sreduced)⋅LayerNorm(Fin)
其中:
- W2W_2W2:升维全连接层的权重矩阵,作用是将SreducedS_{reduced}Sreduced的维度从C/rC/rC/r恢复至C;
- Tanh\text{Tanh}Tanh:激活函数,输出范围为([-1,1]),相比ReLU能更精细地调节通道权重(支持对冗余特征的“抑制”,而非仅保留正值特征);
步骤4:残差融合——生成最终输出FoutF_{out}Fout
为避免特征在“挤压-激励”过程中丢失原始信息,MSEF模块引入残差连接(Residual Connection) :将经深度卷积(DWConv)处理的归一化特征,与SexpandedS_{expanded}Sexpanded相乘,最终得到模块输出FoutF_{out}Fout。深度卷积的作用是进一步提取局部空间特征,与全局通道特征SexpandedS_{expanded}Sexpanded形成互补。
Fout=DWConv(LayerNorm(Fin))⋅Sexpanded+Fin(6)F_{out} = \text{DWConv}\left(\text{LayerNorm}\left(F_{in}\right)\right) \cdot S_{expanded} + F_{in} \quad (6)Fout=DWConv(LayerNorm(Fin))⋅Sexpanded+Fin(6)
3. 损失函数
为全面优化图像质量,LYT-Net采用混合损失函数,通过超参数α1−α5\alpha_1-\alpha_5α1−α5平衡各损失分量:
L=LS+α1LPerc+α2LHist+α3LPSNR+α4LColor+α5LMS−SSIML=L_{S}+\alpha_{1} L_{Perc}+\alpha_{2} L_{Hist}+\alpha_{3} L_{PSNR}+\alpha_{4} L_{Color }+\alpha_{5} L_{MS-SSIM} \quad L=LS+α1LPerc+α2LHist+α3LPSNR+α4LColor+α5LMS−SSIM
- LSL_SLS(Smooth L1损失):处理异常值,根据预测与真实值差异施加二次/线性惩罚;
- LPercL_{Perc}LPerc(感知损失):对比VGG提取的特征图,保证特征一致性;
- LHistL_{Hist}LHist(直方图损失):对齐预测与真实图像的像素强度分布;
- LPSNRL_{PSNR}LPSNR(PSNR损失):通过惩罚均方误差减少噪声;
- LColorL_{Color}LColor(颜色损失):最小化通道均值差异,保证颜色保真度;
- LMS−SSIML_{MS-SSIM}LMS−SSIM(多尺度SSIM损失):跨尺度评估相似度,保留图像结构完整性。
各子损失函数的权重超参数,用于平衡不同损失分量对总损失的贡献,文档中明确设置为α1=0.06\alpha_{1}=0.06α1=0.06、α2=0.05\alpha_{2}=0.05α2=0.05、α3=0.5\alpha_{3}=0.5α3=0.5、α4=0.0083\alpha_{4}=0.0083α4=0.0083、α5=0.25\alpha_{5}=0.25α5=0.25 。
三、实验结果
1、定量实验:性能与复杂度双维度对比
定量实验以“性能领先性”与“轻量化优势”为核心目标,将LYT-Net与14种现有SOTA LLIE方法(如Restormer、MIRNet、Retinexformer等)在LOL系列数据集上进行对比,实验结果以表格形式呈现,关键结论如下:
性能领先性:PSNR与SSIM全面优于多数SOTA方法
在LOL三个数据集版本中,LYT-Net的PSNR与SSIM指标均处于前列,具体表现为:
- LOL-v1数据集:LYT-Net的PSNR达27.23 dB、SSIM达0.853,超过Retinexformer(PSNR=27.14 dB、SSIM=0.850)、SNR-Net(PSNR=26.72 dB、SSIM=0.851)等方法,仅在SSIM上与Restormer(SSIM=0.853)持平;
- LOL-v2-real数据集:LYT-Net的PSNR为27.80 dB、SSIM为0.873,显著优于Retinexformer(PSNR=27.69 dB、SSIM=0.856)、MIRNet(PSNR=27.17 dB、SSIM=0.865),是该数据集上PSNR与SSIM双指标最优的模型;
- LOL-v2-synthetic数据集:LYT-Net的PSNR达29.38 dB、SSIM达0.940,略高于SNR-Net(PSNR=27.79 dB、SSIM=0.941)与Retinexformer(PSNR=28.99 dB、SSIM=0.939),在PSNR上表现最优。
轻量化优势:复杂度远低于其他高性能方法
定量实验同时对比了各模型的计算复杂度(FLOPS,浮点运算次数)与参数数量(Params),LYT-Net的轻量化特性尤为突出:
- 计算复杂度:LYT-Net仅需3.49G FLOPS,远低于Restormer(144.25G FLOPS)、MIRNet(785G FLOPS)、SNR-Net(26.35G FLOPS)等方法,仅与3DLUT(0.075G FLOPS)处于同一轻量化级别;
- 参数数量:LYT-Net仅含0.045M参数,不足Retinexformer(1.61M参数)的1/35、Restormer(26.13M参数)的1/580,是所有对比模型中参数最少的模型之一;
- 性能-复杂度平衡:唯一与LYT-Net复杂度接近的3DLUT方法,其PSNR与SSIM指标显著低于LYT-Net(如LOL-v2-synthetic数据集上,3DLUT的PSNR=22.17 dB、SSIM=0.854,远低于LYT-Net的29.38 dB与0.940),证明LYT-Net在“高性能”与“低复杂度”之间实现了最优平衡。
2、定性实验
对比LYT-Net与KiND、Restormer、MIRNet、SNR-Net等方法的增强结果,发现其他方法普遍存在明显缺陷,而LYT-Net表现更优:
- 颜色失真问题:KiND、Restormer方法增强后的图像存在明显偏色(如肤色偏黄、场景色调失衡),而LYT-Net能精准还原图像原始颜色,与“Ground Truth(真实图像)”色调一致;
- 过曝/欠曝问题:MIRNet、SNR-Net在增强低光区域时,易导致高光区域过曝(如灯光区域泛白、细节丢失)或阴影区域欠曝(如暗部仍存在大量噪声与细节模糊),LYT-Net则能均匀调整图像亮度,避免极端曝光问题;
- 细节保留能力:通过放大图像中的纹理区域(如衣物纹理、文字细节),可见LYT-Net在消除低光噪声的同时,能完整保留细微结构,而其他方法要么噪声残留明显,要么过度平滑导致细节丢失。
四、总结
本文针对低光图像增强(LLIE)任务中“高性能模型复杂度高、轻量化模型效果差”的痛点,提出了轻量级YUV Transformer网络LYT-Net,核心思路主要是采用了双路径YUV分离处理架构。通过模块创新(CWD、MSEF)与架构优化(YUV双路径),首次在LLIE任务中实现“0.045M参数+SOTA性能”的平衡,为低光图像增强的移动端、实时部署场景提供了可行方案。
- 本文复现效果其实指标没有那么高。。。
感谢阅读,欢迎留言或私信,一起探讨和交流。
如果对你有帮助的话,也希望可以给博主点一个关注,感谢。