当前位置：首页 > ds >正文

【LLIE专题】LYT-Net：一种轻量级 YUV Transformer 低光图像增强网络

ds 2025/9/8 6:48:06

在这里插入图片描述

LYT-NET: Lightweight YUV Transformer-based Network for Low-light Image Enhancement（2024）

专题介绍
一、研究背景
二、方法
- - 1. 整体架构
  - 2. 关键创新模块
  - - 2.1 通道降噪模块（CWD）
    - 2.2 多头自注意力模块（MHSA）
    - 2.3 多阶段挤压融合模块（MSEF）
  - 3. 损失函数
三、实验结果
- 1、定量实验：性能与复杂度双维度对比
- 2、定性实验
四、总结

本文将对 LYT-NET: Lightweight YUV Transformer-based
Network for Low-light Image Enhancement，这篇文章进行讲解。参考资料如下：

[1] 文章
[2] 代码

专题介绍

在低光照环境下，传统成像设备往往因画面昏暗、细节丢失而受限。LLIE（低照度暗光增强）技术应运而生，它通过提升图像亮度、对比度，减少噪点并恢复色彩细节，让暗夜变得清晰可见。

LLIE技术从传统方法如直方图均衡化、Retinex模型等起步，近年来借助深度学习，尤其是卷积神经网络（CNN），GAN模型，扩散模型实现了质的飞跃。这些算法能自动学习图像特征，精准处理低光照图像，效果显著优于传统技术。

本专题将聚焦LLIE技术的核心原理、应用案例及最新进展，让我们一起见证LLIE如何点亮暗夜，开启视觉新视界！欢迎一起探讨交流！

系列文章如下
【1】ZeroDCE
【2】HVI
【3】CLIP-LIT
【4】GLARE
【5】Retinexformer
【6】SG-LLIE
【7】GPP-LLIE
【8】FusionNet
【9】EnligtenGAN
【10】PTG
【11】CSNorm
【12】SG-LLIE结构提取方案
【13】SAIGFormer
【14】BEM
【15】SKF
【16】SIED

一、研究背景

传统 LLIE 方法依赖频率分解、直方图均衡化、Retinex 理论等，虽有一定效果但局限性明显；深度学习兴起后，CNN、GAN 及 Vision Transformer（ViT）架构逐渐应用于 LLIE，但现有 ViT-based 方法在低级别视觉任务中探索不足，且部分模型存在计算复杂度高的问题。这篇论文旨在提出一种轻量级 Transformer-based 模型（LYT-Net），在保证低计算复杂度的同时，实现优于现有方法的低光图像增强效果，兼顾性能与效率。

二、方法

在这里插入图片描述
从上图可以看出，该方案在PSNR指标上达到了非常好的效果外，计算量也非常小。
下面我们来详细介绍该方案：

上图画的较为简略，下面公式均来自原文
LYT-Net采用双路径架构，在YUV颜色空间中分离亮度通道（Y）与色度通道（U、V）分别处理，结合创新模块与传统Transformer组件，具体结构与模块设计如下：

1. 整体架构

如上图所示，LYT-Net包含多个可分离模块，流程分为四步：

通道分离与预处理：将输入图像转换为YUV空间，亮度通道Y通过卷积和池化提取特征，色度通道U、V送入通道降噪模块；
特征增强：Y通道特征经多头自注意力（MHSA）模块增强，U、V通道经通道降噪（CWD）模块降噪并保留细节；
特征融合：增强后的U、V通道以及经过特征提取后的Y通道特征经多阶段挤压融合（MSEF）模块处理，再与Y通道拼接；
输出生成：拼接后的特征通过最终卷积层，生成高质量增强图像。

2. 关键创新模块

2.1 通道降噪模块（CWD）

结构：U型网络架构，以MHSA为bottleneck，集成卷积与注意力机制，包含4个3×3卷积层（1个步长1用于特征提取，3个步长2捕捉多尺度特征），并设计跳跃连接与上采样层；
优势：在低空间维度特征图上应用MHSA，大幅提升计算效率；采用插值上采样替代转置卷积，减少参数量，同时保留性能。

2.2 多头自注意力模块（MHSA）

流程：
1. 输入特征 $Fin∈RH×W×CF_{in} \in \mathbb{R}^{H×W×C}$ 经全连接层线性投影为查询（Q）、键（K）、值（V），维度保持不变；
2. 将Q、K、V分割为k个独立头，每个头维度 $d_k=C/k$ ；
3. 对每个头计算自注意力，拼接所有头输出后经线性层投影回原维度，重塑为空间特征 $Fout∈RH×W×CF_{out} \in \mathbb{R}^{H×W×C}$ 。

2.3 多阶段挤压融合模块（MSEF）

该模块核心目标是通过“挤压-激励”机制捕捉关键特征、抑制冗余信息，同时通过残差连接避免梯度消失，确保特征传递的完整性，为后续图像生成提供高质量特征基础。

MSEF模块的工作流程与核心公式
MSEF模块的工作流程分为“特征预处理→挤压操作→激励操作→残差融合”四个步骤，每个步骤对应明确的数学公式，所有公式均来自文档原文，具体如下：
步骤1：特征预处理（层归一化）
输入MSEF模块的特征图记为 $F_{in}$ （维度为 $RH×W×C\mathbb{R}^{H×W×C}$ ，其中H为高度、W为宽度、C为通道数）。首先对 $F_{in}$ 进行层归一化（LayerNorm） ，目的是标准化特征分布，加速后续计算的收敛速度，这是“挤压-激励”操作的前置准备。

步骤2：挤压操作（Squeeze）——生成降维描述子 $S_{reduced}$
“挤压操作”通过全局平均池化（GlobalPool） 压缩特征图的空间维度，将(H×W)的空间信息聚合为单值通道描述子，再通过降维全连接层与ReLU激活函数，提取关键全局特征并减少计算量，最终生成降维描述子 $S_{reduced}$ 。
$Sreduced=ReLU(W1⋅GlobalPool(LayerNorm(Fin)))S_{reduced} = \text{ReLU}\left(W_{1} \cdot \text{GlobalPool}\left(\text{LayerNorm}\left(F_{in}\right)\right)\right) \quad$
其中：

$W_1$ ：降维全连接层的权重矩阵，作用是将全局池化后的特征维度从C降至更低维度（如 $C / r$ ，r为压缩比）；
$GlobalPool\text{GlobalPool}$ ：全局平均池化操作，公式本质为对每个通道的所有空间像素取平均；
$ReLU\text{ReLU}$ ：激活函数，引入非线性，增强模型对复杂特征的表达能力。

步骤3：激励操作（Excite）——生成扩展描述子 $S_{expanded}$
“激励操作”将降维描述子 $S_{reduced}$ 通过升维全连接层恢复至原始通道维度C，再通过Tanh激活函数对通道特征进行“权重分配”——对重要通道特征赋予高权重，对冗余通道特征赋予低权重，最终生成扩展描述子 $S_{expanded}$ 。
$Sexpanded=Tanh(W2⋅Sreduced)⋅LayerNorm(Fin)S_{expanded} = \text{Tanh}\left(W_{2} \cdot S_{reduced}\right) \cdot \text{LayerNorm}\left(F_{in}\right) \quad$
其中：

$W_2$ ：升维全连接层的权重矩阵，作用是将 $S_{reduced}$ 的维度从 $C / r$ 恢复至C；
$Tanh\text{Tanh}$ ：激活函数，输出范围为([-1,1])，相比ReLU能更精细地调节通道权重（支持对冗余特征的“抑制”，而非仅保留正值特征）；

步骤4：残差融合——生成最终输出 $F_{out}$
为避免特征在“挤压-激励”过程中丢失原始信息，MSEF模块引入残差连接（Residual Connection） ：将经深度卷积（DWConv）处理的归一化特征，与 $S_{expanded}$ 相乘，最终得到模块输出 $F_{out}$ 。深度卷积的作用是进一步提取局部空间特征，与全局通道特征 $S_{expanded}$ 形成互补。
$Fout=DWConv(LayerNorm(Fin))⋅Sexpanded+Fin(6)F_{out} = \text{DWConv}\left(\text{LayerNorm}\left(F_{in}\right)\right) \cdot S_{expanded} + F_{in} \quad (6)$

3. 损失函数

为全面优化图像质量，LYT-Net采用混合损失函数，通过超参数 $α1−α5\alpha_1-\alpha_5$ 平衡各损失分量：
$L=LS+α1LPerc+α2LHist+α3LPSNR+α4LColor+α5LMS−SSIML=L_{S}+\alpha_{1} L_{Perc}+\alpha_{2} L_{Hist}+\alpha_{3} L_{PSNR}+\alpha_{4} L_{Color }+\alpha_{5} L_{MS-SSIM} \quad$

$L_S$ （Smooth L1损失）：处理异常值，根据预测与真实值差异施加二次/线性惩罚；
$L_{Perc}$ （感知损失）：对比VGG提取的特征图，保证特征一致性；
$L_{Hist}$ （直方图损失）：对齐预测与真实图像的像素强度分布；
$L_{PSNR}$ （PSNR损失）：通过惩罚均方误差减少噪声；
$L_{Color}$ （颜色损失）：最小化通道均值差异，保证颜色保真度；
$L_{MS-SSIM}$ （多尺度SSIM损失）：跨尺度评估相似度，保留图像结构完整性。

各子损失函数的权重超参数，用于平衡不同损失分量对总损失的贡献，文档中明确设置为 $α1=0.06\alpha_{1}=0.06$ 、 $α2=0.05\alpha_{2}=0.05$ 、 $α3=0.5\alpha_{3}=0.5$ 、 $α4=0.0083\alpha_{4}=0.0083$ 、 $α5=0.25\alpha_{5}=0.25$ 。

三、实验结果

1、定量实验：性能与复杂度双维度对比

在这里插入图片描述
定量实验以“性能领先性”与“轻量化优势”为核心目标，将LYT-Net与14种现有SOTA LLIE方法（如Restormer、MIRNet、Retinexformer等）在LOL系列数据集上进行对比，实验结果以表格形式呈现，关键结论如下：

性能领先性：PSNR与SSIM全面优于多数SOTA方法
在LOL三个数据集版本中，LYT-Net的PSNR与SSIM指标均处于前列，具体表现为：

LOL-v1数据集：LYT-Net的PSNR达27.23 dB、SSIM达0.853，超过Retinexformer（PSNR=27.14 dB、SSIM=0.850）、SNR-Net（PSNR=26.72 dB、SSIM=0.851）等方法，仅在SSIM上与Restormer（SSIM=0.853）持平；
LOL-v2-real数据集：LYT-Net的PSNR为27.80 dB、SSIM为0.873，显著优于Retinexformer（PSNR=27.69 dB、SSIM=0.856）、MIRNet（PSNR=27.17 dB、SSIM=0.865），是该数据集上PSNR与SSIM双指标最优的模型；
LOL-v2-synthetic数据集：LYT-Net的PSNR达29.38 dB、SSIM达0.940，略高于SNR-Net（PSNR=27.79 dB、SSIM=0.941）与Retinexformer（PSNR=28.99 dB、SSIM=0.939），在PSNR上表现最优。

轻量化优势：复杂度远低于其他高性能方法
定量实验同时对比了各模型的计算复杂度（FLOPS，浮点运算次数）与参数数量（Params），LYT-Net的轻量化特性尤为突出：

计算复杂度：LYT-Net仅需3.49G FLOPS，远低于Restormer（144.25G FLOPS）、MIRNet（785G FLOPS）、SNR-Net（26.35G FLOPS）等方法，仅与3DLUT（0.075G FLOPS）处于同一轻量化级别；
参数数量：LYT-Net仅含0.045M参数，不足Retinexformer（1.61M参数）的1/35、Restormer（26.13M参数）的1/580，是所有对比模型中参数最少的模型之一；
性能-复杂度平衡：唯一与LYT-Net复杂度接近的3DLUT方法，其PSNR与SSIM指标显著低于LYT-Net（如LOL-v2-synthetic数据集上，3DLUT的PSNR=22.17 dB、SSIM=0.854，远低于LYT-Net的29.38 dB与0.940），证明LYT-Net在“高性能”与“低复杂度”之间实现了最优平衡。

2、定性实验

在这里插入图片描述
对比LYT-Net与KiND、Restormer、MIRNet、SNR-Net等方法的增强结果，发现其他方法普遍存在明显缺陷，而LYT-Net表现更优：

颜色失真问题：KiND、Restormer方法增强后的图像存在明显偏色（如肤色偏黄、场景色调失衡），而LYT-Net能精准还原图像原始颜色，与“Ground Truth（真实图像）”色调一致；
过曝/欠曝问题：MIRNet、SNR-Net在增强低光区域时，易导致高光区域过曝（如灯光区域泛白、细节丢失）或阴影区域欠曝（如暗部仍存在大量噪声与细节模糊），LYT-Net则能均匀调整图像亮度，避免极端曝光问题；
细节保留能力：通过放大图像中的纹理区域（如衣物纹理、文字细节），可见LYT-Net在消除低光噪声的同时，能完整保留细微结构，而其他方法要么噪声残留明显，要么过度平滑导致细节丢失。

四、总结

本文针对低光图像增强（LLIE）任务中“高性能模型复杂度高、轻量化模型效果差”的痛点，提出了轻量级YUV Transformer网络LYT-Net，核心思路主要是采用了双路径YUV分离处理架构。通过模块创新（CWD、MSEF）与架构优化（YUV双路径），首次在LLIE任务中实现“0.045M参数+SOTA性能”的平衡，为低光图像增强的移动端、实时部署场景提供了可行方案。