当前位置: 首页 > ds >正文

【LLIE专题】LYT-Net:一种轻量级 YUV Transformer 低光图像增强网络

在这里插入图片描述

LYT-NET: Lightweight YUV Transformer-based Network for Low-light Image Enhancement(2024)

  • 专题介绍
  • 一、研究背景
  • 二、方法
      • 1. 整体架构
      • 2. 关键创新模块
        • 2.1 通道降噪模块(CWD)
        • 2.2 多头自注意力模块(MHSA)
        • 2.3 多阶段挤压融合模块(MSEF)
      • 3. 损失函数
  • 三、实验结果
    • 1、定量实验:性能与复杂度双维度对比
    • 2、定性实验
  • 四、总结

本文将对 LYT-NET: Lightweight YUV Transformer-based
Network for Low-light Image Enhancement
,这篇文章进行讲解。参考资料如下:

[1] 文章
[2] 代码


专题介绍

在低光照环境下,传统成像设备往往因画面昏暗、细节丢失而受限。LLIE(低照度暗光增强)技术应运而生,它通过提升图像亮度、对比度,减少噪点并恢复色彩细节,让暗夜变得清晰可见。

LLIE技术从传统方法如直方图均衡化、Retinex模型等起步,近年来借助深度学习,尤其是卷积神经网络(CNN),GAN模型,扩散模型实现了质的飞跃。这些算法能自动学习图像特征,精准处理低光照图像,效果显著优于传统技术。

本专题将聚焦LLIE技术的核心原理、应用案例及最新进展,让我们一起见证LLIE如何点亮暗夜,开启视觉新视界!欢迎一起探讨交流!

系列文章如下
【1】ZeroDCE
【2】HVI
【3】CLIP-LIT
【4】GLARE
【5】Retinexformer
【6】SG-LLIE
【7】GPP-LLIE
【8】FusionNet
【9】EnligtenGAN
【10】PTG
【11】CSNorm
【12】SG-LLIE结构提取方案
【13】SAIGFormer
【14】BEM
【15】SKF
【16】SIED


一、研究背景

传统 LLIE 方法依赖频率分解、直方图均衡化、Retinex 理论等,虽有一定效果但局限性明显;深度学习兴起后,CNN、GAN 及 Vision Transformer(ViT)架构逐渐应用于 LLIE,但现有 ViT-based 方法在低级别视觉任务中探索不足,且部分模型存在计算复杂度高的问题。这篇论文旨在提出一种轻量级 Transformer-based 模型(LYT-Net) ,在保证低计算复杂度的同时,实现优于现有方法的低光图像增强效果,兼顾性能与效率。

二、方法

在这里插入图片描述
从上图可以看出,该方案在PSNR指标上达到了非常好的效果外,计算量也非常小。
下面我们来详细介绍该方案:
在这里插入图片描述
上图画的较为简略,下面公式均来自原文
LYT-Net采用双路径架构,在YUV颜色空间中分离亮度通道(Y)与色度通道(U、V)分别处理,结合创新模块与传统Transformer组件,具体结构与模块设计如下:

1. 整体架构

如上图所示,LYT-Net包含多个可分离模块,流程分为四步:

  1. 通道分离与预处理:将输入图像转换为YUV空间,亮度通道Y通过卷积和池化提取特征,色度通道U、V送入通道降噪模块;
  2. 特征增强:Y通道特征经多头自注意力(MHSA)模块增强,U、V通道经通道降噪(CWD)模块降噪并保留细节;
  3. 特征融合:增强后的U、V通道以及经过特征提取后的Y通道特征 经多阶段挤压融合(MSEF)模块处理,再与Y通道拼接;
  4. 输出生成:拼接后的特征通过最终卷积层,生成高质量增强图像。

2. 关键创新模块

2.1 通道降噪模块(CWD)
  • 结构:U型网络架构,以MHSA为bottleneck,集成卷积与注意力机制,包含4个3×3卷积层(1个步长1用于特征提取,3个步长2捕捉多尺度特征),并设计跳跃连接与上采样层;
  • 优势:在低空间维度特征图上应用MHSA,大幅提升计算效率;采用插值上采样替代转置卷积,减少参数量,同时保留性能。
2.2 多头自注意力模块(MHSA)
  • 流程
    1. 输入特征Fin∈RH×W×CF_{in} \in \mathbb{R}^{H×W×C}FinRH×W×C经全连接层线性投影为查询(Q)、键(K)、值(V),维度保持不变;
    2. 将Q、K、V分割为k个独立头,每个头维度dk=C/kd_k=C/kdk=C/k
    3. 对每个头计算自注意力,拼接所有头输出后经线性层投影回原维度,重塑为空间特征Fout∈RH×W×CF_{out} \in \mathbb{R}^{H×W×C}FoutRH×W×C
2.3 多阶段挤压融合模块(MSEF)

该模块核心目标是通过“挤压-激励”机制捕捉关键特征、抑制冗余信息,同时通过残差连接避免梯度消失,确保特征传递的完整性,为后续图像生成提供高质量特征基础。

MSEF模块的工作流程与核心公式
MSEF模块的工作流程分为“特征预处理→挤压操作→激励操作→残差融合”四个步骤,每个步骤对应明确的数学公式,所有公式均来自文档原文,具体如下:
步骤1:特征预处理(层归一化)
输入MSEF模块的特征图记为FinF_{in}Fin(维度为RH×W×C\mathbb{R}^{H×W×C}RH×W×C,其中H为高度、W为宽度、C为通道数)。首先对FinF_{in}Fin进行层归一化(LayerNorm) ,目的是标准化特征分布,加速后续计算的收敛速度,这是“挤压-激励”操作的前置准备。

步骤2:挤压操作(Squeeze)——生成降维描述子SreducedS_{reduced}Sreduced
“挤压操作”通过全局平均池化(GlobalPool) 压缩特征图的空间维度,将(H×W)的空间信息聚合为单值通道描述子,再通过降维全连接层与ReLU激活函数,提取关键全局特征并减少计算量,最终生成降维描述子SreducedS_{reduced}Sreduced
Sreduced=ReLU(W1⋅GlobalPool(LayerNorm(Fin)))S_{reduced} = \text{ReLU}\left(W_{1} \cdot \text{GlobalPool}\left(\text{LayerNorm}\left(F_{in}\right)\right)\right) \quadSreduced=ReLU(W1GlobalPool(LayerNorm(Fin)))
其中:

  • W1W_1W1:降维全连接层的权重矩阵,作用是将全局池化后的特征维度从C降至更低维度(如C/rC/rC/r,r为压缩比);
  • GlobalPool\text{GlobalPool}GlobalPool:全局平均池化操作,公式本质为对每个通道的所有空间像素取平均;
  • ReLU\text{ReLU}ReLU:激活函数,引入非线性,增强模型对复杂特征的表达能力。

步骤3:激励操作(Excite)——生成扩展描述子SexpandedS_{expanded}Sexpanded
“激励操作”将降维描述子SreducedS_{reduced}Sreduced通过升维全连接层恢复至原始通道维度C,再通过Tanh激活函数对通道特征进行“权重分配”——对重要通道特征赋予高权重,对冗余通道特征赋予低权重,最终生成扩展描述子SexpandedS_{expanded}Sexpanded
Sexpanded=Tanh(W2⋅Sreduced)⋅LayerNorm(Fin)S_{expanded} = \text{Tanh}\left(W_{2} \cdot S_{reduced}\right) \cdot \text{LayerNorm}\left(F_{in}\right) \quadSexpanded=Tanh(W2Sreduced)LayerNorm(Fin)
其中:

  • W2W_2W2:升维全连接层的权重矩阵,作用是将SreducedS_{reduced}Sreduced的维度从C/rC/rC/r恢复至C;
  • Tanh\text{Tanh}Tanh:激活函数,输出范围为([-1,1]),相比ReLU能更精细地调节通道权重(支持对冗余特征的“抑制”,而非仅保留正值特征);

步骤4:残差融合——生成最终输出FoutF_{out}Fout
为避免特征在“挤压-激励”过程中丢失原始信息,MSEF模块引入残差连接(Residual Connection) :将经深度卷积(DWConv)处理的归一化特征,与SexpandedS_{expanded}Sexpanded相乘,最终得到模块输出FoutF_{out}Fout。深度卷积的作用是进一步提取局部空间特征,与全局通道特征SexpandedS_{expanded}Sexpanded形成互补。
Fout=DWConv(LayerNorm(Fin))⋅Sexpanded+Fin(6)F_{out} = \text{DWConv}\left(\text{LayerNorm}\left(F_{in}\right)\right) \cdot S_{expanded} + F_{in} \quad (6)Fout=DWConv(LayerNorm(Fin))Sexpanded+Fin(6)

3. 损失函数

为全面优化图像质量,LYT-Net采用混合损失函数,通过超参数α1−α5\alpha_1-\alpha_5α1α5平衡各损失分量:
L=LS+α1LPerc+α2LHist+α3LPSNR+α4LColor+α5LMS−SSIML=L_{S}+\alpha_{1} L_{Perc}+\alpha_{2} L_{Hist}+\alpha_{3} L_{PSNR}+\alpha_{4} L_{Color }+\alpha_{5} L_{MS-SSIM} \quad L=LS+α1LPerc+α2LHist+α3LPSNR+α4LColor+α5LMSSSIM

  • LSL_SLS(Smooth L1损失):处理异常值,根据预测与真实值差异施加二次/线性惩罚;
  • LPercL_{Perc}LPerc(感知损失):对比VGG提取的特征图,保证特征一致性;
  • LHistL_{Hist}LHist(直方图损失):对齐预测与真实图像的像素强度分布;
  • LPSNRL_{PSNR}LPSNR(PSNR损失):通过惩罚均方误差减少噪声;
  • LColorL_{Color}LColor(颜色损失):最小化通道均值差异,保证颜色保真度;
  • LMS−SSIML_{MS-SSIM}LMSSSIM(多尺度SSIM损失):跨尺度评估相似度,保留图像结构完整性。

各子损失函数的权重超参数,用于平衡不同损失分量对总损失的贡献,文档中明确设置为α1=0.06\alpha_{1}=0.06α1=0.06α2=0.05\alpha_{2}=0.05α2=0.05α3=0.5\alpha_{3}=0.5α3=0.5α4=0.0083\alpha_{4}=0.0083α4=0.0083α5=0.25\alpha_{5}=0.25α5=0.25

三、实验结果

1、定量实验:性能与复杂度双维度对比

在这里插入图片描述
定量实验以“性能领先性”与“轻量化优势”为核心目标,将LYT-Net与14种现有SOTA LLIE方法(如Restormer、MIRNet、Retinexformer等)在LOL系列数据集上进行对比,实验结果以表格形式呈现,关键结论如下:

性能领先性:PSNR与SSIM全面优于多数SOTA方法
在LOL三个数据集版本中,LYT-Net的PSNR与SSIM指标均处于前列,具体表现为:

  • LOL-v1数据集:LYT-Net的PSNR达27.23 dB、SSIM达0.853,超过Retinexformer(PSNR=27.14 dB、SSIM=0.850)、SNR-Net(PSNR=26.72 dB、SSIM=0.851)等方法,仅在SSIM上与Restormer(SSIM=0.853)持平;
  • LOL-v2-real数据集:LYT-Net的PSNR为27.80 dB、SSIM为0.873,显著优于Retinexformer(PSNR=27.69 dB、SSIM=0.856)、MIRNet(PSNR=27.17 dB、SSIM=0.865),是该数据集上PSNR与SSIM双指标最优的模型;
  • LOL-v2-synthetic数据集:LYT-Net的PSNR达29.38 dB、SSIM达0.940,略高于SNR-Net(PSNR=27.79 dB、SSIM=0.941)与Retinexformer(PSNR=28.99 dB、SSIM=0.939),在PSNR上表现最优。

轻量化优势:复杂度远低于其他高性能方法
定量实验同时对比了各模型的计算复杂度(FLOPS,浮点运算次数)与参数数量(Params),LYT-Net的轻量化特性尤为突出:

  • 计算复杂度:LYT-Net仅需3.49G FLOPS,远低于Restormer(144.25G FLOPS)、MIRNet(785G FLOPS)、SNR-Net(26.35G FLOPS)等方法,仅与3DLUT(0.075G FLOPS)处于同一轻量化级别;
  • 参数数量:LYT-Net仅含0.045M参数,不足Retinexformer(1.61M参数)的1/35、Restormer(26.13M参数)的1/580,是所有对比模型中参数最少的模型之一;
  • 性能-复杂度平衡:唯一与LYT-Net复杂度接近的3DLUT方法,其PSNR与SSIM指标显著低于LYT-Net(如LOL-v2-synthetic数据集上,3DLUT的PSNR=22.17 dB、SSIM=0.854,远低于LYT-Net的29.38 dB与0.940),证明LYT-Net在“高性能”与“低复杂度”之间实现了最优平衡。

2、定性实验

在这里插入图片描述
对比LYT-Net与KiND、Restormer、MIRNet、SNR-Net等方法的增强结果,发现其他方法普遍存在明显缺陷,而LYT-Net表现更优:

  • 颜色失真问题:KiND、Restormer方法增强后的图像存在明显偏色(如肤色偏黄、场景色调失衡),而LYT-Net能精准还原图像原始颜色,与“Ground Truth(真实图像)”色调一致;
  • 过曝/欠曝问题:MIRNet、SNR-Net在增强低光区域时,易导致高光区域过曝(如灯光区域泛白、细节丢失)或阴影区域欠曝(如暗部仍存在大量噪声与细节模糊),LYT-Net则能均匀调整图像亮度,避免极端曝光问题;
  • 细节保留能力:通过放大图像中的纹理区域(如衣物纹理、文字细节),可见LYT-Net在消除低光噪声的同时,能完整保留细微结构,而其他方法要么噪声残留明显,要么过度平滑导致细节丢失。

四、总结

本文针对低光图像增强(LLIE)任务中“高性能模型复杂度高、轻量化模型效果差”的痛点,提出了轻量级YUV Transformer网络LYT-Net,核心思路主要是采用了双路径YUV分离处理架构。通过模块创新(CWD、MSEF)与架构优化(YUV双路径),首次在LLIE任务中实现“0.045M参数+SOTA性能”的平衡,为低光图像增强的移动端、实时部署场景提供了可行方案。

  • 本文复现效果其实指标没有那么高。。。

感谢阅读,欢迎留言或私信,一起探讨和交流。
如果对你有帮助的话,也希望可以给博主点一个关注,感谢。

http://www.xdnf.cn/news/20610.html

相关文章:

  • 消息队列的可靠性、顺序性怎么保证?
  • PaddlePaddle——飞桨深度学习实现手写数字识别任务
  • 从0到1学习Vue框架Day01
  • PNG和JPEG和BMP文件格式转换
  • Ansible题目全解析与答案
  • 棱镜的技术加持:线扫相机如何同时拍RGB和SWIR?
  • 【开题答辩全过程】以 校园二手货物交易平台为例,包含答辩的问题和答案
  • Spring AI Tool 实现自然语言操作MySql数据库操作详解
  • postman接口功能测试
  • 技术演进中的开发沉思-93 Linux系列:启动流程
  • 开放式LLM的崛起:未来已至
  • JavaScript笔记之JS 和 HTML5 的关系
  • 跨域解决方案——CORS学习了解
  • B.20.10.06-高并发系统设计电商应用
  • 五.贪心算法
  • linux内核 - 获取内核日志时间戳的方法
  • 联邦学习常见模型
  • ChatGPT 协作排查:Node.js 内存泄漏的定位与修复
  • JavaScript 结构型模式详解
  • stl--保研机试极限复习
  • 网易UU远程,免费电脑远程控制软件
  • 计算机网络学习(七、网络安全)
  • leetcode 1304. 和为零的 N 个不同整数 简单
  • LeetCode 面试经典 150 题:合并两个有序数组(双指针解法详解)
  • 【如何导出qemu模拟的设备树文件】
  • SC3336 rgb sensor linux
  • 初探 Autogen:用多智能体实现协作对话
  • Photoshop - Photoshop 创建图层蒙版
  • 吴恩达机器学习(十)
  • 《云原生配置危机:从服务瘫痪到韧性重建的实战全解》