当前位置：首页 > ops >正文

【LLIE专题】SIED：看穿0.0001lux的极致黑暗

ops 2025/9/7 9:21:10

在这里插入图片描述

SIED：看穿0.0001lux的极致黑暗（2025）

专题介绍
一、研究背景
二、方法细节
- 2.1 See-in-the-Extremely-Dark Dataset
- 2.2 模型方法
- 2.3 网络训练
三、实验论证
四、总结和思考

本文将对《Learning to See in the Extremely Dark》这篇文章进行解读。该论文提出了一种配对到配对的数据合成方案，组成一个名为“See-in-the-Extremely-Dark, SIED”的大规模配对数据集。并提出了一种基于扩散模型的框架，能够从极低信噪比的RAW输入中恢复视觉上令人满意的结果。
参考资料如下：
[1]. SIED论文地址
[2]. 源码地址

专题介绍

在低光照环境下，传统成像设备往往因画面昏暗、细节丢失而受限。LLIE（低照度暗光增强）技术应运而生，它通过提升图像亮度、对比度，减少噪点并恢复色彩细节，让暗夜变得清晰可见。

LLIE技术从传统方法如直方图均衡化、Retinex模型等起步，近年来借助深度学习，尤其是卷积神经网络（CNN），GAN模型，扩散模型实现了质的飞跃。这些算法能自动学习图像特征，精准处理低光照图像，效果显著优于传统技术。

本专题将聚焦LLIE技术的核心原理、应用案例及最新进展，让我们一起见证LLIE如何点亮暗夜，开启视觉新视界！欢迎一起探讨交流！

系列文章如下
【1】ZeroDCE
【2】HVI
【3】CLIP-LIT
【4】GLARE
【5】Retinexformer
【6】SG-LLIE
【7】GPP-LLIE
【8】FusionNet
【9】EnligtenGAN
【10】PTG
【11】CSNorm
【12】SG-LLIE结构提取方案
【13】SAIGFormer
【14】BEM
【15】语义感知知识引导的LLIE

一、研究背景

从低光观察中恢复高质量清晰图像是一项具有挑战性的任务，因为它即要提高全局和局部亮度对比度，还需要抑制放大的噪声并保证细节和颜色准确性。

现有的低光RAW图像增强方法在极暗场景（环境照度低至0.0001勒克斯）下的表现仍有待探索，这主要是由于缺乏相应的数据集。现有数据集通常只提供粗略的照度水平（SID数据集中，室内0.2-5.0lux，室外0.03-0.3lux），缺乏在更暗场景下捕获的数据。同时，在真正极端的黑暗条件下，通过长时间曝光获得GT图像不太现实，会导致残余噪声和运动模糊。

另一方面，大部分LLIE方案都是在RGB域做处理，比较方便，应用更广泛，但会损失不少原始信息；Raw-based的方案相比之下就少很多了，但该路径更有利于实现极暗场景效果的效果突破，因为raw数据具备更多信息。

该论文在数据集和raw-based模型上均做出了一些创新，其关键点可提炼如下：

新型数据合成管道：提出了一种"配对到配对"的数据合成pipeline，能够生成三个精确照度范围（0.01-0.1lux、0.001-0.01lux和0.0001-0.001lux）的极低光RAW图像，以及对应的高质量sRGB参考图像，形成了大规模SIED数据集。
基于扩散的框架：提出了一种基于扩散模型的多阶段框架，利用扩散模型的生成能力和内在去噪特性，从极低信噪比的RAW输入中恢复视觉上令人满意的结果。
自适应光照校正模块(AICM)：设计了一个简单而有效的自适应光照校正模块，能够从低光RAW特征中估计放大系数，在潜在空间中进行光照校正，避免扩散过程中的曝光偏差，获得更好的恢复结果。
颜色一致性损失：提出了一种基于颜色直方图的颜色一致性损失，优化生成sRGB特征的颜色直方图与编码参考sRGB特征的对齐，促进扩散模型生成具有准确颜色映射的重建sRGB特征。

二、方法细节

2.1 See-in-the-Extremely-Dark Dataset

巧妇难为无米之炊，众所周知，要想模型训练好，高质数据不能少。

既然要做extremely dark增强，就得先有extremely dark dataset。这数据集采集制作难度不小，而该论文提出了一种数据仿真新方案。
总共分为三大步：

step1——专业光学实验室extremely dark数据采集

使用Sony α7RIII和Canon EOS R相机，在具有可控光源和专业照度计(PHOTO-2000μ)的光学实验室中进行标准extremely dark数据采集以作为基准，共捕获了三个精确照度范围的低光RAW图像(0.01-0.1 lux、0.001-0.01 lux、0.0001-0.001 lux)

在这里插入图片描述

step2——真实场景的成对数据采集

主要收集成对的lowlight raw数据和normal light sRGB数据，两者曝光差覆盖20-200倍之间。每个场景都会调整光圈、ISO、焦距等参数，并配合三脚架和远程控制，使得sRGB数据的质量尽量高。并对原分辨率进行裁剪，最终每个照度子集有1680对数据。

step3——数据对合成

首先做光照对齐，由于RAW图像中的光照信息与光子强度线性相关。于是可以使用实验室标准数据的曝光量 $IstI_{\text{st}}$ 来调整实景中的低光数据 $IcapI_{\text{cap}}$ ，得到合成后的低光数据 $IsynI_{\text{syn}}$ ，调整公式如下：
$Isyn=Icap⋅(Expo⁡(Ist)Expo⁡(Icap)+η)I_{\text{syn}} = I_{\text{cap}} \cdot (\frac{\operatorname{Expo}(I_{\text{st}})}{\operatorname{Expo}(I_{\text{cap}})} + \eta)$
其中， $Expo⁡(.)\operatorname{Expo}(.)$ 是计算Bayer通道的平均值，用来表征照度信息， $η\eta$ 是手动调整的因子。

通过这种方式来模拟真实的光照退化，使合成图像与实验室标准数据的三个照度范围上保持一致。

这里乍一看没啥问题，但实际光照条件很多事不均匀的，单靠一个全局曝光量难以衡量真实局部照度水平。且这种处理方式可能会导致过曝区域发灰

然后做噪声添加，先估计两款相机传感器的噪声模型，拟合不同ISO值下的高斯和泊松噪声分布。但作者认为极低照度下，噪声分布不应是纯P+G模型（这点表示认同），于是采集黑帧来校正高斯噪声，用于补充难以显示建模的噪声类型，以更好地满足现实噪声分布特点。

所以，最终噪声模型是高斯、泊松和黑帧分布的组合。

实际添加噪声过程中，还需要考虑ISO大小，

对于0.01-0.1 lux和0.001-0.01 lux：ISO设置范围100-20,000
对于0.0001-0.001 lux：ISO设置范围100-40,000

为了进一步细化光照，采用固定的ISP pipeline将生成的RAW图像和标准图像转换到YUV空间，手动微调 $η$ 参数，使两幅图像在Y通道(代表图像光照信息)的光照直方图匹配。如下表所示，生成图像与标准实验室图像的直方图分布的平均KL散度在三个照度水平上都小于0.06，说明分布很接近。

在这里插入图片描述
总之，一顿操作后（可以配合下图进行理解），三个照度下都有了相匹配的合成低照度含噪raw图和正常光照sRGB图的数据对，由它们组成了SIED数据集，作者将1500对用于训练，180对用于评估。

2.2 模型方法

Raw域增强需要关注几个点：对比度增强，噪声抑制，细节重建和颜色复原准确性。

在这里插入图片描述

该方案的框架如上图所示，可以分为以下几个关键部分

使用RAW编码器 $Eraw(⋅)\mathcal{E}_{\text{raw}}(\cdot)$ 和sRGB编码器 $Ergb(⋅)\mathcal{E}_{\text{rgb}}(\cdot)$ 将输入的噪声RAW图像 $I_{raw}$ 和参考GT图像 $I_{rgb}$ 转换为潜在空间，分别表示为 $Fraw{\mathcal{F}}_{raw}$ 和 $Frgb{\mathcal{F}}_{rgb}$
将特征 $Frgb{\mathcal{F}}_{rgb}$ 作为扩散模型的输入执行前向扩散过程，同时将特征 $Fraw{\mathcal{F}}_{raw}$ 给到自适应光照校正模块(AICM)生成对比度改进的特征 $F^raw\hat{\mathcal{F}}_{\text{raw}}$ 。
在反向扩散过程中，精炼的RAW特征 $F^raw\hat{\mathcal{F}}_{\text{raw}}$ 作为指导，确保从噪声张量 $x_t$ 生成的sRGB特征 $F^rgb\hat{\mathcal{F}}_{\text{rgb}}$ 的内容一致性。
最后， $F^rgb\hat{\mathcal{F}}_{\text{rgb}}$ 送到sRGB解码器 $Drgb(⋅)\mathcal{D}_{rgb}(\cdot)$ 重建出最终结果 $I^rgb\hat{I}_{\text{rgb}}$

AICM模块

许多方案已表明，对lowlight图像做亮度预增强有助于提升最终效果，通常是参考正常光照的曝光量作为放大系数。但现实中，缺乏标准参考。另外，diffusion容易出现低频生成偏差，特别是在曝光方面。

因此，作者设计了AICM模块，用于从 $Fraw{\mathcal{F}}_{raw}$ 中估计放大系数，并在潜空间中进行光照校正。结构非常简单，需要注意的一点是，三个通道采用了不同放大系数。

为了确保预增强的 $F^raw\hat{\mathcal{F}}_{\text{raw}}$ 与输入的 $Fraw{\mathcal{F}}_{raw}$ 具有内容一致性，提出了基于retinex理论的光照校正损失：
$Licl=∥LF^raw−LF~raw∥1+∥RF^raw−RFraw∥1\mathcal{L}_{icl} = \| \mathbf{L}_{\hat{\mathcal{F}}_{raw}} - \mathbf{L}_{\tilde{\mathcal{F}}_{raw}} \|_1 + \| \mathbf{R}_{\hat{\mathcal{F}}_{raw}} - \mathbf{R}_{\mathcal{F}_{raw}} \|_1$

其中GT用的是常规照度Raw的编码特征（图中并未画出），L和R分别为照度图和反射率图。

Diffusion-based Raw2sRGB 重构

第二阶段采用了扩散模型，看重了其生成能力和去噪能力。包括两个部分，前向扩散和反向扩散。

前向扩散
编码的sRGB特征 $Frgb{\mathcal{F}}_{rgb}$ 作为扩散模型的输入，表示为 $x_0$ ，执行前向扩散过程，其实就是一个不断加噪的过程，通过参数重归一化，可以直接从输入 $x_0$ 获得 $x_t$ ，实际公式可简化为：
$xt=αˉtx0+1−αˉtϵt\mathbf{x}_t = \sqrt{\bar{\alpha}_t} \mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t} \boldsymbol{\epsilon}_t$
反向扩散
学习将随机噪声逐渐复原成符合目标sRGB分布的清晰结果。为了提高可控性，将预增强的 $F^raw\hat{\mathcal{F}}_{\text{raw}}$ 作为条件，来提升生成保真度。
在训练阶段，目标不是让模型能够准确预估标准高斯噪声，而是使用内容扩散损失 $L_{cdl}$ 进行优化，让模型以复原为主避免创造内容。确保增强后的图像与原始场景在内容上保持一致，而不是生成"看起来不错但内容错误"的图像。
$Lcdl=Ex0∼q(x0∣x~),t∼[1,T][∥x^0−x0∥1]\mathcal{L}_{cdl} = \mathbb{E}_{\mathbf{x}_0 \sim q(\mathbf{x}_0|\tilde{\mathbf{x}}), t \sim [1,T]} \left[ \left\| \hat{\mathbf{x}}_0 - \mathbf{x}_0 \right\|_1 \right]$

进一步，为了保证颜色一致性，将生成sRGB特征的颜色直方图 $HF^rgb\mathcal{H}_{\hat{\mathcal{F}}_{rgb}}$ 与编码参考sRGB特征的颜色直方图 $HFrgb\mathcal{H}_{{\mathcal{F}}_{rgb}}$ 对齐，公式如下
$Lccl=∑c∈[0,C)HF^rgbclog⁡(HF^rgbcHFrgbc+τ)\mathcal{L}_{ccl} = \sum_{c \in [0,C)} \mathcal{H}_{\hat{\mathcal{F}}^c_{rgb}} \log \left( \frac{\mathcal{H}_{\hat{\mathcal{F}}^c_{rgb}}}{\mathcal{H}_{\mathcal{F}^c_{rgb}} + \tau} \right)$
使用KL散度量化分布差异，因为颜色直方图主要捕捉整个图像中各种颜色的比例，不考虑空间排列。最后将生成的特征送给sRGB解码器，得到最终增强的图像。

2.3 网络训练

采用两阶段训练策略：

第一阶段：使用配对的低光RAW图像和参考正常光RAW/sRGB图像优化RAW编码器-解码器、sRGB编码器-解码器和AICM，同时冻结扩散模型的参数。优化目标为 $Lstage1=Lcon+Licl\mathcal{L}_{\text{stage1}} = \mathcal{L}_{\text{con}} + \mathcal{L}_{\text{icl}}$ 。
$Lcon=∑i={raw,rgb}∥Ii−Di(Ei(Ii))∥1\mathcal{L}_{\text{con}} = \sum_{i=\{\text{raw}, \text{rgb}\}} \left\| I_i - \mathcal{D}_i(\mathcal{E}_i(I_i)) \right\|_1$
其中 $Di(⋅)\mathcal{D}_i(\cdot)$ 是针对RAW数据的解码器，框图中未展示出Draw，主要是用于计算内容重建损失用的，保证raw特征的内容一致性。
第二阶段：通过 $Lstage2=Lcdl+λLccl\mathcal{L}_{\text{stage2}} = \mathcal{L}_{\text{cdl}} + \lambda \mathcal{L}_{\text{ccl}}$ 优化扩散模型，同时冻结其他模块的参数。扩散模型采用U-Net架构作为噪声估计网络，时间步长和采样步长分别设置为1000和20。

三、实验论证

实验方面，主要在提出的SIED数据集的Canon和Sony子集上进行实验，包含三种不同光照条件下的低光RAW图像（0.01-0.1lux、0.001-0.01lux和0.0001-0.001lux）。此外，也在SID数据集上进行了补充实验。

与现有的基于RAW的LLIE方法进行比较，包括单阶段方法（SID、DID、SGN、LLPackNet、RRT）和多阶段方法（LDC、MCR、DNF、RAWMamba）。采用两种常规指标（PSNR和SSIM）和一种感知指标（LPIPS）进行评估。

定量比较

在SIED数据集上，所提方法在各种光照条件下在失真指标和感知指标方面都达到了最先进的性能。
在SID数据集上，所提方法也在所有指标上优于之前的方案。

在这里插入图片描述
定性比较

单阶段方法存在颜色失真和意外伪影的问题。
其他多阶段模型呈现模糊细节、颜色偏差或噪声放大的问题。
相比之下，所提方法适当提高对比度、重建更清晰的细节、呈现生动的颜色并抑制噪声，产生视觉上令人满意的结果。

在这里插入图片描述

消融实验

训练策略：多阶段训练策略优于单阶段训练策略，因为早期训练阶段的编码特征不利于扩散模型学习目标分布，如表所示。不过在这个框架下，即使单阶段训练，效果也不赖。
AICM有效性：提出的AICM通过自适应曝光改进，相比固定放大因子实现了显著的PSNR性能提升，因为现实场景中的光照退化是多样且未知的。
颜色一致性损失：提出的 $L_{ccl}$ 有助于实现准确的颜色映射，特别是在结构相似性和感知质量方面。