当前位置：首页 > news >正文

【LUT技术专题】基于扩展卷积的极快速LUT算法

news 2025/7/3 16:14:50

在这里插入图片描述

ECLUT：Efficient Look-Up Table from Expanded Convolutional Network for Accelerating Image Super-resolution（2024 AAAI）

专题介绍
一、研究背景
二、ECLUT方法
- 2.1 EC模块
- 2.2 ECConv感受野的分析
- 2.3 放缩系数α
三、实验结果
四、总结

本文将从头开始对ECLUT: Efficient Look-Up Table from Expanded Convolutional Network for Accelerating Image Super-resolution，这篇基于扩展卷积的极快速LUT算法进行讲解。参考资料如下，本篇文章未开放源码：
[1]. ECLUT论文地址

专题介绍

Look-Up Table（查找表，LUT）是一种数据结构（也可以理解为字典），通过输入的key来查找到对应的value。其优势在于无需计算过程，不依赖于GPU、NPU等特殊硬件，本质就是一种内存换算力的思想。LUT在图像处理中是比较常见的操作，如Gamma映射，3D CLUT等。

近些年，LUT技术已被用于深度学习领域，由SR-LUT启发性地提出了模型训练+LUT推理的新范式。
本专题旨在跟进和解读LUT技术的发展趋势，为读者分享最全最新的LUT方法，欢迎一起探讨交流。

系列文章如下：
【1】SR-LUT
【2】Mu-LUT
【3】SP-LUT
【4】RC-LUT

一、研究背景

ECLUT提出的原因是因为作者认为LUT推理的耗时主要来源于内存的访问，当前基于串并联的方法在削弱了访问LUT相比较计算的优势（cache有限），另一个问题是旋转累加的过程引入了更多的量化误差。因此提出了：
1）扩展卷积（expand Conv），跟RCLUT一样，是一个用于低成本提升RF大小的模块。
2）一个简单有效的scaling方法来减小旋转累计的量化误差，该方法的计算成本基本可以忽略不计。

作者给了一个图来表明自己方法的优势。

在这里插入图片描述

图中的方法都是老面孔了，可以看到ECLUT在LUT方法中是最快的，并且效果高于基线SRLUT，因此可知ECLUT是一个专门针对于速度优化的LUT方法。

二、ECLUT方法

ECLUT总体流程如下图所示，也是三步骤，训练、转换、测试。

在这里插入图片描述

从图（a）可以看到ECLUT的网络示意图跟SRLUT还是比较相像的，整体就一个LUT，也需要旋转推理，跟SRLUT不同的点在于：

第一层的kernel_size，这里是只有1x2，相比较SRLUT来说是减少了2个点。
Expand Conv，扩展卷积，扩展卷积前面的Sub-pixel卷积其实就是pixel_shuffle模块，这部分是跟SRLUT一致的。
α加权系数，所有的输出需要经过一个alpha系数。

处理后的绿色框是ECLUT的感受野，整体比SRLUT的3x3来说大了不少。

2.1 EC模块

下图是EC模块的示意图。
在这里插入图片描述
首先输入经过Hidden layers将通道数变大，然后经过Sub-pixel Conv layer，即pixelshuffle，将通道数变成分辨率，完成超分，图中显示的是2倍的超分，然后经过Expanded Conv layer，即扩展卷积，扩展卷积实际上就是将k个不同的channels（这里可以理解为9个），往不同的方向去做偏移，比如说这里的红色是向左和向上偏移了2格，黄色是向上2格，其他同理，有9个方向，这样再相加这9个结果就可以将RF增大，当然偏移了的原位置需要进行padding，这样才可以使得feature map大小是不变的，作者也提到这个操作跟我们前面讲到的SPLUT中的聚合模块是有点相似的，只不过本文的方法方向是更多样的，SPLUT是只有横向和纵向。

2.2 ECConv感受野的分析

如下图所示。
在这里插入图片描述

一个1x2的感受野feature，在某一个旋转分支经过EC模块处理之后，感受野可以变成3*4=12个，再将他们相加就可以得到21了。为什么能够从RF=2转变到RF=12，大家可以将某一种旋转的情况进行9个方向的偏移，就可以得到12个感受野大小了。

2.3 放缩系数α

简单来说就是每一个旋转的结果缩小个4倍，即α=0.25，用以下公式表示。

$\mathbf{I}^{S R}(i, j)=\operatorname{clamp}\left(\operatorname{round}\left(\alpha \cdot \sum_{x \in \chi} x(i, j)\right)\right)$

其中α是放缩系数，round是四舍五入，clamp是clip的同义词，进行范围的限制到[0,255]。这里需要指出的是，这个跟以往LUT文章的方式存在本质区别，以往文章采用自集成策略进行训练和测试，因此也会使用到除以4（即乘以放缩系数α=0.25），区别在于以往的文章不会将这个过程中的量化误差考虑进去（以往的方法对8bit数据除以4，当然会损失精度），本文是考虑到了这个点，也给出了这个操作在8bit上的替代，这样可以进行量化训练，从而减小误差，即：

$\mathbf{I}^{S R}(i, j)=\operatorname{clamp}\left(\sum_{x \in \chi} x(i, j)+2)>>2\right)$

相当于将整型数加2，再右移2位可以基本复刻上面的乘以放缩系数再round的操作，这里大家可以编写一个简单的程序进行验证，两者是一样的，但是需要注意对半向上取整，即0.5需要为1。

import math
for x in range(0, 256):x1 = math.ceil(x * 0.25 - 0.49999999) #-0.5无法实现对半时向上取整，因此保留一个极小的小数x2 = (x + 2) >> 2if x1 != x2:print(x*0.25, x1, x2)  #实际无结果输出，证明全部一致

三、实验结果

在这里插入图片描述

定量的实验结果显示：ECLUT有最快的推理速度和较基线SRLUT更好的指标，不过因为它的输出维度较多且精度较高，因此它的size也会比较大，9MB=256 * 256 * 16 * 9 / 1024 / 1024，作者对于2个点的LUT查询是全精度查询，因此没有插值的过程，这也能解释了为何ECLUT推理速度会很快。

在这里插入图片描述