Saliency Driven Perceptual Image Compression阅读
2021 WACV
创新点
常用的评估指标如MS-SSIM和PSNR不足以判断压缩技术的性能,它们与人类对相似性的感知不一致(2和3的MS-SSIM更高,但文字反而没那么清晰)。
考虑显著区域的压缩(a)将更多的比特分配给显著区域(b)为它们的重建赋予更高的权重。
不同相似度感知指标
人类主观评估(Setup for Human Evaluations)
在高比特率下,图像可能非常相似,配备了同步放大镜以便比较细节。
使用四种不同的压缩方法进行对比:
以及四个bit-rate下的情况进行组合对比,共收集20064=4800个样本。又分为3840个训练集和960个测试集。
每个样本要6个不同的人进行标注,共4800*6=28800个标注。
深度感知度量(Deep Perceptual Metric)
据观察,相比直接在像素层面比较差异的MS-SSIM和PSNR,来自深度CNNS的激活是更好的感知相似性指标。
用预训练的分类网络(如VGG-16)分别提取原图x和重建图x^的多层次特征F()。
多层特征分别进行通道上的归一化和做差得到特征图差异Δz。
通过排序损失得到通道权重w,赋予回差异特征中。
计算L2范数并进行平均,再进行多层的汇总。
不同度量指标与人类视觉相似性
输入一组图像对(含原图、两种重建图),分别用实验者人工和某个指标(PSNR,SSIM…)判断哪张图更像原图,然后比较两者判断是否一致,最终用一致比例定义2AFC得分。
可以看到PSNR和MS-SSIM与人类视觉感知差异较大。
Pipeline
显著性掩码s由现成的对象显著性模型预测,si∈{0,1}。
Encoder
输入图像x分别经过编码器E1和预训练的显著性模型得特征y和s。
小tips:y的维度为(C+1,H/8,W/8),学习一个多余的通道用来代表重要性。
为了使用感知驱动的压缩,融合任务驱动的重要性图i和视觉感知的显著性图s,当作掩码进行特征优化。
Hierarchical Auto-Regressive Model
Stage | 特征表示 | 编码器 | 编码方式 | 解码器 |
---|---|---|---|---|
Stage 1 | y / ẏ | Encoder1 | 条件自回归建模(ż 作为条件) | Decoder1 |
Stage 2 | z / ż | Encoder2 | 独立自回归建模 | Decoder2 |
第一阶段
利用第二阶段的信息构建条件概率模型。
第二阶段
第二阶段的目标是学习有助于压缩第一阶段表示的辅助功能。
没有说怎么进行masking,可能直接把最后一维的信息当作重要性掩码,但没有加上显著性信息。
联合优化
保存两个bit流,并用显著性掩码尽量保留显著性区域的保真度。
Loss
对于显著性区域和非显著性区域的损失使用不同的权重。
实验
在Kodak数据集上的定性对比,所提出的方法能更好的保留细节(嘴唇的线条,眼睛周围的黄色圆圈)。
在Kodak数据集上的定量对比,所提出的方法能够获得较好的视觉亲和度(尤其是低bpp下)。
在下游的物体检测和实例分割应用上也有最好的性能。