当前位置: 首页 > news >正文

Saliency Driven Perceptual Image Compression阅读

2021 WACV

创新点

常用的评估指标如MS-SSIM和PSNR不足以判断压缩技术的性能,它们与人类对相似性的感知不一致(2和3的MS-SSIM更高,但文字反而没那么清晰)。

考虑显著区域的压缩(a)将更多的比特分配给显著区域(b)为它们的重建赋予更高的权重。

不同相似度感知指标

人类主观评估(Setup for Human Evaluations)

在高比特率下,图像可能非常相似,配备了同步放大镜以便比较细节。

使用四种不同的压缩方法进行对比:

以及四个bit-rate下的情况进行组合对比,共收集20064=4800个样本。又分为3840个训练集和960个测试集。

每个样本要6个不同的人进行标注,共4800*6=28800个标注。

深度感知度量(Deep Perceptual Metric)

据观察,相比直接在像素层面比较差异的MS-SSIM和PSNR,来自深度CNNS的激活是更好的感知相似性指标。

用预训练的分类网络(如VGG-16)分别提取原图x和重建图x^的多层次特征F()。

多层特征分别进行通道上的归一化和做差得到特征图差异Δz。

通过排序损失得到通道权重w,赋予回差异特征中。

计算L2范数并进行平均,再进行多层的汇总。

不同度量指标与人类视觉相似性

输入一组图像对(含原图、两种重建图),分别用实验者人工和某个指标(PSNR,SSIM…)判断哪张图更像原图,然后比较两者判断是否一致,最终用一致比例定义2AFC得分。

可以看到PSNR和MS-SSIM与人类视觉感知差异较大。

Pipeline

显著性掩码s由现成的对象显著性模型预测,si∈{0,1}。

Encoder

输入图像x分别经过编码器E1和预训练的显著性模型得特征y和s。

小tips:y的维度为(C+1,H/8,W/8),学习一个多余的通道用来代表重要性。

为了使用感知驱动的压缩,融合任务驱动的重要性图i和视觉感知的显著性图s,当作掩码进行特征优化。

Hierarchical Auto-Regressive Model

Stage特征表示编码器编码方式解码器
Stage 1y/ Encoder1条件自回归建模ż作为条件)Decoder1
Stage 2z/ żEncoder2独立自回归建模Decoder2

第一阶段

利用第二阶段的信息构建条件概率模型。

第二阶段

第二阶段的目标是学习有助于压缩第一阶段表示的辅助功能。

没有说怎么进行masking,可能直接把最后一维的信息当作重要性掩码,但没有加上显著性信息。

联合优化

保存两个bit流,并用显著性掩码尽量保留显著性区域的保真度。

Loss

对于显著性区域和非显著性区域的损失使用不同的权重。

实验

在Kodak数据集上的定性对比,所提出的方法能更好的保留细节(嘴唇的线条,眼睛周围的黄色圆圈)。

在Kodak数据集上的定量对比,所提出的方法能够获得较好的视觉亲和度(尤其是低bpp下)。

在下游的物体检测和实例分割应用上也有最好的性能。

http://www.xdnf.cn/news/83431.html

相关文章:

  • 如何解决消费者高频触发订单更新?
  • ProxySQL 的性能优化需结合实时监控数据与动态配置调整
  • pip install torchsummary报错
  • 5个Go接口常见错误及避免方法
  • 机器学习基础 - 分类模型之逻辑回归
  • 是否可以使用非被动 S4P 文件进行反嵌?
  • Redis—内存淘汰策略
  • Nginx:前后端分离配置(静态资源+反向代理)
  • AI算子开发是什么
  • CMake
  • 第48讲:空间大数据与智慧农业——时空大数据分析与农业物联网的融合实践
  • 数据库介绍
  • Eureka、LoadBalance和Nacos
  • 作为一个创业团队,Neo4j、Nebula Graph、HugeGraph‌、AllegroGraph‌等几款图数据库哪款更合适?
  • 【漫话机器学习系列】215.处理高度不平衡数据策略(Strategies For Highly Imbalanced Classes)
  • AI写代码之GO+Python写个爬虫系统
  • 基于 PaddleOCR对pdf文件中的文字提取
  • 深度学习4月22笔记
  • [翻译]从 unique 到 cleanups 和 weak:高效的新底层工具
  • 生产环境大数据平台权限管理
  • Neo4j 可观测性最佳实践
  • Vue指令详解:从入门到精通
  • BBR 的 minRTT 采集问题
  • 二叉树层序遍历技术解析与面试指南
  • 根据极点-零点分布进行状态空间模型降阶
  • 火山RTC 5 转推CDN 布局合成规则
  • 2024年ESWA SCI1区TOP:量子计算蜣螂算法QHDBO,深度解析+性能实测
  • 【简单学习】llamaindex环境搭建以及构建RAG
  • 真实趋势策略思路
  • 高并发秒杀使用RabbitMQ的优化思路