当前位置: 首页 > news >正文

【论文阅读】RestorerID: Towards Tuning-Free Face Restoration with ID Preservation

人脸恢复在严重退化情况下(如重度模糊或压缩)仍难以有效保留身份信息。现有参考引导方法(如基于对齐或个性化调优的方案)存在精度不足耗时过长的问题。为此,本文提出RestorerID,一种基于扩散模型的无调优方法,通过以下创新实现身份信息与图像质量的双重保障:

  1. 统一框架设计
    将身份注入与基础盲恢复模型结合,通过独立提取低质量(LQ)图像的结构特征和参考图像的身份特征,分别通过残差块(ResBlock)和注意力模块(Attention)注入扩散 UNet,确保特征融合无参数冲突。

  2. FIR-Adapter 模块
    针对 LQ 与参考图像因光照、姿态差异导致的内容不一致轮廓错位,设计自适应平衡模块,通过特征交互增强潜在表示,减少信息冲突。

  3. 自适应 ID 比例调整策略
    根据退化程度动态调整身份注入强度,确保在不同退化场景下均能生成最优结果。

参考引导方法的局限

  • 基于对齐的方法(如 ASFFNet、DMDNet)依赖精确对齐,易受姿态差异影响,导致融合效果不佳。

  • 无对齐方法(如 PFStorer)通过个性化模型学习身份表示,避免对齐,但需耗时调优(单身份超 10 分钟 + 3-5 张图),且存在隐私风险。

核心挑战与解决方案

挑战 1:结构与身份信息的融合

  • LQ 图像提供结构信息,参考图像提供身份信息,需在统一框架中精准提取并注入,避免特征混淆。
  • 解决方案:采用独立空间模型和身份模型,通过 ResBlock 和注意力模块分别注入扩散 UNet,实现特征并行融合。

挑战 2:信息冲突的平衡

  • LQ 与参考图像因姿态、光照差异产生冲突,直接注入身份信息会破坏结构。
  • 解决方案:设计 FIR-Adapter 模块,通过特征交互动态平衡两类信息,避免轮廓错位和内容失真。

RestorerID 的创新点

  • 扩散模型驱动:利用 UNet 的多尺度特征处理能力,结合残差和注意力机制实现精细化恢复。

  • 自适应策略:根据退化程度调整 ID 注入强度,确保鲁棒性。

  • 无调优与无对齐:相比 PFStorer,无需个性化训练,显著提升效率和隐私保护。

表 1 对比显示,RestorerID 是唯一同时满足无调优无对齐高保真恢复的方法。其核心贡献包括:

  • 提出统一框架,实现多退化场景下的身份保留与高质量恢复。

  • 设计 FIR-Adapter 和自适应策略,有效解决信息冲突和退化差异问题。

  • 实验验证在多数据集上超越 SOTA,尤其在严重退化场景中表现突出。

3. Method

RestorerID 的核心是一个融合参考图像身份先验的人脸恢复框架,主要包含 5 个关键组件:

  • Stable-Diffusion(SD)UNet:作为基础扩散模型,负责图像去噪和恢复的主过程;
  • LQ 空间模型(LQ Spatial Model):提取低质量(LQ)图像的多尺度结构特征(\(F_{lq}\)),支撑基础恢复任务;
  • ID 模型(ID Model):从参考图像中提取身份特征(\(F_{ref}\)),通过解耦交叉注意力(decoupled cross-attention)注入 UNet;
  • FIR-Adapter:位于 ResBlock 和 Attention 层之间,用于平衡结构信息与身份信息,解决冲突;
  • 自适应 ID 比例调整模块(Adaptive ID-Scale Adjusting):根据退化程度动态调节身份注入强度,优化恢复效果。

Preliminaries
  • Stable Diffusion 是一种基于扩散过程的生成模型,核心组件包括:

    • CLIP 文本编码器:提取文本嵌入(用于文本引导生成);
    • VAE(变分自编码器):含编码器(E)和解码器(D),E 将图像压缩到低维潜空间(\(z_t\)),D 从潜向量重建图像;
    • UNet:在扩散过程中预测噪声,优化目标为噪声预测损失:
  • 图像提示适配器(Image Prompt Adapter) 以 IP-Adapter [39] 为例,其通过解耦交叉注意力将图像嵌入(如身份特征)注入 SD 的 UNet:

Face Restoration Base Model

基础模型是身份保留恢复的核心支撑,需具备强盲恢复能力。

  • 模型构建 参考 PFStorer [28],将 SD 与 StableSR [30] 的 LQ 空间模型结合,重新训练以适配人脸恢复任务。优化目标为:

  • 合成退化数据 为生成高质量(HQ)- 低质量(LQ)训练对,采用二阶退化模型 [34],包含模糊、缩放、加噪、JPEG 压缩等退化步骤。为更贴近真实场景,额外通过 ISP 模型 [7] 将图像从 sRGB 域转换到 RAW 域后加噪,模拟相机成像的真实噪声生成过程。

ID Preservation

直接注入身份的问题 :参考图像与 LQ 图像可能存在姿态、表情、装饰差异,直接通过 IP-Adapter 注入身份嵌入会导致:

  1. 面部轮廓错位(如姿态不一致);
  2. 内容错误(如错误复制参考图像的细节,忽略 LQ 的结构)。 如图 3 所示,注入身份后,恢复结果的结构完整性反而下降。

FIR-Adapter 设计:为解决上述问题,设计人脸身份再平衡适配器(FIR-Adapter),通过特征交互平衡结构与身份信息,具体包含两个模块:

  1. ID 交叉注意力(ID Cross-Attention):让 LQ 结构特征 F_lq 与参考身份特征F_ref 交互

  2. AdaIn 适应模块:通过 LayerNorm 和卷积层生成增益 Gi 和偏置 Bi,线性增强潜码 xi 的细节与轮廓:

第二阶段训练 冻结基础模型(SD UNet、LQ 空间模型、ID 模型),仅训练 FIR-Adapter。训练时:

  • 输入 LQ 图像和参考图像作为条件;
  • 固定 ID 比例\(\lambda=0.75\);
  • 随机 dropout LQ 或参考图像,支持推理时的分类器 - free 引导(提升生成鲁棒性);
  • 损失函数为:
Adaptive ID-Scale Adjusting

ID 比例\(\lambda\)(控制身份注入强度)对恢复效果影响显著:

  • 轻度退化时,高\(\lambda\)易导致细节错误(如无中生有皱纹);
  • 重度退化时,低\(\lambda\)无法有效保留身份。

因此,需根据退化程度动态调整\(\lambda\),规则为:退化越严重,\(\lambda\)越大

  • 退化程度量化 采用 MUSIQ metric [12]:值越高,退化越轻;值越低,退化越重。

  • \(\lambda\)计算公式 通过实验拟合最优\(\lambda\)与 MUSIQ 的关系:

Experiments

本章通过系统的实验验证了 RestorerID 的有效性,包括实验设置、性能对比与消融研究,全面评估其在不同退化场景下的表现。

Experimental Settings
  • Datasets

    • 训练集
      • 基础模型训练:使用 FFHQ [11](高质量人脸)和 VGGFace2 [2](多身份人脸);
      • FIR-Adapter 训练:从 VGGFace2 和 Celeb-Ref [16] 中筛选 9,384 个身份,每个身份 5-40 张图像,并用 ArcFace [5] 过滤低质量图像。
    • 测试集
      • 合成数据:从 Celeb-Ref 剩余数据中选 50 个身份,每个身份 2 张图(1 张作为真值,1 张作为参考图),生成轻度和重度两种退化的 LQ 图像;
      • 真实世界数据:从互联网收集 20 个身份的 LQ 和 HQ 图像,验证实际场景性能。
  • Implement Details

    • 基于 Stable Diffusion v1.5-base 构建;
    • 训练:基础模型迭代 60,000 次,FIR-Adapter 迭代 30,000 次,批次大小 16,优化器 AdamW [19],学习率 5×10⁻⁵;
    • 硬件:2 块 NVIDIA 48G-A6000 GPU,训练分辨率 512×512;
    • 推理:采用 DDIM [25] 采样(50 步),分类器 - free 引导(λcfg=7.5)。
  • Evaluation Metrics

    • 图像质量:PSNR(峰值信噪比,越高越好)、SSIM(结构相似性,越高越好)、LPIPS [42](感知相似度,越低越好)、MUSIQ [12](图像质量评分,越高越好);
    • 结构与身份:LMSE(关键点 MSE,越低越好,衡量轮廓一致性)、ID(ArcFace [5] 余弦相似度,越高越好,衡量身份保留)。
  • Comparing Methods

    • 参考引导方法:ASFFNet [15]、DMDNet [17](需对齐)、PFStorer [28](测试调优,用 5 张参考图);
    • 盲恢复方法:CodeFormer [45]、DR2 + SPAR [35](无参考)。
Performance Comparison
  • Quantitative
    表 2 显示,RestorerID 在不同退化场景下的核心优势体现在身份保留(ID 指标) 上:

    • 轻度退化:ID 指标领先,PSNR(26.03)等质量指标处于前列;
    • 重度退化:ID 指标达 0.548,远超第二名(0.473)0.075,证明其在极端退化下仍能精准保留身份;
    • 补充说明:盲恢复方法(如 DR2+SPAR)在 SSIM 上表现更好,但 SSIM 侧重结构清晰度,忽略面部细节自然度和身份保真度,而 RestorerID 在视觉质量与身份保留的平衡上更优。
  • Qualitative

    • 重度退化场景(图 6):当 LQ 图像因模糊(如眼、鼻特征丢失)难以识别时,RestorerID 恢复的人脸在身份细节(如眼部轮廓、鼻梁形状)上比盲恢复方法更精准,且优于 PFStorer(减少 artifacts);
    • 真实世界场景(图 7):RestorerID 在身份保留和图像质量上均领先,而对比方法(如 CodeFormer、PFStorer)存在细节失真或 artifacts(如面部区域扭曲)。

Ablation Studies

通过逐步添加组件,验证各模块的必要性:

  • 核心组件有效性(表 3):

    • 仅基础模型:ID 指标低(重度退化 0.401),无法保留身份;
    • 基础模型 + ID 注入:ID 指标提升(重度退化 0.557),但图像质量下降(如 LMSE 升高);
    • 基础模型 + ID 注入 + FIR-Adapter:平衡质量与身份(轻度退化 ID 达 0.859,重度退化 LMSE 从 5.635 降至 4.427);
    • 全模型(+AIDSA):效果最优,自适应策略进一步优化不同退化下的表现(图 9 显示减少内容不一致,如红 / 蓝框标注的细节错误)。
  • 两阶段训练的必要性(表 4):

    • 单阶段训练(同时训练基础模型和 FIR-Adapter)性能全面劣于两阶段训练:重度退化下 ID 指标 0.470(vs 两阶段 0.548),LMSE 4.626(vs 两阶段 4.348);
    • 原因:两阶段训练分别专注于盲恢复能力(基础模型)和信息平衡(FIR-Adapter),避免参数冲突;单阶段训练易导致面部细节(如胡须、眼睛)失真(图 10)。

http://www.xdnf.cn/news/1287595.html

相关文章:

  • 【游戏优化笔记】开发中如何减少建筑和树木等环境元素的资源消耗?
  • 【跨服务器的数据自动化下载--安装公钥,免密下载】
  • 【CSS3】录音中。。。
  • 【oracle闪回查询】记录字段短时间被修改的记录
  • 【AI绘画】Stable Diffusion webUI 常用功能使用技巧
  • css之再谈浮动定位float(深入理解篇)
  • react+vite来优化下每次使用hook函数都要引入的情况
  • React (react-amap)高德地图使用(加标记、缩放、缩略图)
  • 荣耀手机无法连接win11电脑,错误消息:“无法在此设备上加载驱动程序 (hn_usbccgpfilter.sys)。”解决方案
  • OBOO鸥柏丨智能会议平板教学查询一体机交互式触摸终端招标投标核心标底参数要求
  • SQL Server增加对UTF-8的支持
  • Baumer高防护相机如何通过YoloV8深度学习模型实现纸箱的实时检测计数(C#代码UI界面版)
  • 谷歌ADK接入文件操作MCP
  • 力扣47:全排列Ⅱ
  • 基于Python的《红楼梦》文本分析与机器学习应用
  • 力扣 hot100 Day71
  • vivo Pulsar 万亿级消息处理实践(2)-从0到1建设 Pulsar 指标监控链路
  • [激光原理与应用-254]:理论 - 几何光学 - 自动对焦的原理
  • 数据结构:中缀到后缀的转换(Infix to Postfix Conversion)
  • Flutter GridView的基本使用
  • Java 工厂方法模式
  • 【项目设计】高并发内存池
  • 北京-4年功能测试2年空窗-报培训班学测开-第七十四天-线下面试-聊的很满意但可能有风险-等信吧
  • cuda排序算法--双调排序(Bitonic_Sort)
  • web前端第二次作业
  • 开发避坑指南(23):Tomcat高版本URL特殊字符限制问题解决方案(RFC 7230 RFC 3986)
  • TF-IDF:信息检索与文本挖掘的统计权重基石
  • 多奥电梯智能化解决方案的深度解读与结构化总结,内容涵盖系统架构、功能模块、应用场景与社会价值四大维度,力求全面展示该方案的技术先进性与应用前景。
  • Agent智能体基础
  • vue3大事件