【AI论文】VisualQuality-R1:通过强化学习进行推理诱导的图像质量评估
摘要:DeepSeek-R1在通过强化学习激励大型语言模型(LLM)的推理和泛化能力方面表现出了显著的效果。 然而,在图像质量评估(IQA)的背景下,推理诱导的计算建模的潜力尚未得到充分探索,而图像质量评估是一项严重依赖于视觉推理的任务。 在本文中,我们介绍了VisualQuality-R1,这是一种推理诱导的无参考IQA(NR-IQA)模型,我们使用强化学习对其进行训练,这是一种针对视觉质量的内在相对性质量身定制的学习算法。 具体而言,对于一对图像,我们采用组相对策略优化来为每幅图像生成多个质量分数。 然后,这些估计值用于计算在瑟斯顿模型下,一张图像比另一张图像具有更高质量的比较概率。 每个质量估计的奖励是使用连续保真度度量而不是离散二进制标签定义的。 广泛的实验表明,所提出的VisualQuality-R1始终优于基于深度学习的判别式NR-IQA模型以及最近的一种推理诱导的质量回归方法。 此外,VisualQuality-R1能够生成上下文丰富的、与人类一致的质量描述,并支持多数据集训练,而无需感知尺度重新调整。 这些特性使得VisualQuality-R1特别适合可靠地测量各种图像处理任务的进度,如超分辨率和图像生成。Huggingface链接:Paper page,论文链接:2505.14460
研究背景和目的
研究背景
图像质量评估(Image Quality Assessment, IQA)是计算机视觉领域的一个重要研究方向,旨在量化数字图像的视觉质量,使其与人类的感知判断保持一致。IQA模型通常分为全参考(Full-Reference, FR)和无参考(No-Reference, NR)两种方法。全参考方法需要原始无失真图像作为参考,而无参考方法则在没有参考图像的情况下评估图像质量。在实际应用中,无参考IQA由于其更高的实用性和灵活性而受到更多关注。
近年来,随着深度学习技术的快速发展,基于深度学习的NR-IQA方法逐渐成为主流。然而,这些方法通常面临泛化能力不足的问题,尤其是在处理未见过的图像失真类型时。此外,传统的NR-IQA方法主要关注于从图像中提取“质量感知”特征,并通过回归或分类任务来预测图像质量,这种方法在处理复杂和多变的图像失真时显得力不从心。
另一方面,视觉语言模型(Vision-Language Models, VLMs)的兴起为NR-IQA提供了新的思路。VLMs能够整合多模态信息,理解低层次的图像失真(如噪声和模糊)以及高层次的感知属性(如美学和内容语义),从而生成更细致和泛化的质量描述。然而,现有的基于VLMs的NR-IQA方法主要依赖于监督微调(Supervised Fine-Tuning, SFT),这种方法存在几个关键限制:
- 标注成本高:构建信息丰富的质量描述需要大量的人力投入,使得标注过程既劳动密集又成本高昂。
- 过拟合风险:通过SFT训练的模型容易过拟合到训练数据中的偏见和特性,可能在预训练期间无意中遇到灾难性遗忘。
- 输出僵化:SFT通常产生过于僵化和模板化的输出,缺乏灵活性和多样性。
研究目的
针对上述问题,本文提出了VisualQuality-R1,一个推理诱导的无参考IQA模型,旨在通过强化学习排序(Reinforcement Learning to Rank, RL2R)算法来提升NR-IQA的泛化能力和性能。具体而言,本文的研究目的包括:
- 引入推理诱导机制:通过强化学习鼓励模型自动探索合理的推理路径,提升模型的泛化能力。
- 利用相对质量排名:将视觉质量视为一个内在相对的感知量,通过比较图像对之间的质量来训练模型,避免绝对质量估计的局限性。
- 生成上下文丰富的质量描述:使模型能够生成与人类感知一致且上下文丰富的质量描述,提供更细致的质量反馈。
- 支持多数据集训练:使模型能够在不需要感知尺度重新调整的情况下,在多个数据集上进行训练,提升模型的实用性和灵活性。
研究方法
模型架构
VisualQuality-R1基于预训练的VLM(本文使用Qwen2.5-VL-7B作为 backbone),通过RL2R算法进行微调。模型接收一个文本提示和一个图像作为输入,目标是生成一个范围在[1,5]内的标量质量分数,并附带一个逐步的推理过程。
强化学习排序算法
RL2R算法的核心在于使用组相对策略优化(Group Relative Policy Optimization, GRPO)来生成每个图像的多个质量预测,并使用瑟斯顿模型(Thurstone Model)来计算图像对之间的比较概率。具体步骤如下:
- 生成质量预测:对于每个训练批次中的图像,使用GRPO生成K个质量预测。
- 计算比较概率:根据瑟斯顿模型,计算每对图像之间一个图像质量高于另一个图像的比较概率。
- 定义奖励函数:使用连续保真度度量(Continuous Fidelity Measure)作为奖励函数,为每个质量预测提供精确的梯度信号。
- 策略更新:使用奖励函数更新策略,以最大化长期奖励。
实验设置
本文在多个数据集上进行了广泛的实验,包括合成失真数据集(如KADID-10K)和真实世界失真数据集(如BID、CLIVE等)。实验分为单数据集训练和多数据集训练两种场景,以评估模型在不同条件下的性能。
研究结果
单数据集训练结果
在单数据集训练场景下,VisualQuality-R1在多个数据集上均取得了显著优于传统NR-IQA方法和基于VLM的SFT方法的结果。具体而言,VisualQuality-R1在KADID-10K数据集上训练后,在零样本设置下对多个未见过的失真数据集进行了测试,结果显示其在斯皮尔曼等级相关系数(SRCC)和皮尔逊线性相关系数(PLCC)上均优于基线方法。
多数据集训练结果
在多数据集训练场景下,VisualQuality-R1通过结合KADID-10K和SPAQ两个数据集进行训练,进一步提升了模型的性能。实验结果表明,多数据集训练使VisualQuality-R1在多个数据集上的平均SRCC和PLCC均有所提高,验证了RL2R算法在多数据集训练中的有效性。
对比实验
本文还与多种先进的NR-IQA方法进行了对比实验,包括基于手工特征的方法、基于深度学习的方法以及基于VLM的方法。实验结果显示,VisualQuality-R1在多个数据集和失真类型上均取得了最优或次优的结果,验证了其强大的泛化能力和性能。
上下文丰富的质量描述
除了数值质量评分外,VisualQuality-R1还能够生成上下文丰富的质量描述。这些描述不仅提供了图像质量的总体评价,还详细解释了评分的原因,如图像的清晰度、色彩、对比度等方面。这种能力使得VisualQuality-R1在图像处理任务中具有更高的实用性和灵活性。
研究局限
尽管VisualQuality-R1在NR-IQA任务中取得了显著的性能提升,但仍存在一些局限性:
- 计算成本高:由于使用了强化学习排序算法和大量的质量预测生成,VisualQuality-R1在训练和推理过程中的计算成本较高。
- 推理时间长:生成多个质量预测和进行复杂的比较概率计算导致推理时间较长,可能不适用于对实时性要求较高的应用场景。
- 固定文本提示:目前VisualQuality-R1使用固定的文本提示进行所有图像的质量评估,这可能限制了模型在不同应用场景下的灵活性和准确性。
- 无参考设置:虽然无参考IQA具有更高的实用性,但在某些情况下,参考图像可能有助于更准确地评估图像质量。VisualQuality-R1目前仅支持无参考设置。
未来研究方向
针对VisualQuality-R1的局限性和NR-IQA领域的挑战,未来研究可以关注以下几个方面:
- 降低计算成本:探索更高效的算法和模型架构,以降低VisualQuality-R1在训练和推理过程中的计算成本。例如,可以使用模型压缩技术或分布式训练来加速训练过程。
- 缩短推理时间:通过优化质量预测生成和比较概率计算的算法,减少推理时间。例如,可以使用更高效的近似算法或并行计算技术来加速推理过程。
- 动态文本提示:研究如何根据不同的应用场景和图像特性动态生成文本提示,以提高模型的灵活性和准确性。例如,可以使用学习到的提示模板或动态模板选择机制来适应不同的图像处理任务。
- 参考辅助评估:探索在NR-IQA中引入参考图像的可能性,以进一步提升图像质量评估的准确性。例如,可以设计一种混合IQA方法,结合无参考和全参考评估的优势。
- 扩展应用场景:将VisualQuality-R1应用于更多图像处理任务中,如图像增强、图像修复、图像合成等。通过在实际应用场景中的验证和优化,进一步提升模型的实用性和性能。
- 跨模态学习:探索如何将VisualQuality-R1与其他模态的信息(如音频、文本等)相结合,以实现更全面的多媒体质量评估。例如,可以研究跨模态注意力机制或联合训练方法来整合不同模态的信息。
结论
本文提出了VisualQuality-R1,一个基于强化学习排序的推理诱导无参考IQA模型。通过广泛的实验验证,VisualQuality-R1在多个数据集和失真类型上均取得了显著优于传统NR-IQA方法和基于VLM的SFT方法的结果。此外,VisualQuality-R1还能够生成上下文丰富的质量描述,为图像处理任务提供更细致的质量反馈。尽管存在一些局限性,但VisualQuality-R1为NR-IQA领域的研究提供了新的思路和方法,具有广阔的应用前景和发展潜力。