[视盘和视杯分割 标签去噪 多伪标签] 通过噪声感知学习从多个伪标签中准确分割视盘和视杯
标题:Accurate Segmentation of Optic Disc and Cup from Multiple Pseudo-labels by Noise-aware Learning
作者:Tengjin Weng, Yang Shen, Zhidong Zhao, Zhiming Cheng, Shuai Wang
来源:2024 27th International Conference on Computer Supported Cooperative Work in Design (CSCWD), Proceedings of the Conference, DOI: 10.1109/CSCWD61410.2024.10580087, ©2024 IEEE
代码:https://github.com/wwwtttjjj/MPNN
主题:视盘和视杯分割、标签去噪、多伪标签
这个颜色的会在结尾给补充扩展,有什么问题都可以在评论区提问,我会回复,并补充到文章结尾的补充扩展部分。
1. 论文提出的背景/动机(要解决什么问题)
视盘和视杯分割是自动化筛查和诊断视神经异常(如青光眼)的重要步骤。然而,现有的分割任务面临以下挑战:
-
分割边界的固有模糊性:视盘和视杯的边界在图像中可能不够清晰,导致手动标注时容易出现错误。
-
噪声标签问题:手动标注的错误(噪声)会严重影响模型的性能,尤其是在深度学习模型中,噪声标签可能导致模型过拟合错误数据,从而降低泛化能力。
-
现有方法的局限性:虽然有一些标签去噪方法,但它们要么依赖于多位专家的标注,要么在处理视盘和视杯分割任务中的噪声标签时表现不佳。
因此,作者提出了一种新的标签去噪方法,旨在提高视盘和视杯分割的准确性和鲁棒性,同时减少对多位专家标注的依赖。
2. 论文提出方法的创新点是什么
论文提出了一种名为 多伪标签噪声感知网络(MPNN) 的方法,其主要创新点包括:
-
多伪标签生成与引导去噪(MPGGD)模块:通过多个具有不同初始化的网络拟合同一训练集,并在达到某个阈值后停止训练,生成多个伪标签。通过这些伪标签之间的共识信息,区分干净像素和噪声像素。
-
教师-学生架构:学生网络通过最小化干净像素上的分割损失和噪声像素上的不确定性一致性损失进行学习,教师网络通过指数移动平均(EMA)更新。这种架构结合了干净像素的可靠信息和噪声像素中的补充知识。
-
像素级半监督模式学习:结合干净像素的监督学习和噪声像素的无监督一致性学习,充分利用了干净像素的可靠信息和噪声像素中的补充知识。
-
不确定性一致性损失:通过估计每个像素的不确定性,选择最确定的噪声像素进行训练,避免了噪声像素对模型的误导。
3. 采取了什么实验方式来证明方法的优势
作者通过以下实验方式验证了 MPNN 方法的优势:
-
数据集选择:
-
训练集:195 个来自 BinRushed 的样本和 460 个来自 MESSIDOR 的样本。
-
测试集:95 个来自 Magrabia 的样本,分别使用第一位专家(Rater1)标注的掩模和所有专家多数投票产生的(MajorityVote)作为真值。
-
-
评估指标:
-
交集比(IoU):用于评估视盘(IoUdisc)和视杯(IoUcup)的分割精度。
-
Dice 系数:用于评估视盘(Dicedisc)和视杯(Dicecup)的分割精度。
-
-
对比实验:
-
与其他方法的对比:将 MPNN 与其他现有方法(如 LinkNet、Co-teaching、TriNet、2SRnT、MTCL 和 PINT)进行对比,验证 MPNN 的优越性。
-
定量结果:通过表 I 展示了在两个不同测试集(MajorityVote 和 Rater1)上的定量结果,证明 MPNN 在所有关键指标上均优于其他方法。
-
-
参数消融研究:
-
伪标签数量的影响:通过表 II 展示了不同数量的伪标签(K 值)对分割精度的影响,找到最优的 K 值(K=5)。
-
性能平衡:验证了过多或过少的伪标签对模型性能的影响,强调了在训练过程中引入伪标签时保持平衡的重要性。
-
-
组件消融研究:
-
不同变体的对比:通过表 IV 展示了在不同组件配置下的性能变化,验证了干净像素和噪声像素分别利用以及联合利用的有效性。
-
噪声像素的处理:通过图 3 展示了隔离的噪声像素集合,主要在分割边缘,验证了噪声像素处理的有效性。
-
4. 论文提出的方法有什么优缺点
优点
-
创新性强:MPNN 的多伪标签生成和教师-学生架构是一种新颖的标签去噪方法,有效解决了视盘和视杯分割中的噪声问题。
-
鲁棒性高:通过伪标签生成和像素级共识信息的利用,模型能够更好地处理噪声标签,提高了分割的鲁棒性。
-
性能优越:实验结果表明,MPNN 在 RIGA 数据集上的表现优于其他现有方法,特别是在视盘和视杯的分割精度上。
-
适用性强:该方法不依赖于额外的专家标注,具有较强的实用性和可扩展性。
缺点
-
计算复杂度高:多伪标签生成和教师-学生架构的训练过程较为复杂,计算成本较高,可能限制其在实际应用中的效率。
-
依赖于阈值选择:伪标签生成过程中使用的阈值(如 DSCm 的阈值 φ)需要手动设置,不同的阈值可能会影响模型的性能。
-
泛化能力待验证:虽然在 RIGA 数据集上表现良好,但该方法在其他类型医学图像分割任务中的泛化能力还需要进一步验证。
-
实验设计的局限性:虽然作者进行了广泛的实验,但实验主要集中在 RIGA 数据集上,缺乏在其他数据集上的验证。此外,实验中没有考虑不同噪声水平对模型性能的影响。
实验设计的启示
-
数据集选择:选择具有代表性和挑战性的数据集进行实验,同时考虑数据集的多样性和复杂性。可以考虑在多个数据集上进行验证,以证明方法的泛化能力。
-
评估指标:使用多个评估指标全面评估模型性能,特别是针对任务的关键指标(如 IoU 和 Dice 系数)。
-
对比实验:与现有方法进行对比实验,验证新方法的优越性。可以考虑在不同噪声水平下进行实验,以验证方法的鲁棒性。
-
消融研究:通过消融实验验证方法中各个组件的有效性,找到最优的参数设置。可以考虑在不同数据集上进行消融实验,以验证方法的普适性。
-
鲁棒性验证:通过不同的实验场景(如不同噪声水平、不同数据集)验证方法的鲁棒性。可以考虑引入合成噪声数据,以验证方法在极端情况下的表现。
个人看法
论文提出的方法在视盘和视杯分割任务中表现出了显著的优势,尤其是在处理噪声标签方面。然而,其计算复杂度和对阈值选择的依赖可能会限制其在实际应用中的推广。未来的研究可以考虑以下方向:
-
优化计算效率:通过改进算法或使用更高效的网络架构,降低计算成本。
-
自动选择阈值:研究如何自动选择最优的阈值,减少人工干预。
-
泛化能力验证:在更多类型的数据集上验证方法的泛化能力,特别是在其他医学图像分割任务中。
-
鲁棒性验证:在不同噪声水平下进行实验,验证方法在极端情况下的表现。
通过这些改进,MPNN 方法有望在实际应用中发挥更大的作用。
论文翻译
摘要——视盘和视杯分割在自动化筛查和诊断视神经异常(如青光眼)中起着至关重要的作用。随着深度学习的快速发展,基于卷积神经网络(CNN)的各种模型在医学图像分割中展现出巨大潜力。然而,由于视盘和视杯分割任务中分割边界固有的模糊性以及手动标注不可避免的错误,标注数据中往往存在噪声,这严重影响了模型的性能。为了应对这一挑战,我们提出了一种创新的标签去噪方法——多伪标签噪声感知网络(MPNN),用于准确分割视盘和视杯。具体而言,多伪标签生成与引导去噪(MPGGD)模块通过多个不同初始化的网络在真实标签上进行训练生成伪标签,并从这些伪标签中提取像素级共识信息,以区分干净像素和噪声像素。MPNN的训练框架采用教师-学生架构,从干净像素和噪声像素中学习分割。该框架巧妙地利用了(i)干净像素中可靠且基础的信息,以及(ii)噪声像素中通过多种扰动基础的无监督一致性所包含的补充知识。与其他标签去噪方法相比,我们在RIGA数据集上的实验结果表明,我们的方法具有卓越的性能。代码可在GitHub - wwwtttjjj/MPNN上获取。
索引术语——视盘和视杯分割,标签去噪,多伪标签
1. 视盘(Optic Disc)
定义:视盘是眼睛视网膜上的一个重要结构。
详细解释:
视神经的入口:视盘是视神经纤维进入眼球的入口处。可以把它想象成一根“电缆”的接口,这根“电缆”(视神经)将眼睛看到的图像信息传递到大脑。
在眼底照片中的表现:在医学图像(如眼底照片)中,视盘通常是一个相对明亮的圆形区域。这是因为视神经纤维的聚集使得该区域的反射光较强。
重要性:视盘的健康状况可以反映视神经的健康状态。例如,视盘的大小、形状和颜色的变化可能提示某些眼部疾病,如青光眼或视神经炎。
2. 视杯(Optic Cup)
定义:视杯是视盘内部的一个凹陷区域。
详细解释:
正常结构:在正常情况下,视杯是视盘的一部分,是一个相对较小的凹陷区域。
青光眼的标志:青光眼是一种导致视神经损伤的疾病,视杯的扩大通常是青光眼的一个重要特征。随着病情进展,视杯可能会逐渐变大,甚至占据视盘的大部分区域。
诊断意义:通过观察视杯的变化,可以帮助医生诊断青光眼。例如,医生会测量视杯与视盘的比例(C/D比),如果这个比例超过一定阈值(如0.7),可能提示青光眼的存在。
3. 分割边界固有的模糊性
定义:在医学图像中,视盘和视杯的边界并不是非常清晰的。
详细解释:
模糊的原因:视盘和视杯的边缘可能会因为多种因素而显得模糊,例如:
光照问题:眼底照片的光照不均匀可能导致某些区域看起来更亮或更暗,从而影响边界识别。
成像质量:低质量的成像设备可能会导致图像分辨率不足,使得边界难以区分。
组织结构:视网膜的组织结构复杂,视盘和视杯的边缘可能本身就存在一些细微的过渡区域。
对分割的影响:这种模糊性使得计算机很难精确地识别出视盘和视杯的边界,就像在一张模糊的照片中很难准确画出物体的轮廓一样。因此,开发能够处理这种模糊性的分割算法是非常重要的。
4. 像素级共识信息
定义:在图像处理中,图像由许多小的点(像素)组成。像素级共识信息是指多个不同方法或模型对同一个像素的判断结果。
详细解释:
一致与分歧:如果有多个模型对同一张图像进行分割,它们可能会对某些像素的分类达成一致(比如都认为某个像素属于视盘),而对另一些像素的分类存在分歧。
判断可靠性:通过分析这些一致和分歧的信息,可以帮助区分哪些像素的标签是可靠的(干净像素),哪些可能是错误的(噪声像素)。例如,如果多个模型都一致认为某个像素属于视盘,那么这个像素的标签可能是可靠的;如果模型之间存在分歧,那么这个像素的标签可能需要进一步验证。
5. MPNN的训练框架
定义:训练框架是指用于训练模型的整体结构和方法。
详细解释:
MPNN(多伪标签噪声感知网络):MPNN是一种专门用于视盘和视杯分割的深度学习模型。它的目标是通过处理噪声标签,提高分割的准确性。
训练框架的作用:MPNN的训练框架设计了如何使用数据来训练模型,使其能够更好地完成视盘和视杯的分割任务。它包括以下几个环节:
数据输入:将眼底图像和对应的标注信息输入到模型中。
模型结构:定义了模型的架构,例如使用卷积神经网络(CNN)来提取图像特征。
损失函数计算:通过计算模型预测结果与真实标注之间的差异(损失函数),来优化模型的参数。
目标:通过这种训练框架,MPNN能够学习到如何在存在噪声标签的情况下,准确地分割出视盘和视杯。
6. 教师-学生架构
定义:教师-学生架构是一种常见的模型训练方法,通常用于知识蒸馏(Knowledge Distillation)。
详细解释:
教师模型和学生模型:在这种架构中,有两个模型:
教师模型:是一个已经训练好的、性能较好的模型,它能够提供高质量的预测结果。
学生模型:是一个待训练的模型,通常结构更简单,目标是通过学习教师模型的知识,达到接近教师模型的性能。
知识传递:教师模型会将自己的知识(例如预测结果、特征表示等)传递给学生模型。学生模型通过模仿教师模型的行为,学习如何更好地完成任务。
优势:这种架构可以帮助学生模型在不增加太多计算资源的情况下,继承教师模型的性能。同时,它还可以提高模型对噪声数据的鲁棒性。
推荐阅读:如果你对教师-学生架构感兴趣,可以参考这篇CSDN博客文章:《详解深度学习中的教师-学生模型(Teacher-Student Model)》。
7. 噪声像素中通过多种扰动基础的无监督一致性所包含的补充知识
这句话比较复杂,可以拆解为几个部分来理解:
定义:通过多种扰动(例如图像增强、噪声添加等)来观察像素在不同条件下的表现,从而判断其可靠性。
详细解释:
无监督一致性:这是一种无监督学习的方法,不依赖于预先标注好的数据。它通过观察数据在不同条件下的表现来判断信息的可靠性。
多种扰动:对图像进行多种扰动,例如改变图像的亮度、对比度,或者添加噪声。这些扰动可以帮助模型更好地理解哪些像素的分类是可靠的。
补充知识:通过观察像素在不同扰动条件下的表现,模型可以获得额外的知识。例如,如果一个像素在多种扰动下都被模型判断为属于同一个类别,那么这个判断可能更可信。
应用场景:这种方法特别适用于处理噪声标签的情况。通过无监督一致性,模型可以更好地识别出哪些像素的标签可能是错误的,从而提高分割的准确性。
8. 无监督一致性
定义:无监督一致性是一种无监督学习的方法,不依赖于预先标注好的数据。
详细解释:
原理:它通过观察数据在不同条件下的表现来判断信息的可靠性。例如,在图像分割中,如果一个像素在多种不同的图像处理条件下都被模型判断为属于同一个类别,那么这个判断可能更可信。
优势:这种方法不需要预先标注的数据,因此可以节省大量的标注成本。同时,它可以帮助模型更好地处理噪声数据,提高模型的鲁棒性。
应用场景:无监督一致性广泛应用于医学图像分割、目标检测等领域,特别是在标注数据不足的情况下。
9. RIGA数据集
定义:RIGA数据集是一个用于视盘和视杯分割的医学图像数据集。
详细解释:
内容:它包含了大量的眼底图像,以及这些图像中视盘和视杯的标注信息。这些图像通常来自不同患者的眼底检查,标注信息由专业医生提供。
用途:研究人员会用这个数据集来训练和测试他们的模型,以评估模型的性能。例如,通过在RIGA数据集上训练模型,研究人员可以开发出能够准确分割视盘和视杯的算法。
重要性:RIGA数据集是视神经相关研究中常用的基准数据集之一。它为研究人员提供了一个标准化的测试平台,帮助他们比较不同模型的性能。
I. 引言
视盘和视杯分割是自动化筛查和诊断视神经头异常(如青光眼)的重要步骤。随着深度学习的快速发展,基于卷积神经网络(CNN)的各种模型在医学图像分割领域展现出巨大潜力。这些方法利用其固有能力从大量标注数据中学习复杂的模式和特征,从而实现高精度的医学图像分割。然而,由于视盘和视杯分割任务中分割边界的固有模糊性以及手动标注的不可避免的错误,标注数据中往往存在噪声。许多研究表明,标签噪声会显著影响模型的准确性。
为了减轻标签噪声对医学图像分割的影响,一种策略是使用多位专家的标注。Ji等人提出了一种创新技术MRNet,该技术利用个体评分者的专业知识,将其作为先验知识来提取高级语义特征。Self-Calib通过运行发散和收敛模型循环来寻找真实值,展示了从多个标注中利用信息的更大能力,从而产生更公正的分割模型。然而,需要注意的是,获取多位专家的分割标注是一项具有挑战性的任务。因此,有必要探索其他可用方法。
在不引入额外专家标签的情况下,已经提出了一系列标签去噪策略来应对分割任务中噪声标签带来的挑战。这些策略通常包括两个步骤:首先使用各种方法识别噪声标签,然后可以选择丢弃它们或使用伪标签进行细化。一些方法通过训练多个网络并选择网络预测之间损失最小共识的标签进行训练。其他方法使用Confident Learning模块来找到噪声标签,并使用细化模块进行处理。然而,这些研究通常涉及人工模拟的噪声标签和非专家的标注,尚未有针对视盘和视杯分割中因边界模糊导致的标注噪声的专门研究。
在这篇论文中,我们提出了一种创新的标签去噪方法——多伪标签噪声感知网络(MPNN),用于准确分割视盘和视杯。为了应对标签噪声问题,我们提出了多伪标签生成与引导去噪(MPGGD)模块。我们使用多个具有不同初始化的网络拟合同一训练集,并在达到某个阈值后停止训练,以获得训练集的多个伪标签。随后,所有伪标签上表现一致的像素被认为是干净像素,其余像素被认为是噪声像素。此外,提出的MPNN采用教师-学生架构,学生网络通过(i)在干净像素集上最小化分割损失,以及(ii)在教师模型中最小化噪声像素集上的不确定性一致性损失来学习。教师网络通过指数移动平均(EMA)根据学生网络的参数进行更新。我们的贡献如下:
-
据我们所知,提出的MPNN是首个从标签去噪的角度提高视盘和视杯分割精度的方法。
-
我们提出了MPGGD模块,该模块能够分离可靠和不可靠的信息,为网络提供准确的先验信息,并避免标签噪声对网络的负面影响。
1. MRNet(多评分者协议建模方法)
定义:MRNet是一种用于医学图像分割的方法,它通过结合多位专家的标注信息来提高分割的准确性。
原理:
多评分者协议建模:在医学图像分割中,不同的专家可能会对同一图像的分割结果有不同的标注。MRNet通过显式地建模这些标注之间的一致性和不一致性,来提取更准确的分割信息。
专家感知推理模块(EIM):这是MRNet的核心部分。它将单个专家的专业知识水平作为先验知识嵌入到模型中。换句话说,模型会“学习”专家的标注习惯和偏好,从而生成更符合专家判断的分割结果。
多评分者重建模块(MRM):该模块用于从初步的分割预测中重建多位专家的标注。它通过分析专家标注之间的差异,进一步优化分割结果。
应用场景:MRNet特别适用于需要多位专家标注的医学图像分割任务,例如脑部MRI图像的分割。
2. 先验知识(Prior Knowledge)
定义:先验知识是指在模型训练之前已经存在的、对任务有帮助的信息。
原理:
在医学图像分割中,先验知识可以是专家的经验、医学图像的已知结构特征,或者某种疾病的典型表现形式。
例如,专家对某种疾病的典型病变特征有丰富的经验,这些经验可以作为先验知识嵌入到模型中,帮助模型更好地理解图像中的关键信息。
作用:
先验知识可以帮助模型更快地学习,因为它提供了额外的指导信息。
它还能提高模型对噪声数据的鲁棒性,因为模型可以利用先验知识来纠正不准确的标注。
3. 高级语义特征(High-Level Semantic Features)
定义:高级语义特征是指能够更好地反映图像内容和结构的特征。
原理:
在图像分割任务中,模型需要从图像中提取有用的特征来区分不同的区域。高级语义特征不仅仅是像素级别的信息,而是更高层次的、与图像内容相关的特征。
例如,在医学图像中,高级语义特征可以是组织的纹理、器官的形状,或者病变的分布模式。
通过将先验知识嵌入到模型中,可以生成更准确的高级语义特征。这些特征能够帮助模型更好地理解图像的语义信息,从而提高分割的准确性。
作用:
高级语义特征可以提高分割的精度,因为它们能够捕捉到图像中更复杂的关系。
它们还可以减少模型对噪声数据的敏感性,因为它们提供了更丰富的上下文信息。
4. Self-Calib(自校准方法)
定义:Self-Calib是一种通过运行发散和收敛模型循环来寻找真实值的方法。
原理:
在医学图像分割中,不同的专家可能会对同一图像给出不同的标注。这些标注之间可能存在差异,但也会有一些一致的地方。
Self-Calib通过迭代优化的方式,逐步逼近真实的分割结果。具体来说,它会运行多个模型,这些模型的预测结果会相互比较和校准。
例如,如果多个模型在某个区域的分割结果一致,那么这个区域的分割结果被认为是可靠的;如果某个模型的预测与其他模型不一致,那么这个模型的预测会被调整,以更接近其他模型的结果。
作用:
Self-Calib可以从多个标注中提取有用的信息,从而生成更准确的分割模型。
它能够减少因专家标注差异导致的误差,提高分割结果的可靠性。
5. Confident Learning模块(置信学习模块)
定义:Confident Learning模块是一种用于识别和处理噪声标签的方法。
原理:
在医学图像分割中,标注数据可能包含错误或噪声。这些噪声标签会影响模型的训练效果。
Confident Learning模块通过分析模型预测的置信度来识别噪声标签。具体来说,它会计算每个标注的置信度分数,如果某个标注的置信度很低,那么它可能是一个噪声标签。
识别出噪声标签后,Confident Learning模块会通过细化模块对这些噪声标签进行处理。例如,它可以将噪声标签替换为更可靠的预测结果,或者直接丢弃噪声标签。
作用:
Confident Learning模块能够在不引入额外专家标签的情况下,有效提高模型对噪声标签的鲁棒性。
它可以帮助模型更准确地学习图像的分割特征,从而提高分割的精度。
6. 不确定性一致性损失(Uncertainty Consistency Loss)
定义:不确定性一致性损失是一种用于处理噪声标签的损失函数。
原理:
在多伪标签噪声感知网络(MPNN)中,学生网络通过在教师模型中最小化噪声像素集上的不确定性一致性损失来学习。
具体来说,教师模型会为每个像素生成一个预测结果,这些结果反映了教师模型对每个像素的置信度。学生网络的目标是尽量让自己的预测结果与教师模型的预测结果一致。
通过最小化不确定性一致性损失,学生网络可以学习到教师模型对噪声像素的处理方式,从而提高对噪声数据的鲁棒性。
作用:
不确定性一致性损失能够有效抑制噪声标签对模型训练的负面影响,从而提高分割的准确性。
它可以帮助学生网络更好地学习教师模型的知识,从而提高整体的分割性能。
7. 指数移动平均(Exponential Moving Average,EMA)
定义:指数移动平均是一种用于更新模型参数的方法。
原理:
在多伪标签噪声感知网络(MPNN)中,教师网络通过EMA根据学生网络的参数进行更新。
具体来说,EMA会根据学生网络的参数,以一定的权重更新教师网络的参数。这个权重通常是一个接近于1的小数,例如0.999。
例如,如果学生网络的某个参数值为 x,教师网络的对应参数值为 y,那么更新后的教师网络参数值为 y′=αy+(1−α)x,其中 α 是EMA的权重。
作用:
EMA能够平滑地更新模型参数,避免因噪声标签导致的参数更新过于剧烈。
它可以提高模型的稳定性和鲁棒性,因为教师网络的参数更新更加平滑,不会受到短期波动的影响。
II. 方法
为了简化我们方法的描述,我们定义数据集D={X(i),Y(i)}N i=1,其中N表示总样本数。X={x1,x2,...,xn}表示图像X包含n=w×h个像素,Y={y1,y2,...,yn}表示对应的标签。这里y∈{0,1,2},类别{0,1,2}分别表示背景、视盘 和 视杯。图 1 展示了 MPNN 的方法。更多细节将在后续部分描述。
图 1. 我们方法的示意图。(a) MPNN(多伪标签噪声感知网络)的架构;(b) MPGGD(多伪标签生成和引导去噪)模块。MPGGD 通过多个不同的初始化网络({LinkNet(1), ..., LinkNet(K)}) 生成多个伪标签
以适应其
在真实标签
上达到某个阈值
,随后通过一致性信息区分干净像素集
和噪声像素集
。MPNN 由一个学生网络和一个教师网络组成。学生网络通过 (i) 最小化由
引导的分割损失和 (ii) 最小化由
引导的与具有多个不确定性的教师模型的一致性损失来学习。教师网络使用 EMA(指数移动平均)进行更新。
图中的公式和符号:
:输入图像
:真实标签
:学生网络的预测
:教师网络的预测
:干净像素集
:噪声像素集
:噪声损失
:干净损失
:引导
:多伪标签生成和引导去噪模块
A. 多伪标签生成与引导去噪(MPGGD)
深度学习模型可以记住简单样本,然后随着训练周期的增加逐渐适应更复杂的实例。当存在 噪声标签 时,深度学习模型最终会记住这些错误的标签,从而导致 泛化性能 较差。因此,我们在网络拟合噪声之前停止训练,并生成训练集对应的多个 伪标签。这些伪标签用于区分 干净像素 和 噪声像素。
具体来说,为了区分干净像素和噪声像素,我们使用多个具有不同初始化的网络拟合同一训练集,并在视盘和视杯的 平均 Dice 相似系数(DSCm) 达到某个阈值 φ 时停止训练,以获得训练集的多个伪标签。为了最大化识别标注噪声,我们采用 过度校正策略,即所有伪标签上表现一致的像素被认为是干净像素,其余像素被认为是噪声像素。
形式化地,对于图像 X ∈ D,其真实标签为 Y。我们构建一组 K 个网络 {LinkNet(1), ..., LinkNet(K)} 来生成多个伪标签 Yp = {Yp1, ..., YpK}。所有网络均以不同的值初始化,以 DSCm 作为指标。考虑到标注噪声的稀疏性,这里 K 和 φ 分别设置为 5 和 0.93。
为了区分干净像素和噪声像素,我们遵循以下过程:
干净像素集合为:
(公式1)
这里,表示分离出的干净像素集合,干净像素集合中包含的像素总数表示为
。显然,噪声像素集合可以表示为:
(公式2)
噪声像素集合中包含的像素总数表示为。这些信息将用于指导MPNN 的训练。
1. 平均 Dice 相似系数(DSCm)
Dice 相似系数(Dice Similarity Coefficient, DSC) 是一种用于衡量两个集合相似性的指标,常用于图像分割任务中,用来评估模型的分割结果与真实标签之间的相似度。它的计算公式如下:
其中:
是模型预测的分割结果(例如,预测的视盘或视杯区域)。
是真实标签(例如,真实的视盘或视杯区域)。
是预测结果和真实标签的交集部分。
和
分别是预测结果和真实标签的大小。
DSC 的取值范围是 [0, 1]:
如果 DSC = 1,表示预测结果与真实标签完全一致。
如果 DSC = 0,表示预测结果与真实标签没有任何重叠。
在本文中,平均 Dice 相似系数(DSCm) 是对多个分割类别(例如,视盘和视杯)分别计算 DSC 后取平均值。例如,如果视盘的 DSC 是 0.95,视杯的 DSC 是 0.91,那么 DSCm 就是:
DSCm 的作用:它用于评估模型在多个分割类别上的整体性能。当 DSCm 达到某个阈值(例如 0.93)时,说明模型在这些类别上的分割效果已经足够好,可以停止训练,避免过度拟合噪声标签。
2. 过度校正策略
过度校正策略(Over-correction Strategy) 是一种用于识别和处理噪声标签的方法。它的核心思想是:如果多个独立训练的模型在某个像素上给出一致的预测结果,那么这个像素很可能是干净的;反之,如果不同模型的预测结果不一致,那么这个像素很可能是噪声。
具体来说:
假设我们有多个网络(例如 5 个 LinkNet),每个网络都以不同的初始值进行训练。
当这些网络在某个像素上的预测结果一致时(例如,所有网络都认为该像素属于视盘),这个像素被认为是干净的。
如果这些网络的预测结果不一致(例如,有的网络认为是视盘,有的认为是背景),这个像素被认为是噪声。
这种方法的优点是能够有效地识别出噪声标签,从而提高模型的泛化能力。
3. 公式解释
公式
是用来定义干净像素集合的。
逐项解释:
:表示干净像素集合(Clean Pixels)。
:表示图像中的像素索引,从 0 到 n(n 是图像中像素的总数)。
:表示第 i 个像素在 K 个伪标签 Yp1,Yp2,…,YpK 中的标签值。
:表示在所有 K 个伪标签中,第 i 个像素的标签值都相同。
:表示满足上述条件的所有像素索引 i 的集合。
通俗解释:
这个公式的意思是:干净像素集合
包含所有在 K 个伪标签中标签值一致的像素。换句话说,如果一个像素在所有 K 个伪标签中都被预测为同一个类别(例如,都是视盘或都是背景),那么这个像素被认为是干净的。
示例:
假设我们有 3 个伪标签
,图像中有 5 个像素,标签如下:
像素 1:
(一致,属于干净像素)
像素 2:
(一致,属于干净像素)
像素 3:
(不一致,属于噪声像素)
像素 4:
(一致,属于干净像素)
像素 5:
(不一致,属于噪声像素)
根据公式,干净像素集合
包含像素 1、2 和 4。
总结
平均 Dice 相似系数(DSCm):用于评估模型分割结果与真实标签的相似度,帮助确定何时停止训练。
过度校正策略:通过多个模型的预测一致性来识别干净像素和噪声像素,提高模型的泛化能力。
公式
:定义了干净像素集合,包含所有在多个伪标签中标签一致的像素。
B. 像素级半监督模式学习
视盘和视杯分割任务中分割对象与背景边界的固有模糊性导致了影响模型性能的 噪声标注。因此,我们研究了带有噪声标签的视盘和视杯分割任务,我们的方法借鉴了经典半监督方法中的 Mean-Teacher 模型。学生网络的参数为 θ(通过反向传播更新),教师网络的参数为 θ(根据不同训练阶段的权重 θ 进行更新)。具体计算为 指数移动平均(EMA)。在训练步骤 t 时,θ 更新为:,其中α 是 EMA 衰减率,根据[15]的建议,将其设置为0.99。
对于给定的图像X∈D,我们向X添加不同的扰动(高斯噪声{ξ1,...,ξM})以生成一组输入{Xm}M m=1。我们将X输入学生网络以获得相应的预测图Ps。同时,我们将{Xm}M m=1输入教师网络以获得所有预测概率图{Pm}M m=1。随后,取所有预测图的平均值以获得教师网络的预测:
(公式3)
教师模型不仅生成目标预测,还估计每个目标的不确定性。这里我们遵循[16]的方法,预测熵可以总结为:
(公式4)
其中是第m个输入预测中第c个类别的概率。注意,不确定性是在像素级别估计的,整个图像U的不确定性为
。
1) 干净像素损失: 干净像素为网络提供了可靠且准确的训练信号,从而支持网络学习准确的特征表示和泛化能力。我们的方法提取了一组干净像素,实现了干净和噪声信息的分离。具体来说,干净像素损失 表达为:
(公式5)
其中 表示交叉熵损失,
是学生网络在干净像素
上的预测,
是对应的标签。
2) 噪声像素损失: 我们选择熵作为估计不确定性的指标。当像素标签倾向于干净时,其预测概率分布可能是一个尖峰,表明低熵和低不确定性。相反,如果像素标签倾向于噪声,它可能具有更平坦的概率分布,表明高熵和高不确定性。因此,我们将每个像素的不确定性视为像素噪声的估计。考虑到MPGGD方法是一种过度校正策略,我们分离的噪声像素集总是包含一些容易预测的像素,使用不确定性方法是为了找到那些可能被误认为是噪声像素的干净像素。在噪声像素集上的连续性损失 表达为:
(公式6)
其中 是指示函数,
(初始值为0.75,随着迭代次数的增加而增加)是一个阈值,用于选择最确定的目标。
是在
像素处估计的不确定性
。注意,我们只在噪声像素集
中执行高于
阈值的像素选择。
1. Mean-Teacher 模型
Mean-Teacher 模型是一种半监督学习方法,它通过两个网络来提高模型的鲁棒性和准确性:
学生网络(Student):这个网络会不断学习数据的特征,并根据输入生成预测结果。它的参数会通过反向传播更新,就像普通神经网络一样。
教师网络(Teacher):这个网络的参数是学生网络参数的“平均值”,具体是通过指数移动平均(EMA)计算得到的。它的作用是生成更稳定、更可靠的预测结果。
在训练过程中,学生网络的预测结果会和教师网络的预测结果进行比较,两者的差异会被用作一种“一致性正则化损失”,帮助模型更好地适应输入数据的扰动。
可以参考CSDN的这篇博客:[mean teacher笔记]Mean teachers are better role models-CSDN博客
2. 高斯噪声
高斯噪声是一种常见的噪声类型,它的概率分布呈钟形曲线(正态分布)。在图像处理中,高斯噪声通常被添加到图像中,以模拟现实世界中的随机噪声。例如,相机拍摄的照片可能会受到光线变化或传感器故障的影响,高斯噪声可以帮助模型学习如何在这种情况下保持稳定。
可以参考CSDN的这篇博客:深度学习中高斯噪声:为什么以及如何使用_高斯白噪声的概率密度函数-CSDN博客
3.
的含义
这个公式的意思是:教师网络的预测结果
是通过将多个扰动输入
送入教师网络后得到的预测概率图
的平均值。具体来说:
是扰动的数量,即我们对输入图像添加了多少次不同的噪声。
是第
次扰动输入的预测概率图。
是所有扰动输入预测概率图的平均值,这样可以得到一个更稳定的目标预测。
4. 预测熵
预测熵是一种衡量模型预测不确定性的指标。对于一个像素的预测概率分布
,其熵定义为:
其中:
是类别总数(例如,背景、视盘、视杯)。
是像素属于类别
的预测概率。
熵值越高,表示模型对该像素的预测越不确定;熵值越低,表示预测越确定。
5.
的含义
这个公式计算的是整个图像中每个像素的预测熵。具体来说:
是第
次扰动输入下,像素属于类别
的预测概率。
是对所有扰动输入的预测概率取平均,得到更稳定的概率估计。
表示每个像素的预测熵,用于衡量模型对该像素的不确定性。
6.
的含义
这个表示法的意思是:预测熵 u 是一个实数向量,其长度为 n(图像中像素的总数)。换句话说,每个像素都有一个对应的预测熵值,这些值构成了一个长度为 n 的向量。
7.
的含义
这个公式表示干净像素的损失函数
,用于衡量学生网络的预测
与真实标签
之间的差异。具体来说:
是干净像素的数量。
表示第
个干净像素。
表示交叉熵损失函数。
这个损失函数的作用是利用干净像素的准确标签来训练学生网络,确保模型能够学习到准确的特征表示。
例子: 假设我们有一个图像,其中包含视盘和背景。我们已经确定了图像中的一些像素是干净的,即它们的标签是准确的。例如,某个像素 Ocl1 属于视盘,其真实标签 YOcl1 是“视盘”。模型在该像素上的预测是 PsOcl1,假设模型预测该像素属于背景的概率为 0.1,属于视盘的概率为 0.9。那么,交叉熵损失 ce(PsOcl1,YOcl1) 将计算为: ce(PsOcl1,YOcl1)=−log(0.9) 这个值将被加到所有其他干净像素的损失上,然后除以干净像素的总数 scl,得到最终的干净像素损失 Lcl。
8. 为什么干净像素会有损失
核心概念
干净像素的标签是准确的,这意味着这些像素的真实类别是已知的。例如,某个像素的真实类别是“视盘”,那么它的标签就是“视盘”。干净像素的损失是通过比较模型的预测结果和真实的标签来计算的。这个损失的作用是告诉模型:“你的预测和真实答案之间的差距有多大”。
为什么需要计算干净像素的损失?
帮助模型学习正确的特征
模型的目标是学会区分不同的类别(例如背景、视盘、视杯)。干净像素的标签是准确的,因此它们是模型学习的“好老师”。通过计算干净像素的损失,模型可以知道自己的预测是否正确。如果预测错误,损失就会很高,模型就会调整自己的参数,以减少这种错误。例子:假设有一个像素,它的真实类别是“视盘”,但模型预测它是“背景”。这种预测是错误的,因此损失会很高。通过反向传播,模型会调整参数,下次再遇到类似的像素时,就会更倾向于预测为“视盘”。
提高模型的泛化能力
泛化能力是指模型在未见过的数据上表现良好的能力。干净像素的损失帮助模型学习到正确的特征表示,这样模型在遇到新的、未见过的图像时,也能正确地识别出视盘、视杯等结构。例子:假设你正在训练一个模型来识别猫和狗。如果你只用一张猫的图片训练,模型可能会记住这张图片的所有细节,但无法识别其他猫的图片。但如果用很多不同猫的图片(干净数据)训练,并计算损失,模型就会学会猫的共同特征(如耳朵形状、毛发等),从而在新的猫图片上也能正确识别。
防止模型记住错误的东西
模型在训练过程中可能会记住一些错误的模式(尤其是当数据中有噪声时)。干净像素的损失就像一个“监督者”,确保模型专注于学习正确的模式。例子:假设你的数据集中有一些错误的标签(噪声),模型可能会被误导。但干净像素的损失会告诉模型:“这些像素的标签是准确的,你必须正确预测它们。”这样,模型就不会被错误的标签误导。
9. 交叉熵损失
交叉熵损失是一种常用的损失函数,用于衡量模型预测概率分布与真实标签之间的差异。对于一个像素的真实标签 Y 和预测概率分布 P,交叉熵损失定义为:
其中:
是像素属于类别
的真实标签(通常是独热编码)。
是模型预测像素属于类别
的概率。
交叉熵损失越小,表示模型的预测越接近真实标签。
10. 熵与不确定性
熵是信息论中的一个概念,用于衡量一个系统的不确定性。在机器学习中,熵被用来衡量模型对某个预测的不确定性。具体来说,熵越低,表示模型对该预测越确定;熵越高,表示模型对该预测越不确定。
低熵和低不确定性
当模型对某个像素的预测非常确定时,其预测概率分布会集中在某个类别上,形成一个“尖峰”。此时,熵值较低。
例子: 假设我们有一个像素,模型预测它属于“视盘”的概率为 0.95,属于“背景”的概率为 0.05。这个像素的真实标签是“视盘”。
预测概率分布:P(视盘)=0.95, P(背景)=0.05
熵的计算公式:H=−∑cP(c)logP(c)
计算熵:H=−(0.95log0.95+0.05log0.05)≈0.28
这个熵值较低,表示模型对该像素的预测非常确定,不确定性很低。
高熵和高不确定性
当模型对某个像素的预测不够确定时,其预测概率分布会比较平坦,多个类别的概率相近。此时,熵值较高。
例子: 假设我们有一个像素,模型预测它属于“视盘”的概率为 0.5,属于“背景”的概率为 0.5。这个像素的真实标签可能是“视盘”,但由于噪声或模糊性,模型无法确定。
预测概率分布:P(视盘)=0.5, P(背景)=0.5
熵的计算公式:H=−∑cP(c)logP(c)
计算熵:H=−(0.5log0.5+0.5log0.5)=1.0
这个熵值较高,表示模型对该像素的预测非常不确定,不确定性很高。
应用到视盘和视杯分割
低熵像素:如果一个像素的预测概率分布集中在某个类别上(如视盘),说明模型对该像素的预测非常确定,这个像素很可能是干净的。
高熵像素:如果一个像素的预测概率分布比较平坦(如视盘和背景的概率都很接近),说明模型对该像素的预测不够确定,这个像素很可能是噪声。
通过计算每个像素的熵,我们可以区分出哪些像素是干净的,哪些像素可能是噪声,从而更好地指导模型的训练。
11.
的含义
这个公式表示噪声像素的损失函数
,用于衡量学生网络的预测
与教师网络的预测
之间的差异。具体来说:
是噪声像素的数量。
表示第 i 个噪声像素。
是第 i 个噪声像素的预测熵。
H 是一个阈值,用于选择不确定性较低的噪声像素。
是指示函数,当
小于阈值 H 时取值为 1,否则为 0。
表示学生网络和教师网络预测之间的平方差。
这个损失函数的作用是利用教师网络的预测来纠正学生网络在噪声像素上的预测,同时通过阈值 H 筛选出不确定性较低的像素,以避免过度拟合噪声。
C. 最终损失
总损失函数遵循半监督学习的模式,包括监督损失 和无监督损失
。总损失表达为:
(公式7)
经验上,我们设置 ,而
是一个逐渐增加的权衡权重,通常由时间依赖的高斯函数安排[18]:
其中 是最大权重,通常设置为0.1[16],
是最大训练迭代次数。这样的
权重表示在开始在线训练时避免了被误导目标所主导。
III. 实验
A. 数据集和预处理
RIGA基准 [19] 是一个公开可用的视网膜视盘和视杯分割数据集,包括来自三个不同来源的 750张彩色眼底图像:460张来自 MESSIDOR,195张来自 BinRushed,95张来自 Magrabia。视盘和视杯轮廓的分割掩模由六位青光眼专家手动标注,遵循 RIGA基准 [19]。我们选择了 195个来自 BinRushed 的样本 和 460个来自 MESSIDOR 的样本 作为训练集,如下 [6]。包含 95个样本 的 Magrabia图像集 被用作测试集来评估模型。我们选择第一位专家的标注作为训练集的 真值。为了更好地评估方法的性能,我们构建了两个测试集,分别使用第一位专家(Rater1)标注的掩模和所有专家多数投票产生的(MajorityVote)作为真值。
B. 实现和评估指标
我们使用 Python 和 PyTorch 实现了我们的方法和比较方法,并在配备 24GB RAM 的 NVIDIA GeForce RTX 3090 GPU 上进行计算。我们使用 LinkNet [17] 作为主干,并使用 Adam优化器(betas = (0.9, 0.99))进行训练。我们将初始学习率设置为 5e-4,每 2000次迭代 减少 10倍,共进行了 100次训练轮次,并保持批处理大小为 8。输入网络的图像大小被缩放到 256×256像素,并使用每个通道的均值和标准差进行 归一化。为了评估模型的性能,我们计算了每个类别的 交集比(IoU) 和 Dice系数,不包括背景。
C. 在RIGA数据集上的实验
表 I 展示了应用于两个不同测试集(MajorityVote 和 Rater1)的各种分割方法获得的定量结果。关注评估的性能指标,表格展示了 IoUdisc、IoUcup、Dicedisc 和 Dicecup 的结果,这些是分割精度的关键指标。我们观察到 LinkNet 虽然提供了有竞争力的性能,但在所有指标上都不如 MPNN。Co-teaching、TriNet、2SRnT、MTCL 和 PINT 也表现出了不错的结果,但它们没有超过 MPNN 的结果。在这些策略中,显然 MPNN 是一个杰出的执行者。它实现了 IoUdisc 为 85.22%,IoUcup 为 78.11%,Dicedisc 为 91.83%,Dicecup 为 87.25% 的显著指标。
D. 参数消融研究
为了确定 MPNN 在 RIGA 数据集 上的合适参数,特别是在伪标签生成过程中,我们在 MajorityVote 场景下进行了消融实验。
表 II 展示了不同数量的伪标签对 MPNN 分割精度的影响。当考虑 IoUdisc 指标时,模型的性能从 K=3 时的 83.52% 逐步提高到 K=4 时的 84.90%,进一步提高到 K=5 时的显著 85.22%。同样,IoUcup 指标从 K=3 时的 76.94% 提高到 K=4 时的 77.70%,然后显著提高到 K=5 时的 78.11%。此外,Dice 系数(Dicedisc 和 Dicecup)也显示出类似的增加。然而,当 K=6 时,出现了一个值得注意的观察结果:性能指标与 K=5 时获得的结果相比略有下降。这一观察强调了在训练过程中引入伪标签时保持平衡的重要性。虽然额外的伪标签可以帮助捕获更多的标签噪声,但过多的数量可能会导致宝贵先验知识的稀释。这一见解鼓励进一步研究整合伪标签的最佳数量,考虑到信息丰富和引入噪声风险之间的权衡。
E. 组件消融研究
为了评估每个 MPNN 组件的有效性,我们使用不同的变体进行了消融研究。我们的消融实验结果如表 IV 所示。评估是在 MajorityVote 场景下进行的。
符号 × 表示在计算相应损失时没有区分相应的像素集。
当我们输入噪声像素和干净像素而不区分它们时,MPNN 的性能是中等的。正如预期的那样,当只考虑干净像素或噪声像素时,MPNN 方法显示出显著的改进。此外,当同时利用干净像素和噪声像素时,MPNN 方法进一步显示出增强的结果。图 3 显示了我们隔离的噪声像素集合,主要在分割边缘。我们选择多个伪标签的策略是一种“过度校正是必要的”策略。过滤后的噪声像素必然包含模型可以自信预测的实例。这也解释了为什么引入额外的噪声标签进行一致性损失会产生更好的结果。
IV. 结论
在本文中,我们介绍了一种标签去噪方法——多伪标签噪声感知网络(MPNN),用于精确的视盘和视杯分割。所提出的MPGGD模块使用多个具有不同初始化的网络拟合同一训练集,并在达到某个阈值后停止训练,以获得训练集的多个伪标签。随后,我们的方法可以通过利用多个伪标签之间的共识来区分噪声和干净像素,并基于教师-学生架构为噪声和干净像素提出不同的学习策略。通过对RIGA数据集的广泛实验,我们的方法在视盘和视杯分割任务上表现良好。可视化结果进一步验证了我们提出的方法的卓越性能和强大的去噪能力。然而,具有模糊边界的各种医学图像分割任务之间存在显著差异,这些差异可能会显著影响算法性能。因此,将所提出的MPNN成功扩展到其他具有模糊边界的医学图像分割领域是一个值得深入探索的方向。
致谢
这项研究得到了中国浙江省自然科学基金(批准号LDT23F01015F01和LY21F020004)、江苏省自然科学基金(批准号BK20220266)和中国国家自然科学基金(批准号61572243)的支持,以及丽水学院学科建设(浙江省一流学科,学科名称:智能科学与技术)项目(批准号XK0430403005)。