[U-Net-Dual]DEU-Net
论文题目:DEU-Net: Dual-Encoder U-Net for Automated Skin Lesion Segmentation
中文题目:DEU-Net:用于自动皮肤病变分割的双编码器U-Net
0摘要
皮肤病的计算机辅助诊断(CAD)在很大程度上依赖于皮肤病变的自动分割,尽管由于病变在形状、大小、颜色和纹理上的多样性以及与周围组织的潜在模糊边界而呈现出相当大的挑战。在本研究中,我们提出了一种新的U形网络,双编码器U网(DEU-Net),DEU-Net集成了包括卷积编码器和Transformer编码器的双编码器分支,从而便于局部特征和全局上下文信息的同时提取。此外,为了提高DEU-Net的性能,我们采用了一种集成的测试时间增强技术。为了确定我们提出的方法的效率和优越性,我们在四个广泛访问的皮肤病变数据集上进行了全面的实验,即ISIC 2016,ISIC 2017,ISIC 2018和PH 2。这些数据集上的Dice系数为92.90%,87.16%、90.81%和95.65%。这些结果表明,与大多数当前最先进的方法相比,具有更好的性能。源代码在www.example.com上发布https://github.com/alikm6/DEU-Net。
关键字:卷积神经网络,皮肤镜图像,皮肤病变分割,Transformer。
1引言
皮肤癌是一种广泛存在的潜在致命性疾病,主要有四种类型:基底细胞癌,通常由阳光照射和放射治疗引起,生长缓慢且很少扩散;鳞状细胞癌,通常由阳光照射或皮肤损伤引起,扩散的可能性为2-5%;默克尔细胞癌,一种罕见的高度侵袭性类型,起源于皮肤下的产癌细胞;黑色素瘤是最具侵袭性的类型,起源于黑素细胞,尽管只占病例的1%,但它是大多数皮肤癌相关死亡的原因。美国癌症协会(ACS)对2023年的预测预计仅在美国就有约97,610例新的黑色素瘤病例,其中约7,990例死亡由该疾病引起[1]。不过,如果能及早发现和诊断,预后会大大改善,可以简单地切除黑色素瘤,确保完全康复。早期诊断的 5 年存活率超过 99%,而晚期发现的 5 年存活率则骤降至 32%以下[2]。这些数据强调了精确医学图像分析在及时诊断和治疗皮肤疾病方面的重要作用。
皮肤镜是一种非侵入性皮肤病成像方式[3],通过提供放大和照明来增强皮肤病变的可见性和清晰度。将特定材料应用于皮肤减少皮肤表面的光反射,使视觉特征更易辨别。利用皮肤镜成像的临床检查比仅基于独立观察的诊断更准确,将诊断敏感性指数提高了10-27% [4]。
一直以来,皮肤科医生都是通过皮肤镜图像直观地识别恶性黑色素瘤。然而,这种方法往往耗时且单调[5],而且由于依赖于个人的专业知识,可能导致诊断不准确或不一致[6]。随着计算机视觉的出现,皮肤病变分割在皮肤病的计算机辅助诊断(CAD)中变得至关重要。这一进步有助于临床医生快速准确地解释皮肤镜图像,同时提供有见地的医学图像分析[7]。研究证实,准确的皮肤病变区域分割和随后的背景噪声降低提高了皮肤病学和计算方法的诊断准确性[8]、[9]、[10]。
然而,皮肤镜图像中皮肤病变的自动分割,旨在将其与周围健康皮肤区分开,是一项复杂且具有挑战性的任务。这种困难源于患者特定因素的多样性,包括皮肤颜色、纹理、病变大小、病变部位形状、病变和非病变区域之间的对比度,以及存在多种伪影,如阴影、反射、不均匀照明、体毛和气泡[11]。图1说明了这些挑战阻碍准确分割的几种皮肤病变。因此,深度学习算法必须达到高精度才能有效地处理皮肤病变分割任务。
传统的皮肤病变分割方法通常采用手工制作的方式,用基于特征的技术来区分病变边界和周围皮肤。这些技术包括阈值方法[13],基于区域的方法[14],基于聚类的方法[15]等。然而,这些方法通常缺乏稳定性和鲁棒性,导致分割结果不太理想,特别是在处理具有显著变化的病变时。此外,这些传统技术通常需要提取预定义的图像特征。深度学习方法已经开发出来以改善这些限制,利用卷积神经网络(CNN)来学习图像特征,从而增强分割性能。
在过去的几年里,一系列深度卷积神经网络,如全卷积网络(FCN)[16]和U-Net [17],在许多领域得到了广泛的应用,特别是在医学图像分割领域。其中,U-Net 是一种常用的医学图像分割网络架构,由编码和解码路径组成。许多U-Net变体,包括U-Net++ [18],3D U-Net [19],V-Net [20]等,在采用各种成像技术的一系列医学图像分割任务中表现出卓越的性能。然而,这些方法往往忽略了关键的全局上下文信息,这是必要的准确的皮肤病变定位。本质上,像素的语义分割涉及在医学图像中具有实质意义的长范围依赖性,特别是对于描绘边界像素。因此,用全局上下文信息丰富特征图并理解医学图像内像素之间的长程依赖关系可以有助于更精确地定位和划分皮肤病变的边界,从而提高分割性能。
U-Net在提升众多医学分割任务的结果方面的实际效用主要归因于连接编码器和解码器的跳跃连接模块。这种编码器--解码器框架通过跳跃连接得到加强,使U-Net能够促进输入数据的低级和高级特征的有效提取。然而,在顺序采样过程中,空间和全局上下文信息的丢失可能会限制分割精度的提高。此外,解码阶段中依赖于较高级别的特征图的连续上采样通常会忽略嵌入较低级别的特征图中的复杂空间信息。因此,获取更多的全局上下文信息对于提高分割性能至关重要[5]。研究人员提出了各种策略来扩大受扩张卷积进步启发的感受野[21],[22]。Lee等人[23]在整个网络中使用扩张卷积来解决模糊边界的问题,使得能够预测边界关键点图以操纵注意力模块。 此外,Wang 等人[24] 采用非局部交互模型,通过对给定特征图中所有位置的特征进行加权求和,计算特定位置的响应,旨在理解长程依赖关系。自注意的基本形式是非局部注意机制,假定其能够计算输入特征映射内存在的所有成对位置之间的相互关系。如今,Transformer模型[25]通过利用自注意机制有效地提取了长程依赖关系,这在自然语言处理和计算机视觉中已经证明是有益的。与非局部神经网络相比,Vision Transformer(ViT)[26]可以捕获具有多个并行注意力头的远程依赖关系。此外,Swin Transformer [27]使用移位窗口和分层特征融合,有效地处理数据中的远程依赖关系。此外,MaxViT [28]通过引入多轴自注意(Max-SA)块,在不损失非局部性的情况下,将ViT的计算复杂度从二次降低到线性。
在这项研究中,我们介绍了双编码器U-Net(DEUNet),这是U-Net的创新分割网络衍生物[17],专门用于解决皮肤病变分割的复杂任务。从开创性的FAT-Net [5]中汲取灵感,我们的方法利用了包括卷积和Transformer分支的双编码器。这种双重框架允许我们同时提取局部特征和全局上下文信息,这是皮肤病变分割中的重要组成部分。为了优化从卷积和Transformer编码器的最后一层导出的特征的融合,我们采用了压缩和激励(SE)模块[29]。SE模块通过调整特征图内的通道权重来有效地激活更有效的通道并抑制不太有用的通道。
此外,受PCANet [30]的启发,并认识到数据蒸馏[31]和模型蒸馏[32]方法的成功,我们在网络测试阶段引入了集成测试时间增强技术。这种方法在测试阶段综合了来自多个模型和转换的见解,增强了模型的鲁棒性并提高了性能。最后,为了评估我们提出的方法的有效性,我们对四个独立的数据集进行了测试:ISIC 2016 [33],ISIC 2017 [12],ISIC 2018 [34],[35]和PH2 [36]。结果证实了我们的新方法产生了期望的结果。我们的研究可以概括为以下主要贡献:
- 引入了一种新的网络DEU-Net,它融合了卷积网络和Transformer网络的优点,实现了上级皮肤病变分割。通过在我们的DEU-Net中使用双编码器取代传统U-Net架构的单分支编码器特性,我们可以捕获丰富的全局上下文信息以及局部特征,用于皮肤病变分割。
-
应用了综合测试时间增强技术,该技术整合了多个模型的预测和测试阶段的各种转换。这种方法增强了模型的稳健性和带来了卓越的结果。
-
使用ISIC 2016、ISIC 2017、ISIC 2018和PH2数据集,将我们的方法与现有方法进行了全面比较。我们的实验结果表明,我们的模型具有上级的准确性。实验结果验证了这种方法的有效性。
本文的结构如下:第二节介绍了相关的工作,第三节介绍了方法,第四节介绍了验证和结果,第五节介绍了讨论和限制,第六节给出了结论。
2相关工作
A.皮肤病变分割网络
在皮肤病变分割领域,传统方法主要依赖于从图像中提取的手工制作的低级特征。Celebi等人[37]提出了一种新的无监督方法,该方法利用统计区域合并算法来检测皮肤镜图像中的边界。Peruch等人[38]开发了一种皮肤病变分割系统,该系统模仿皮肤科医生遵循的过程,包括特征检测、降维、降噪、聚类和后处理。然而,这些基于特征的方法在选择鉴别特征和确定合适的超参数方面存在挑战,限制了它们的发展。</