CardiacNet:从超声心动图视频中学习重建用于心脏病评估的异常
个人总结:
目的:心脏病评估,主要是三种病EF、肺动脉高压(PAH)和房间隔缺损 (ASD)
原因:超声心动图视频进行心脏病评估的现有方法,忽视了心脏结构的局部特征,且性能仍然有限。
现有的基于重建的方法主要设计用于(CT)、(MRI) 和 X 射线模式,侧重于具有低级别细节的异常,例如肿瘤、骨折和异常心脏结构。在超声心动图中直接运用结果较差,因为它需要考虑心脏呈现的局部结构和运动信息。
模型:本文提出一种基于重建的方法CardiacNet学习心脏结构和运动的异常,用来诊断超声心动图视频中的疾病。该方法分为3个部件CDC(模拟正常和异常病例之间的重建过程,使模型能够学习与疾病相关的局部结构异常和运动变化)、CDD(提高重构视频的质量,并以判别方式保持与真实视频的时空一致性)和双向重建网络(促进正常和异常情况的特征分布的学习,捕捉形变规律)。
CDC:引入 向量量化(VQ) 表示局部区域形变模式,保持空间和时间一致性;使用 最优传输(Optimal Transport) 度量正常与异常之间的分布差异。
CDD:两个判别器(空间一致性判别器:逐帧判断图像真假;时间一致性判别器:从整体视频角度判断真假。)
双向重建网络:使用两个网络 ϕA 和 ϕB 分别从正常重建异常,从异常重建正常,捕捉形变规律;使用 L1 损失和对抗损失训练。
数据集:额外添加两个数据集,专门用于诊断PAH和ASD
缺陷:1.只能区分正常、异常,不能细化严重程度;2. 尚未融合多模态数据与语言知识(只能诊断超声心动图)
摘要:
超声心动图视频在分析心脏功能和诊断心脏病方面起着至关重要的作用。当前的深度神经网络方法主要旨在通过整合先验知识来提高诊断准确性,例如分割由人类专家注释的心脏结构或病变。然而,诊断心脏在空间和时间维度上存在的不一致行为仍然极具挑战性。例如,对心脏运动的分析需要从心跳周期中获取空间和时间信息。
为了解决这个问题,我们提出了一种名为 CardiacNet 的新型基于重建的方法,以通过超声心动图视频更好地了解局部心脏结构和运动异常。CardiacNet 伴随着一致性变形密码簿 (CDC) 和一致性变形判别器 (CDD),通过结合心脏先验知识来了解异常和正常样本的共性。此外,我们提出了名为 CardiacNet-PAH 和 CardiacNet-ASD 的基准数据集,用于评估心脏病评估的有效性。在实验中,我们的 CardiacNet 可以在公共数据集 CAMUS、EchoNet 和我们的数据集上的三种不同的心脏病评估任务中取得最先进的结果。代码和数据集可从以下位置获得:https://github.com/xmedlab/CardiacNet
1.介绍:
背景:超声心动图视频是心脏医学领域使用最广泛、最容易获得的成像方式,已被提议作为评估各种心脏病的宝贵工具,如先天性心脏病和非典型心脏运动。目前,有几种人工智能方法可用于评估和评价超声心动图中的心脏病。例如,EchoNet是一种最先进的心脏评估方法,它采用 R2+1D 网络从超声心动图视频中提取全局时空特征用于预测射血分数 (EF)。
缺点:然而,虽然这些方法擅长捕获时空信息,但它们往往忽视了心脏结构的局部特征,特别是周期性心跳运动。此外,它们的性能仍然有限,这限制了它们对更广泛的心脏病的适应性。
评估方法:为了开发心脏病评估的一般方法,我们确定了两个重要特征,它们涵盖了广泛的常见心脏病,包括 EF、肺动脉高压(PAH)和房间隔缺损 (ASD)。
(1)局部结构异常是指在超声心动图视频的单帧内在局部区域表现出明显和独特异常的心脏病。如图 1(a-b) 所示,可以在房间隔中观察到一个孔(以红色突出显示),从而使血液在左心房和右心房之间混合。
(2)心脏运动异常是指在超声心动图视频的单帧中可能没有明显显著异常,但可以通过视频中观察到的局部心脏结构运动异常来发现的心脏病。例如,在图 1(c-d) 中,基于单帧超声心动图视频,PAH 患者和正常个体之间的心脏结构没有明显差异。因此,非常有必要开发一种方法,通过超声心动图更好地了解局部心脏结构的时间和空间模式。
现有的基于分类和回归的疾病评估方法通常侧重于全局信息,并且难以捕获局部表征。相比之下,基于重建的方法通过准确重建异常和正常病例,从而提供更直观的解决方案,从而更深入地了解异常分布,捕捉细粒度细节,并获得准确的疾病评估结果。然而,现有的基于重建的方法主要设计用于计算机断层扫描 (CT)、磁共振成像 (MRI) 和 X 射线模式,侧重于具有低级别细节的异常,例如肿瘤、骨折和异常心脏结构。当将这些方法直接应用于我们的数据集时,它们在评估特定心脏疾病方面的表现伴有复杂异常的缓解通常不令人满意;参见表 2 和表 3。这主要是因为从超声心动图视频中重建异常更具挑战性,因为它需要考虑心脏呈现的局部结构和运动信息。
为此,我们提出了一种称为 CardiacNet 的新方法来评估各种心脏病。我们的主要假设是,一旦模型具备了从正常病例中准确重建异常的能力,它就可以更好地了解疾病的局部结构细节和运动变化,反之亦然。(简单来说,模型能根据正常病例重建异常,了解疾病的局部细节和运动变化,也能反过来根据疾病局部细节和运动变化重建异常。这里的异常指的是疾病带来的超声心动图中明显病变地方,有些是局部特征,有些是根据时间确定)
CardiacNet 由三个关键组件组成:(1) 一致性变形代码簿 (CDC)旨在模拟正常和异常病例之间的重建过程,使模型能够学习与疾病相关的局部结构异常和运动变化。
(2)一致性变形判别器 (CDD) 旨在提高重构视频的质量,并以判别方式保持与真实视频的时空一致性。它通过保留心脏运动特性来防止重建结果的退化,并引入区域区分以保持心脏结构信息的局部一致性。
(3) 我们引入了一个双向重建网络,以促进正常和异常情况的特征分布的学习。这种方法增强了重建过程,使我们能够建立各自的分布并显式优化这两个不同组的分布。
数据集:两个公开可用的数据集 CAMUS和 EchoNet来评估我们的 EF 预测方法,这是唯一公开可用的用于心脏病评估的超声心动图视频数据集。为了全面评估 CardiacNet 在各种心脏病中的性能,引入了两个基准数据集,即 CardiacNet-PAH 和 CardiacNetASD,专为 PAH 和 ASD 评估而设计。
表 1 提供了我们的数据集与公共数据集之间的详细比较。实验结果表明,CardiacNet 在包括 EF、PAH 和 ASD 在内的三项心脏病评估任务中实现了最先进的性能。
本文主要贡献:1)构建了两个基准数据集,CardiacNet-PAH 和 CardiacNet-ASD,专为使用超声心动图视频评估心脏病而设计。
2)CardiacNet可以捕捉局部结构细节和心脏运动变化,从而准确评估心脏病。
3)CardiacNet 在对 PAH 和 ASD 进行分类方面超越了之前的工作,准确率提高了 2.1% 和 5.0%。与 EF 预测任务中的先前技术相比,CardiacNet 还实现了 5.2% 的相对误差减少。
2.相关作品
2.1不同模式的疾病分析
目前,在不同模态(如 CT、MRI 和 X 射线)上进行基于深度学习的医学图像表示学习通常使用重建方法。他们通常从正常对照组中学习分布,并检测具有重要低级细节的分布异常,例如肿瘤和骨折。这些方法难以区分特定疾病的复杂异常,因为该模型更侧重于独立重建每个样本,而缺乏对数据样本的考虑。
梯度加权类激活映射可以突出来自网络的特征图的分类决策。
注意力旨在通过引入注意力机制来突出异常的分布外特征。使用解剖学引导的注意力模块来描述异常位置的置信度,并将它们视为显式特征以微调分类网络。然而,这些方法依赖于易受噪声影响且缺乏准确定位异常区域的精度的分类主干。
上述方法适用于其他医学方式,主要关注具有明显病变和病理的医学图像,但缺乏对心脏数据的时空信息的考虑。
2.2超声心动图视频中的心脏病评估
对于超声心动图视频,异常分析可分为异常分类和异常可视化,它们为适应分类的激活图可视化和基于重建的方法提供了基线。
首先调整区域心肌壁运动跟踪以检测异常并量化心脏功能。然而,它只关注单个心脏结构,而忽略了其他信息。
首次尝试从异常病例中重建正常组的超声心动图视频,以进行先天性心脏缺陷(CHD)检测。然而,这种方法几乎没有考虑心脏形态学的先验知识。缺乏特征约束也导致重建图像的质量低。
CAMUS和 EchoNetDynamic是最早提出用于心脏功能评估的超声心动图视频数据集的先驱研究。它们还引入了分割信息,以供参考,以预测射血分数分数。然而,这项任务只揭示了一个心脏功能参数,无法对其他心脏病进行分类。
为了克服这些问题,我们因此提出了一种新的 CardiacNet,它通过引入心脏的先验知识,在正常和异常病例之间建立了一致的形态变形关系,这有助于实现在更多不同任务中准确评估。本文新的 CardiacNet-PAH 和 CardiacNetASD 数据集提供了两种与心脏形态异常和运动功能障碍相关的不同心脏病。
3,方法
CardiacNet,如图 2 所示。在层次结构上,CMT 由双向重建管道组成,该管道模拟从 “正常 ”到 “异常 ”情况的变形过程以及相反的过程。
一致性变形代码手册 (CDC) 旨在制定变形过程,允许模型从具有特定心脏病的数据样本中识别心脏结构和运动的模式,并期望重建结果与真实样本的相应特征相匹配。
一致性变形判别器(CDD)模块是为了区分重构结果在空间和时间上是否与真实数据样本一致。它还保证了高质量的超声心动图视频重建。
3.1双向重建网络
如图 2 所示,两个独立的网络φA(·) 和φB(·) 具有相同的特征提取器、形变代码簿和解码器,响应“正常”和“异常”之间的情况重建过程。以来自正常样本中超声心动图视频的输入X∈RN×H×W×3
为例,其中 N 是 X 的总帧号。首先,将 X 的每一帧划分为规则的非重叠面片,并使用随机采样的面片子集执行遮罩。然后,计算重建的异常结果φA(X)
。最后,网络 φB(·) 将 φA(X)(记作XR )转换为与原始输入X 相同的正常结果。以 L1 损失作为我们的监督重建损失,如下所示:
LreconX,XR=|X-XR|
其中 ||· ||表示 L1 norm。从异常集合中采样的重构异常φA(·)
和真实情况将被 CDD 判别并计算对抗性损失Ladv
。从异常情况重建正常结果的过程与上述描述共享相同的处理管道。
3.2一致性变形代码册CDC
第 1 节和研究表明,人类心脏在结构和形态上保持相似,心脏病的病变及其运动通常由主要结构及其子结构的特定位置主导(参见图 1)。通过大量经过专家确认的医疗病例,可以在样本之间学习到正常与异常心脏结构和运动的模式。
一致性变形代码册(CDC) 的主要目标是从医疗案例中制定模式。我们假设网络理解特定疾病的表示,该疾病也可以从异常或其相反过程重建正常。因此,为了模拟这种行为,1)拟议的 CDC 构建了不同心脏结构的区域表示,以保持原始超声心动图视频和重建超声心动图视频之间的时间和空间特性一致;2)为了区分从“正常”到“异常”的变形及其反转过程,我们利用传输距离来分配大数据样本中两种不同分布的差异,并优化网络φA(·) 和φB(·) 的 CDC 模块。
一致的变形编码。如第 3.1 节和图 3 中描述的管道,CDC 从输入接收由网络的特征提取器 ξ(·) 编码的特征图 F。如上所述,在超声心动图视频中,区域性地制定变形过程是更自然的拟合。为了执行这种方法,我们将连续特征 F 离散化,并以矢量量化方式在区域上重建其潜在表示。我们首先将 F 改写为 F = {Fn;i;j}n,i,jN×h×w⊂ Rd,用于查询codebook条目 Z = {Zk}k=1K⊂ Rd,其中 K 是条目的总长度。在此步骤中,直接应用codebook来量化视频会破坏时间一致性。
因此,我们添加了可学习的位置编码 P = {Pn}k=1K⊂ Rd 特征沿时间维度映射 F,这保证了本地和全局的时间一致性。给定后续的元素量化 σ(·),我们生成重构的异常特征 σ(F ),如下所示:
对于 CDC 的损失,根据之前的研究,我们通过公式 3 对 CDC 进行端到端训练。
其中,II、sg[⋅]和 λ分别表示网络 φ(⋅)的输入、停止梯度(stop-gradient)操作,以及第二个损失项的权重系数(该值设置为 0.25)。公式(3)确保了网络对Z 的稳定学习,因为在训练过程中,维度无量纲的嵌入空间可能会无限增长。为了优化(CDC),我们使用指数移动平均(EMA, Exponential Moving Average)方法来更新代码簿Z,更新方式如下公式所示:
其中 ω 是更新设置为 0.01 的当前码簿的权重。
最佳运输距离优化。第 3.2 节中 CDC 模块的codebook被提出来通过数据集中的所有数据样本来制定变形过程的模式。为了区分网络φA(·)和φB(·)的码本学习的正常集和异常集的分布,更直观的方法是使用相对熵来表示一种概率分布与另一种概率分布的不同。在本文中,我们采用最优输运测量,并期望最大化正常集和异常集之间的变形距离。如图 4 所示,特征编码器的网络φA(·)和 φB(·)
响应,从正常情况 X 和异常情况 Y 计算 FX、 FY。相应的,我们可以直接优化φA(·)和φB(·)的codebook之间的距离,从而优化来自条目的经验分布,而不是数据集中每个类别对应的所有数据样本。然而,由于每个代码簿中的条目彼此无关且存在冗余,不同代码簿中相同位置的条目之间并不匹配、也不等价,因此它们之间的距离可以在少数几次迭代中被轻易最大化。这种无序的匹配方式将导致优化失效,从而表明隐式优化方法并不适用于我们的方法。
为了解决这个问题,我们构建了两个更新的内存库,以迭代存储 CDC 编码的正常和异常情况的特征,这近似于数据样本的空间分布。与使用 EMA 更新码本ZA和ZB类似,在内存库MA、MB 中,我们将祖先特征替换为公式 2 中的当前后代特征,并使用 EMA 方法更新质心。然后,在码本间使用 Wasserstein 距离和 Sinkhorn 迭代显式计算传输距离,其公式如下:
其中 J 表示存储在内存库 M 中的样本数, Mj,i表示 M 中第 j 个样本的第 i 维。Πi(·) 是一种映射函数,用于最小化两个内存库之间样本的传输距离,如下所示:
此外,我们最小化了电流量化特征与相应 memory bank 的质心之间的距离。因此,我们使用将 M 中所有样本的特征平均为M的代表性质心。然后,质心M用于测量与量化特征 ̃F(在公式 2 中定义)的差异,损失表示为以下形式:
同样,将对异常输入 Y 进行相同的作。优化 CDC 的总体损失 L 为:
其中FIθ=ξθ(I)和FIθ=σ(FIθ,Zθ,Pθ)表示 θ ∈ {A, B}),I ∈ {X, Y } 表示成对的 (X, Y) 输入。
最佳运输距离优化,这一段有点绕,简单来说,就说CDC模块的codebook 分别提取正常和异常的分布,如果考虑直接比较codebook得出差异在哪里,实际上是行不通的,因为codebook的条目是乱序且没有对应关系的,那么直接匹配不行,会人为导致相当大的“差异”,所以引入两个记忆库,分布存放正常和异常样本的特征。不过两者对比仍然需要移动,也就是 “最优传输距离”来显式地衡量正常与异常之间的结构差异。最优传输可以被理解为:将一堆特征从一个分布“搬运”到另一个分布,所需的最小成本,成本越大说明差异越大。
3.3一致性变形判别器CDD
CDD 的引入确保了重建的超声心动图视频在其空间和时间视觉特性(例如纹理和颜色)上保持一致。此外,判别器充当对手,迫使重建的结果在语义特性上与真实数据一致,例如特定心脏病的结构异常和运动功能障碍。因此,CDD 由两个判别器组成,分别表示为 ηS(·) 和 ηT(·),用于区分重建的结果和真实样本。空间一致性的 ηS(·) 区分视频的每一帧,而 ηT(·) 响应以整个视频作为输入的时间一致性。以从正常到异常的重建过程为例,我们让 { Xn}Nn=1 = ϕA(X)和{ ˆYn}Nn=1 = ˆY分别表示重建的视频和真实的异常视频。如图 3 所示,全局而言,我们使用 ηT(·) 来区分整个重建的视频 φA(X) 和采样的真实视频 ˆY ,作为等式 9 中的第一项。ηT(·) 将 φA(X) 和 ˆY 的每一帧按顺序作为空间辨别的图像对,作为公式 9 中的第二项。
对于局部,我们需要保证心脏的每个区域也能进行高质量的重建,并与真实病例保持一致。例如,对于将正常 X 重建为异常 φA(X) 的过程,重建结果 φA(X) 与真实异常样本 Y 之间的运动差异对于一个人来说应该保持一致。因此,我们首先将 ˆY 和 φA(X) 转换为不重叠的补丁,如 { ˆY}i, { ˆX}i∈ R,其中 ,∈ Z、W 和 H 是输入图像的宽高,w 和 h 是特征图的宽高大小。全局和局部歧视的总体对抗性损失可以表述为以下公式:
为了解决整体和局部歧视的必要性,我们进行了如第 4.4 节和表 4 所示的消融研究。对于总体对抗性损失,根据公式 9,我们有
。最后,应用 CMT 的端到端训练,并结合 CDC 和 CDD 的损失,我们的 CardiacNet 的总体损失为
CDD由两个判别器组成,空间一致性的 ηS(·) 区分视频的每一帧,而 ηT(·) 响应以整个视频作为输入的时间一致性。(空间一致性判别器:逐帧判断图像真假。时间一致性判别器:从整体视频角度判断真假。)
4.实验
4.1数据集
我们在三个数据集上评估了我们的方法,包括两个公共数据集 CAMUS和 Echonet-Dynami,(EF)以及我们收集的数据集 CardiacNetPAH 和 CardiacNet-ASD。
CardiacNet-PAH 和 CardiacNet-ASD。我们从四家合作医院收集数据集。为保证所有超声心动图视频均符合标准,每个病例都接受了来自根尖四腔心脏(A4C)视图的视频,由 5-6 名经验丰富的医生收集、注释和批准。在道德上,我们严格遵守医学研究的道德标准,并确保当地伦理委员会批准所有图像数据收集和实验。如表 1 所示,CardiacNet-PAH 由 496 例用于肺动脉高压(PAH)分类的病例组成,通过右心导管测量访问和批准患者的诊断。在 CardiacNet-ASD 中,231 例房间隔缺损(ASD)分类病例由经验丰富的医生诊断和注释。每个视频的分辨率为 800×600 或 1024×768,具体取决于扫描仪的类型(飞利浦或 HITACHI)。总共收集了 727个视频,每个视频由 100 多帧组成,至少覆盖两个心跳周期。我们还收集了心脏结构的像素级注释用于重建评估,包括 A4C 视图中左心室 (LV) 、右心室 (RV)、左心房 (LA) 和右心房 (RA) 的掩码。为每个视频提供 5 个帧的像素级注释掩码。
CAMUS和 EchoNet-Dynamic。CAMUS 由 500 个超声心动图视频组成,带有左心室、心肌和左心房的像素级注释。EchoNet-Dynamic(EchoNet) 是最大的超声心动图视频数据集,包括 10,030 个视频。两个数据集都注释了左心室分割的 2 帧 (舒张末期和收缩末期)。为回归任务的每个视频提供射血分数 (EF) 分数。在本文中,我们遵循在 CMAUS 和 EchoNet 中的用例,其中 EF ≤ 50% 作为异常组,而 EF ≥ 55% 作为分类类别的正常组。
4.2训练细节
训练。我们方法的支柱建立在生成网络之上。我们使用 Adam 优化器训练模型,权重衰减为 1e,动量为 0.9。该模型总共训练了 1000 个 epoch,初始学习率为 2.25e,每 400 个 epoch 学习率降低 0.1 倍。在我们的实验中,批量大小设置为 2。对于空间数据增强,将每个帧的大小调整为 144 × 144,然后随机裁剪为 112 × 112。这些帧也被随机地垂直和水平翻转。对于时间数据增强,我们从超声心动图视频中随机选择了 48 个连续帧,并等距采样了 16 帧作为输入。CardiacNet 以 8:1:1 的比例进行拆分,用于训练、验证和测试。对于 CAMUS 和 EchoNet 数据集,我们遵循与 CardiacNet 相同的数据论证配方。我们还遵循官方设置和 [25] 提供的默认数据集分割。
推理和测试。在这个阶段,我们采用了从最终迭代中保存的网络 φA(·) 的特征提取器 ξA(·) 作为我们的测试模型。对于DIAC 疾病评估任务,分类和回归,我们首先在训练好的模型中冻结特征提取器的参数。然后,对于每个输入,我们扁平化了特征,并使用单个线性层微调了不同的任务。我们报告最终结果并在测试集上执行可视化。在此阶段,除了将帧大小调整为 144 × 144 并将中心裁剪应用于 112 × 112 外,我们不会对输入超声心动图视频进行任何论证。对于推理中输入视频的长度,输入帧数为 16,采样率为 4。为了评估重建结果,我们根据数据集提供的分割注释训练了一个分割网络。在推理过程中,预训练网络 φA(·) 的重建结果将被输入到分割网络并执行评估。
评估指标。对于 PAH、ASD 和 EF 分类,我们使用 ROC 曲线下面积 (AUC) 和分类准确性 (ACC) 来评估经过训练的网络在异常分类方面的性能。我们预测 EF 值并报告评估射血分数 (EF) 分数的 CAMUS 和 Echonet 数据集的平均绝对误差 (MAE)。为了评估重建质量,我们使用 Fréchet Inception Distance (FID) 来评估恢复图像的质量。对于 ASD,我们还引入了 DICE 评分,以评估恢复的图像是否与心脏结构的心室和心房中的原始图像一致。这是因为从 ASD 恢复到正常不会影响心脏结构的体积。对于每种方法,我们还通过报告推理时间、参数数量 (MParams) 和 Tera-Flops (TFlops) 来比较它们的效率。
4.3结果
CardiacNet-PAH 和 CardiacNet-ASD 的结果。表 2 说明了 CardiacNet-PAH 中 PAH 分类结果的比较结果。我们目前将开源方法分为分类/回归模型和基于重建的模型。AUC-ROC 和 ACC 说明了模型在区分正常和异常病例方面的性能。我们的 CardiacNet 在 AUC-ROC 和 ACC 中分别达到 89.32% 和 85.71%,而 HiFuse以 84.11% 和 83.67% 的成绩排名第二,其中 CardiacNet 分别以 +5.21% 和 +2.04% 的成绩超越。表明我们的方法可以大大优于其他方法。对于重建图像质量评估,与 Wolleb 等的 FID 评分达到 16.12 分相比,我们的方法可以达到 14.73,这表明我们的方法可以在超声心动图视频中执行更好的重建质量。
与 PAH 分类相比,对 ASD 进行分类是一项更容易的任务,因为 ASD 表现出更显着的形态学异常。对于 CardiacNet-ASD 中的分类性能,我们的方法呈现的 AUC-ROC 和 ACC 分别为 91.24% 和 89.63%,比最佳基线 DeepGuid高出 +6.22% 和 +4.84%。如表 2 所示,CardiacNet 的 FID 分数为 15.22,比第二好的方法 Wolleb 提高了 0.56。此外,为了评估重建图像在不同心脏结构的体积大小上是一致的,我们的方法获得了 73.52% 的最佳 Dice 分数,而其他方法则明显低于 70%。
EF
CAMUS 和 EchoNet 上的结果。如表 3 在 CAMUS 和 EchoNet 列中所示,对于两个数据集中 EF 分数预测的回归任务,我们的方法获得的结果比其他方法好得多,回归任务中的 MAE 分别为 5.97 和 3.83。相比之下,第二好的方法 HiFus在 MAE 中分别只有 6.34 和 4.08。说明我们的方法 CardiacNet 能够为回归任务学习更好的表示。对于疾病分类,该方法在 CMUAS 中的 AUC-ROC 和 ACC 分别为 83.09% 和 79.11%,而在 EchoNet 中达到 86.52% 和 84.70%。第二好的方法是 HiFuse,在 CAMUS 中 AUC-ROC 和 ACC 分别为 80.26% 和 76.13%,在 EchoNet 中分别为 85.73% 和 82.41%。
结果表明,我们的方法在对舒张末期 (ED) 和收缩末期 (ES) 左心室心内膜异常患者进行分类时更准确。与其他方法重建高质量视频相比,我们的方法在 CMUAS 和 EchoNet 数据集中可以达到 14.64 和 13.25 的 FID 分数,而 Wolleb 等在 CMUAS 和 EchoNet 数据集中可以达到 15.17 和 13.18 的分数,在 EchoNet 数据集中具有更高的重建质量。
4.4消融研究
一致性变形代码手册CDC。如表 5 所示,CDC 模块的消融研究包括位置编码和最佳运输。与禁用这两个模块的结果相比,用于时间一致性的位置编码可以将 FID 的重建质量提高约 1.34 倍,将分类准确率提高约 20%。最优运输贡献的上述两个数字的改善约为 0.84% 和 30%。这些结果表明,位置嵌入和最佳运输都是有效的,可以帮助 CardiacNet 更好地了解心脏病的表征。此外,我们在图 5 中可视化了 PAH 患者和正常病例的嵌入特征。我们的重建网络在不使用额外层的情况下产生嵌入特征,这表明我们的 CDC 可以帮助区分心脏结构和运动异常。
一致性变形判别器CDD。如表 6 所示,全局和本地判别器都可以为 CDD 模块做出贡献。由于它们对补丁内空间和时间一致性的限制(参见第 3.3 节),CDD 带来了重建图像质量的改进。仅使用全局或局部判别器会导致 FID 分数和分类准确性显着下降。表 4 中的消融研究表明,CDD、CDC 和 CardiacNet 的组合在重建和分类方面都取得了最佳性能。
重建案例的可视化。如图 6 所示,与其他重建方法相比,我们的方法能够从异常情况下重建可能的 “正常 ”图像。我们重建的图像仍然具有很高的质量,并且可以提供更合理的可视化结果,并得到经验丰富的医生的认可。如两个不同的病例所示,在保持重建质量的同时,可以区分和恢复房间隔的消失和异常的右心房容积。
5.结论
在本文中,我们首次提出了一种新的 CardiacNet,用于通过超声心动图视频了解心脏病的形态学异常和运动功能障碍。我们引入了一个新的基准数据集,其中包括两种不同类型的心脏病以及心脏结构分割。所有病例均由经验丰富的医生进行注释和确认,这可以极大地促进医学影像分析界的发展,并进一步促进检测心脏病形态异常和运动功能障碍的发展。在我们未来的研究中,我们将进一步探索更细粒度的超声心动图视频重建,通过形态学病变的可视化实现疾病的症状分级。此外,我们将尝试引入其他最先进的技术,例如大型语言模型 (LLM) 和多模态融合,以产生更精确和稳健的结果。