当前位置: 首页 > news >正文

【技术追踪】MMFusion:用于食管癌淋巴结转移诊断的多模态扩散模型(MICCAI-2024)

  条件特征引导的扩散模型消除信息冗余~


论文: MMFusion: Multi-modality Diffusion Model for Lymph Node Metastasis Diagnosis in Esophageal Cancer
代码:https://github.com/wuchengyu123/MMFusion


0、摘要

  准确的计算机辅助癌症进展诊断能够帮助医生有效制定个性化的治疗方案。(临床意义

  然而,基于多模态的方法可能会引入信息冗余,导致性能下降。此外,多模态表示之间的高效互动仍需进一步探索,目前在多模态特征的预后相关性方面缺乏深入研究。(当前不足

  本研究提出了一种基于多模态异构图的条件特征引导扩散模型,用于基于 CT 图像以及临床测量和影像组学数据的淋巴结转移诊断。

  为了探究多模态特征之间的复杂关系,本文构建了一个异构图。随后,采用条件特征引导的扩散方法以消除信息冗余。此外,提出了一种 masked 关系表示学习策略,旨在揭示原发肿瘤和淋巴结图像表征之间的潜在预后相关性和优先级。


1、引言

1.1、研究意义与当前挑战

  (1)整合各种数据来源以识别淋巴结转移(LNM)指标具有挑战性,因此,建立一个可靠的肿瘤进展分期系统对于确保临床决策的一致性和客观性,以及定制治疗策略至关重要;
  (2)已有的研究通常仅将来自不同模态的特征简单地组合成一个新的向量,这种做法可能会忽略不同类型特征之间内在的医学先验特征关系以及数据模式之间的复杂交互;

1.2、本文贡献

  (1)收集了一个包含 1354 例食管鳞状细胞癌(ESCC)病例的多模态数据集,利用多种模态进行淋巴结转移诊断;
  (2)采用基于多模态异构图的条件特征引导扩散(Conditional Feature-guided Diffusion,CFD)过程来探索数据间的关系,有效减少了多模态特征中的冗余,并实现了模型性能的最优化;
  (3)引入了多组织掩码关系表示学习(Multi-issue Masked Relational Representation Learning,MMRL)策略,通过利用组织内自注意力和组织间关系掩码自注意力进行表征学习,探索组织间关系的优先级建模以及预后信息的交互学习;


2、方法

2.1、结构概述

  本节概述了用于淋巴结转移(LNM)诊断的多模态淋巴结转移扩散(MMFusion)模型。如 图 1 所示,最初通过将相应的掩膜应用于原始 CT 扫描图像,获得肿瘤(GTV-T)和淋巴结(GTV-N)的靶区体积(GTV)。

  随后,利用预训练的 ResNet 提取GTV-N x N i , i ∈ { 1 , 2 , 3 } x^i_N,i∈\{1,2,3\} xNi,i{1,2,3} 和 GTV-T x T x_T xT 的潜在成像表示,并通过 MMRL 策略处理这些数据,以识别疾病相关信息及多组织潜在表示之间的预后相关性优先级。

  这些特征与血液学、临床及放射组学数据整合至异构图中。通过 HGA 流程,借助图注意力网络(GAT)技术,识别潜在的多模态特征交互。最后,采用 CFD 方法消除多模态特征冗余。

  
Figure 1 | MMFusion 框架概述:首先,MMRL 策略用于从图像表示中提取相关性;接着,采用 HGA 促进多模态特征间的交互作用;最后,通过 CFD 方法消除特征冗余;

在这里插入图片描述

2.2、多组织掩码关系学习(MMRL)策略

  所提出的 MMRL 策略受文献[32]启发,旨在探索和学习多组织间的预后相关关系优先级及交互信息。如 图 2 所示,以淋巴结靶区体积(GTV-N)分支为例展开阐述,该方法首先将多头自注意力(Multi-head Self Attention, MSA)应用于拼接后的 GTV-N 表征,从而生成组织内的表征 x N S x^S_N xNS

  随后,进行跨组织 MSA。在此阶段,通过在原始关系矩阵 R c r o s s M R^M_{cross} RcrossM 上应用随机掩码,生成掩码关系矩阵 R c r o s s R_{cross} Rcross 。这一过程分别获取了 unmasked 和 masked 的跨组织表示,分别标记为 x N c u x^{cu}_N xNcu x N c m x^{cm}_N xNcm

  在实际应用中,掩码跨组织表征 x N c m x^{cm}_N xNcm 在训练阶段与 x N S x^S_N xNS 进行合并,而 x N c u x^{cu}_N xNcu 则在推理阶段与 x N S x^S_N xNS 合并。为了确保特征保存的完整性,在 x N c u x^{cu}_N xNcu x N c m x^{cm}_N xNcm 之间实施了对齐损失,以强制执行关系建模约束。
  
Figure 2 | 多组织掩码关系表示学习(MMRL)策略的架构:

在这里插入图片描述

2.3、基于多模态异构图的条件特征引导扩散模型

2.3.1、异构图聚合(HGA)模块

  在图论中,异构图通常表示为 G = ( V , E , A , R ) \mathcal G =(\mathcal V,\mathcal E,\mathcal A,\mathcal R) G=(V,E,A,R),其中每个顶点 a i ∈ A a_i∈\mathcal A aiA 的特征矩阵为 F a i ∈ R ∣ V a i ∣ × d a i F_{a_i}∈\mathbb R ^{|\mathcal V_{a_i}|×d_{a_i}} FaiRVai×dai,其任务是学习所有 v ∈ V v∈\mathcal V vV d d d 维顶点表征 h v ∈ R d h_v∈\mathbb R^d hvRd 以捕捉图 G \mathcal G G 中涉及的结构和关系信息, E ∈ R \mathcal E∈\mathcal R ER 表示边的集合。

  HGA 模块专注于整合其他模态的信息,以捕捉多模态特征间的潜在交互。因此,本文构建了一个异构图,每个模态数据类型仅有一个顶点, ∀ a i ∈ A : ∣ V a i ∣ = 1 ∀a_i∈\mathcal A:|\mathcal V_{a_i} | = 1 aiA:Vai=1,并利用 GAT 模型来识别这些交互。

  为了确保考虑所有不同模态间的可能关系,本文采用了全连接图,在每一层中,节点特征 F a i F_{a_i} Fai 将通过其注意力邻近模态更新为 F a i ′ F^′_{a_i} Fai,具体公式如下:
在这里插入图片描述

2.3.2、条件特征引导扩散(CFD)方法

  为了消除特征冗余并实现多模态的精确建模,基于 CARD 开发了一种新的扩散模型。在前向过程中,根据 HGA 输出的特征,在任意时间步 t ∈ [ 1 , T ] t∈[1,T ] t[1,T] 条件下,向真实值 y 0 y_0 y0 添加高斯噪声,该噪声定义为:
在这里插入图片描述
  在反向处理过程中,去噪 UNet 用于学习噪声分布,并在 HGA 输出特征的引导下,从噪声分布中生成最终预测值 y ~ 0 \widetilde y_0 y 0。这一过程可定义为:
在这里插入图片描述
  其中 θ θ θ 作为 UNet 去噪过程中的参数。具体而言,推理阶段的逆向过程可形式化为:
在这里插入图片描述
  其中, y t y_t yt 表示 CFD 在时间步 t t t 处的去噪输出。通过在输出特征 f ∅ ( x ) f_\emptyset(x) f(x) 的引导下进行去噪处理,可以有效消除多模态表示中的冗余信息。

2.4、优化方法

  在模型优化过程中,损失函数主要由两部分构成。对于非扩散部分,采用二元交叉熵(BCE)作为分类的主要损失函数。此外,在MMRL策略中,用于 masked 和 unmasked 表示对齐的损失函数为均方误差(MSE)。非扩散部分的损失函数定义如下:
在这里插入图片描述
  其中, y ^ \hat y y^ y 0 y_0 y0 分别是 HGA 模块的输出预测和真实值。 x N c u x^{cu}_N xNcu x N c m x^{cm}_N xNcm 是在 MMRL 策略中对 GTV-N 进行未屏蔽和已屏蔽的中间表示。在扩散部分,使用去噪 UNet ϵ θ \epsilon_θ ϵθ 预测噪声分布,并将其加入前向过程。扩散部分的损失函数定义如下:
在这里插入图片描述
  其中 ϵ \epsilon ϵ 代表高斯噪声,最终损失函数可表示为:
在这里插入图片描述


3、实验与结果

3.1、数据集

  (1)纳入1354例食管鳞状细胞癌(ESCC)患者,包括术前增强CT、临床病理参数以及随访信息;
  (2)执行三折交叉验证;

3.2、实验结果

  
Table 1 | 所提出的方案与其他 SOTA 方法的比较研究:

在这里插入图片描述
  
Table 2 | 消融研究: Base1 去除了模型中的所有组件,仅保留了标准的 ResNet 和 MLP;将 MMRL 策略整合到 Base1 中,形成了 Base2;接着,通过将 HGA 模块集成到 Base2 中,得到了 Base3;

在这里插入图片描述
  
Table 3 | 对所提出方法的骨干和关系掩码替换研究:

在这里插入图片描述
  
Figure 3 | 通过 t-SNE 算法从 HGA 模型中提取去噪后的多模态特征嵌入输出,红色和蓝色分别代表转移性和非转移性:随着时间步长编码过程的推进,特征冗余逐渐消除,导致分布更加清晰,DB 分数更低,这表明本文的模型能够有效进行 LNM 诊断;

在这里插入图片描述


  嘶,扩散模型还有这作用(⊙o⊙)

http://www.xdnf.cn/news/995185.html

相关文章:

  • Linux部署bmc TrueSight 监控agent步骤
  • Java学习笔记之:初识nginx
  • js判断手机操作系统(ios、安卓、华为)
  • 分享在日常开发中常用的ES6知识点【面试常考】
  • “储能+热泵+AI”三维驱动,美的能源定义能源科技新未来
  • 【深度解读】混合架构数据保护实战
  • 从零搭建智能家居:香橙派+HomeAssistant实战指南
  • LlamaIndex 工作流 上下文状态和流式传输事件
  • SpringBoot+Junit在IDEA中实现查询数据库的单元测试
  • 代码训练LeetCode(32)Z字形变换
  • chrome138版本及以上el-input的textarea输入问题
  • 鸿蒙北向应用开发:新增ts文件出现的问题
  • 【狂飙AGI】第1课:大模型概述
  • QT+VTK 中QWidget与QVTKOpenGLNativeWidget的使用
  • python打卡第52天
  • 如何从 Ansys SpaceClaim 模型中提取 CAD 数据,该模型是在我计算机上安装的未来版本中创建的?
  • Kafka问题排查笔记
  • 全局搜索正则表达式grep
  • 用volatile修饰数组代表什么意思,Java
  • physicsnemo开源程序是开源深度学习框架,用于使用最先进的 Physics-ML 方法构建、训练和微调深度学习模型
  • 接到数据分析任务后,怎么判断是分类还是回归?什么时候你该考虑换模型?
  • Centos8 安装 达梦数据库
  • OpenLayers 加载格网和经纬网
  • STM32通用定时器TRC含义解析
  • 【数据传输常用命令】:服务器与本地之间的数据传输
  • FastDFS分布式储存
  • 保诚发布PRUD币,重塑Web3健康金融生态版图
  • 【AI应用开发数据基建】从非结构化数据到结构化知识的通用转化流程
  • 达梦数据库适配的 Druid 连接池深度优化指南
  • 远程管理命令:网卡和IP地址的概念