当前位置: 首页 > backend >正文

论文解析[13] MIXED TRANSFORMER U-NET FOR MEDICAL IMAGE SEGMENTATION

发表年份:2021
论文地址:https://arxiv.org/abs/2111.04734
代码地址:https://github.com/dootmaan/mt-unet

文章目录

  • 摘要
  • 2 方法
    • 2.1 总体结构
    • 2.2 Mixed Transformer Module
    • 2.3 Local-Global Gaussian-Weighted Self-Attention
      • 2.3.1 Local-Global Self-Attention
      • 2.3.2 Gaussian-Weighted Axial Attention
    • 2.4 External Attention
  • 3 实验
  • 4 结论

摘要

由于Vision Transformer天生可以通过Self-Attention(SA)来提取长距离的相关性,经常被用于分割结构。然而,Transformer通常依赖于大尺度的预训练和很高的计算复杂度。并且,SA只能对单个样本的自相关性进行建模,忽略了整个数据集的潜在相关性。

为了解决这个问题,我们提出了一个全新的Transformer模块MTM,可以同时进行样本之间的和内部的相关性学习。

MTM首先计算自相关性通过Local-Global Gaussian-Weighted Self-Attention(LGG-SA)。通过External Attention(EA)来挖掘数据样本之间的内部连接。

通过使用MTM,我们建造了一个U型模型Mixed Transformer U-Net (MT-UNet) 用于精确的医学图像分割。

2 方法

2.1 总体结构

在这里插入图片描述
基于一个解码器-编码器结构,当解码时使用跳跃连接来保持低水平的特征。

MTM仅用于空间尺度更小的深层来减少计算开销,上层仍然使用经典的卷积操作。因为我们想要在初始层关注局部的关系,因为它们包含更多的高分辨率细节。

2.2 Mixed Transformer Module

在这里插入图片描述
MTM包括LGG-SA和EA。

LGG-SA用于建模不同粒度的短距离和长距离依赖。EA用于利用样本之间的联系。

这个模块用于替代原始的Transformer编码器,由于它在视觉任务上更好的的表现和更低的时间复杂度。

2.3 Local-Global Gaussian-Weighted Self-Attention

在这里插入图片描述
LGG-SA体现了聚焦计算的想法。不像传统的SA对所有token使用相同的注意,LGG-SA可以更多的关注于临近的区域,因为local-global的策略和高斯掩码。实验证明,它可以提升模型表现,也节约了计算资源。

2.3.1 Local-Global Self-Attention

SA旨在捕获输入序列的所有实体之间的相互联系。为了实现目标,SA引入了三个矩阵,key(K)、query(Q)和value(V)。这三个矩阵是输入X的线性变换。

Local SA计算每个窗口中的自相关性

尝试的传播函数中,Lightweight Dynamic Convolution (LDConv)是表现最好的。

在这里插入图片描述

2.3.2 Gaussian-Weighted Axial Attention

不像LSA使用原始的SA,我们提出了Gaussian-Weighted Axial Attention (GWAA)用于GSA。

S ( q , K ) S(q,K) S(q,K) 表示q和K之间的相似度,高斯权重为 e − D i , j 2 2 σ 2 e^{-\frac{D^2_{i,j}}{2σ^2}} e2σ2Di,j2,输出结果为:

在这里插入图片描述
因为想让方差是可学习的,可以写成:

在这里插入图片描述
可以简单使用w来表示 D i , j 2 D^2_{i,j} Di,j2之前的系数, w D i , j 2 w D^2_{i,j} wDi,j2也充当相对位置偏置,通过它可以在MTM中强调位置信息。它提高了显式提供相对关系的模型性能,这是普通绝对位置嵌入无法做到的。

2.4 External Attention

EA首先被提出解决SA不能挖掘不同样本之间的关系。不像SA使用每个样本自己的线性变换来计算注意力分数,EA中每个样本共享两个注意力单元 M K M_K MK M V M_V MV,用于描绘整个数据集中最关键的信息。

在我们的设计中,一个附加的线性映射是用于扩大矩阵Q的通道,进而提升这个模块的表示学习能力。

3 实验

在这里插入图片描述
在这里插入图片描述

4 结论

我们提出了一个有效的名为MT-UNet的ViT用于医学图像分割。模型的特点在于MTM,由于LGG-SA和EA,能够同时学习内部和外部的关联。提出的模型有更低的时间复杂度,在我们的实验中超过了sota的ViT。

http://www.xdnf.cn/news/4591.html

相关文章:

  • 【C++】C++11(上)
  • RDD的处理过程
  • vue3的新特性
  • Spring cloud loadBalancer 负载均衡
  • Qwen2-VL详解
  • Unity3D 游戏内存优化策略
  • Anchor-based 和 Anchor-free
  • 修改图像分辨率
  • SLAM:单应矩阵,本质矩阵,基本矩阵详解和对应的c++实现
  • AtCoder 第404场初级竞赛 A~E题解
  • 【无标题】云计算运维
  • 代码随想录算法训练营第60期第二十九天打卡
  • 前端代码规范详细配置
  • CSS手动布局
  • 60页PDF | 四川电信数据湖 + 数据中台实施方案:覆盖数据能力、数据资产及数据治理的全流程建设指南
  • 从xjtu-sy数据集中看轴承故障的发展趋势与基本特征
  • 南京大学OpenHarmony技术俱乐部正式揭牌 仓颉编程语言引领生态创新
  • 5. HTML 转义字符:在网页中正确显示特殊符号
  • Linux系列:如何用perf跟踪.NET程序的mmap泄露
  • 水印落幕 7.0 | 专门用于去除图片和视频中水印的工具,支持自定义水印添加
  • 【测试开发】BUG篇 - 从理解BUG到如何处理
  • 递归element-ui el-menu 实现无限级子菜单
  • Spring 项目无法连接 MySQL:Nacos 配置误区排查与解决
  • AI——认知建模工具:ACT-R
  • #黑马点评#(二)商户查询缓存
  • 新疆地区主要灾害链总结
  • 网络编程(一)
  • seamless_communication,facebook推出的开源语音翻译项目
  • 代码随想录算法训练营 Day39 动态规划Ⅶ 打家劫舍
  • 数据可视化:php+echarts实现数据可视化(包含echart安装引入)