当前位置: 首页 > ds >正文

顶会idea:Mamba+CNN暴力涨点新突破!

2025深度学习发论文&模型涨点之——Mamba+CNN

卷积神经网络(CNN)凭借其局部感知、权重共享和平移不变性等特性,在计算机视觉领域长期占据主导地位。然而,随着Transformer架构的兴起,其全局建模能力和动态注意力机制在多项任务中展现出显著优势,但也因二次计算复杂度面临长序列应用的瓶颈。在此背景下,状态空间模型(State Space Models, SSMs)尤其是Mamba架构的提出,通过选择性状态机制和线性复杂度特性,为长序列建模提供了新的范式。

值得注意的是,CNN与Mamba的融合正逐渐成为研究热点:一方面,CNN的局部特征提取能力能有效弥补纯SSM模型在细粒度视觉特征捕获上的不足;另一方面,Mamba的全局上下文建模和序列依赖性处理能力可突破CNN感受野的固有局限。这种混合架构在医学图像分析、视频理解、高分辨率遥感等任务中已表现出显著优势,例如通过CNN骨干网络提取多层次空间特征后,由Mamba模块进行跨区域关系建模,或在频域中结合两者的归纳偏置。

我整理了一些Mamba+CNN【论文+代码】合集,需要的同学公人人人号【AI创新工场】发525自取。

论文精选

论文1:

CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation

CM-UNet:用于遥感图像语义分割的混合CNN-Mamba UNet

方法

      CNN编码器:使用ResNet作为编码器,提取多尺度局部特征。

      Mamba解码器:引入基于Mamba的解码器,用于聚合和整合全局信息。

      CSMamba块:设计了CSMamba块,结合通道和空间注意力机制,增强特征交互和全局-局部信息融合。

      多尺度注意力聚合(MSAA)模块:用于合并不同尺度的特征,优化特征融合。

      多输出监督:在解码器的各个阶段引入中间监督,逐步生成语义分割结果。

      图片

        创新点

        性能提升:在ISPRS Potsdam数据集上,CM-UNet的mF1为93.05%,OA为91.86%,mIoU为87.21%,相比UNetformer分别提升了0.25%、0.56%和0.41%。

        全局-局部信息融合:通过CSMamba块和MSAA模块,有效整合全局和局部信息,提升分割精度。

        计算效率:利用Mamba架构的线性时间复杂度,提高了处理大规模遥感图像的效率。

        多尺度特征学习:通过MSAA模块,增强了对多尺度特征的融合能力,进一步提升分割性能。

        图片

        论文2:

        Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for Scribble-based Medical Image Segmentation

        Weak-Mamba-UNet:视觉Mamba让CNN和ViT在基于涂鸦的医学图像分割中表现更好

        方法

        CNN-UNet:使用基于CNN的UNet进行局部特征提取。

        SwinUNet:使用基于Swin Transformer的SwinUNet进行全局上下文理解。

        Mamba-UNet:使用基于Mamba的Mamba-UNet进行长距离依赖建模。

        多视图交叉监督学习:通过伪标签实现不同网络之间的协作和迭代学习。

        伪标签生成:结合三个网络的预测生成密集伪标签,用于密集信号监督。

        图片

        创新点

          性能提升:在MRI心脏分割数据集上,Weak-Mamba-UNet的Dice系数为0.9171,准确率为0.9963,相比仅使用UNet或SwinUNet的框架,分别提升了约1.8%和1.3%。

          多视图交叉监督:通过CNN、ViT和Mamba三种架构的协作,增强了在有限监督下的分割性能。

          伪标签机制:利用伪标签实现从稀疏标签到密集信号的转换,提升了网络的泛化能力。

          Mamba架构的应用:首次将Mamba架构应用于基于涂鸦的医学图像分割任务,验证了其在弱监督学习中的有效性。

          图片

          论文3:

          On the low-shot transferability of [V]-Mamba

          关于[V]-Mamba的低样本迁移能力

          方法

            线性探测(LP):通过线性分类器对预训练模型进行微调,适应下游任务。

            视觉提示(VP):通过输入变换和输出映射层对预训练模型进行调整,适应下游任务。

            模型比较:对比Vision Transformers(ViTs)和State Space Models(SSMs)在不同低样本数据预算下的迁移性能。

            实验设置:在多个下游数据集(如CIFAR-10、SVHN等)上进行实验,评估不同模型的迁移能力。

            图片

            创新点

            性能提升:在使用线性探测(LP)时,[V]-Mamba在多数数据集上的性能优于或等于ViTs。

            迁移能力:在使用视觉提示(VP)时,[V]-Mamba的性能弱于或等于ViTs。

            模型规模相关性:观察到[V]-Mamba模型规模越大,LP和VP之间的性能差距越明显。

            迁移方法的对比:通过对比LP和VP两种迁移方法,揭示了[V]-Mamba在不同迁移策略下的表现差异,为后续研究提供了新的视角。

            图片

            http://www.xdnf.cn/news/2861.html

            相关文章:

          • vue复习91~135
          • Blender插件 幽灵拖尾特效动画 Ghosts V1.0
          • 重测序关系矩阵构建方式汇总
          • 什么是SCADA系统?
          • Redis ⑦-set | Zset
          • [OS] POSIX C库介绍
          • pgrep和pkill命令详解
          • Dockerfile讲解与示例汇总
          • C#进阶学习(十六)C#中的迭代器
          • VASP 教程:VASP 结合 phonopy 计算硅的声子谱
          • Electron 入门指南
          • [minilibc] 库文件的调用放置
          • 案例篇:如何用tcpdump和Wireshark识别潜在威胁
          • 大学之大:韩国科学技术研究院2025.4.28
          • Python依据卫星TLE轨道根数,计算可见时间窗口
          • Web 基础与Nginx访问统计
          • SECS-I vs HSMS-SS vs HSMS-GS 通信控制对比明细表
          • TypeScript 实用类型深度解析:Partial、Pick、Record 的妙用
          • SQL常用数据清洗语句
          • Python爬虫学习路径与实战指南 02
          • 苍穹外卖10
          • React学习
          • Spring系列四:AOP切面编程第四部分
          • 计网分层体系结构(包括OSI,IP,两者对比和相关概念)
          • 免费LUT网站
          • 花费7元训练自己的GPT 2模型
          • 4月28日信息差全景:国际局势、科技突破与市场震荡一、国际政治与安全:俄乌冲突关键转折
          • 利用Python生成Xilinx FPGA ROM IP核 .coe初始化文件
          • Python面试问题
          • 贪心算法-2208.将数组和减半的最小操作数-力扣(LeetCode)