当前位置: 首页 > java >正文

YOLO-实例分割头

记录

介绍实例分割头的 网络结构,以及在推理阶段后处理流程

1.对三个特征图P3,P4,P5的处理及输出

对于目标检测头Detect  和 实例分割头Segment  其输入都是一样,三个不同通道数,不同长宽的特征图输入。 

即三个输入为:

分割头部分

最后得到分割头的输出(上图最右边)

在拿到分割结果后,使用该结果进行后处理,得到最终输出结果

1.特征层输入

输入三个特种层P3,P4,P5

P3 (1,64,80,80)

P4    (1,128,40,40)

P5   (1,256,20,20)

 第一条支路,输出原型掩码

期间经过一条转置卷积上采样 HW从 80x80 变为160x160

第二条支路,输出掩码系数

内部包含三条小支路,

将三个输入的特征图通道数转换为

P3: 64 --》32

P4: 128--》32

P5: 256--》32

第三条支路,原来目标检测任务中的检测头 Detect

将Detect Head结果进行后处理   输出为   (1,84,8400),以及原来的三个输出结果

将三个支路的输出进行整合,输出两个结果

结果1

x[0],mc

x[0]=116=  80个类别+4bbox+32mc (原型掩码·)

结果2

x[1],mc,p

检测头输出、原型掩码、掩码系数

 上述图:左图代表第一条支路,右图代表 第二条支路

2.后处理

 

一组掩码系数为32个, 表示对于32个通用形状基底的权重, 每个实例掩膜是32个通用形状的加权和

针对分割头(有两个输出)的第一个输出,使用NMS, 将8400检测实例  剔除部分后,仅保留5个(这里是举例子,具体结合实际),38表示   x1,y1,x2,y2,confidence,class, 32个掩码系数

将32个原型掩码  乘以 掩码系数(160x160=25600),  进行加权和操作 @  -->得到(5,25600),再经过view得到 (5,160,160), 至此得到5个实例(object)的mask

(这个有些晕了,不清楚是否正确)

将 5个实例的bbox   (5,4)  与  5个实例的mask  (5,160,160)

 进行crop_mask操作

crop_mask 

将落在bbox的mask进行保留, 落在bbox以外的maks进行去除 

然后对bbox里面的mask进行  阈值截断,bbox内部mask的数值:0~0.5的置0, 0.5~1置1

效果如下:

白色对图像右下角的人的一部分像素

 

原来mask尺寸为160x160,经过双线性插值上采样,得到mask为640x640

个人:

看完了,但是比较疑惑? 

1.原图如果为1280x720,  是不是实例分割效果会比  原图为640x720会差一些,因为将1280x720压缩到640x640, 则1280x720中的小像素目标可能会有信息丢失,

2.该怎么改进分割头呢?加上深度可分离卷积吗?  类似yolo11的detect head

问题后续看看,查看是否有答案?()

参考资料:

bup-Enzo-Mi

yolo 实例分割 | Segmentation Head 结构 与 推理阶段后处理流程_哔哩哔哩_bilibili

http://www.xdnf.cn/news/16033.html

相关文章:

  • 使用vue-pdf-embed发现某些文件不显示内容
  • 能协调控制器的硬件与软件组成及解决方案
  • 16.多生成树MSTP
  • 图论的整合
  • 前端--bom、JQuery
  • 大数据量查询计算引发数据库CPU告警问题复盘
  • WAF 防护与漏洞扫描联动:让安全防御更精准高效
  • python办自动化--读取邮箱中特定的邮件,并下载特定的附件
  • 数据库—修改某字段默认值
  • importlib.import_module() 的用法与实战案例
  • Java值传递和构造函数
  • Java 并发性深度解析
  • C# 基于halcon的视觉工作流-章21-点查找
  • 【前端】ikun-pptx编辑器前瞻问题一: pptx的xml样式, 使用html能100%还原么
  • 【计算机网络 篇】TCP基本认识和TCP三次握手相关问题
  • 基于springboot的医院后台管理系统的设计与实现(源码+论文)
  • 【python数据结构算法篇】python算法
  • Ubuntu 虚拟机配置 与Windows互传文件
  • 零事故网站重构:11步标准化流程与风险管理指南
  • PHICOMM(斐讯)N1盒子 - Armbian25.05(Debian 12)刷入U盘/EMMC
  • 【Spring Boot】Spring Boot循环依赖破解:@Lazy与Setter注入的取舍指南(流程图修复版)
  • Oracle RAC+ADG switchover 切换演练流程
  • 【文献笔记】ARS: Automatic Routing Solver with Large Language Models
  • LabVIEW 2025安装包| 免费免激活版下载| 附图文详细安装教程
  • Tailwind CSS快速上手 Tailwind CSS的安装、配置、使用
  • 使用qt编写上位机程序,出现串口死掉无法接受数据的bug
  • 【windows修复】解决windows10,没有【相机] 功能问题
  • 前端学习 4:一些术语集合
  • 自研能管项目开发界面
  • uniapp “requestPayment:fail [payment支付宝:62009]未知错误“