当前位置: 首页 > java >正文

计算机视觉CS231n学习(6)

图像分割、定位、检测
  1. 概念区分

    1. 语义分割

      没有目标,只有像素

    2. 分类+定位

      单个目标

    3. 目标检测

      多目标

    4. 实例分割

      多目标

  2. 语义分割 semantic segmantation

    定义:给每个像素标记类别,不区分实例,只关心像素

    语义分割方法:滑动窗口(效率低,重复计算特征)和全卷积网络(用卷积层一次性预测所有像素,结合下采样(downsampling)与上采样(upsampling))

  3. 上采样

    上采样方法:

    1. 非池化(Unpooling ,以2×2输入扩展为4×4为例)

      1. Nearest Neighbor:在这里插入图片描述

      2. Bed of Nails:在这里插入图片描述

    2. 最大非池化(Max Unpooling 利用池化时记录的最大位置恢复尺寸)

      下采样层与上采样层的对应配对:

      在这里插入图片描述

    3. 转置卷积(Transpose Convolution):通过矩阵转置实现

      在这里插入图片描述

      在这里插入图片描述

  4. 分类+定位与人体姿态估计

    1. 分类+定位

      将定位视为回归问题,在分类网络基础上增加全连接层输出边界框坐标(x,y,w,h),损失函数为分类损失(softmax loss)+定位损失(L2 loss),常利用ImageNet预训练模型迁移学习

    2. 人体姿态估计

      人体姿态估计作为分类+定位的扩展,将姿态表示为14个关节点坐标(左右脚、膝盖、髋部等),通过网络输出关节点坐标并计算L2损失

  5. 目标检测

    1. 目标检测需要处理多对象,指出直接回归(输出数量不固定)和滑动窗口(计算量大)的问题,引入区域提议(region proposals)方法(如selectives search)快速生成可能含对象的区域

    2. R-CNN框架

      通过区域提议获取约2k个区域,warp后输入CNN提取特征,用SVM分类,并回归边界框,指出其缺陷:训练目标零散、速度慢,VGG16推理时间47s/张

    3. Fast R-CNN

      Fast R-CNN改进为整图通过CNN生成特征图,用RoI Pooling统一区域特征尺寸,多任务损失联合训练分类与定位,推理时间进一步缩短至0.32s/张(含区域提议)

    4. Faster R-CNN

      Faster R-CNN引入区域提议网络(RPN),让CNN自主生成提议,联合训练4种损失(1.RPN分类损失2.RPN回归边界框损失3.最终分类损失4.最终回归边界框损失),推理时间进一步缩短至0.2s/张

    5. YOLO/SSD 无提议检测

      YOLO/SSD为单阶段检测,将图像划分为网格,每个网格预测固定数量边界框及类别分数,输出张量尺寸固定,速度快但精度略低

  6. 实例分割

    1. Mask R-CNN在Faster R-CNN基础上增加Mask分支,用RoI Align替代RoI Pooling提升精度,可同时完成分类、定位、实例分割及人体姿态估计,效果优异
http://www.xdnf.cn/news/17458.html

相关文章:

  • 基于遗传优化的稀疏线阵最优排布算法matlab仿真
  • day30-HTTP
  • 嵌入式C语言高效操作寄存器指南
  • Jenkins全链路教程——并行任务与超时控制
  • 应急响应。
  • Swift 实战:秒算两个数组的交集(LeetCode 349)
  • 快手短剧用户破新高, 累计付费用户数同比提升4倍
  • 【linux基础】Linux 文本处理核心命令指南
  • 力扣 30 天 JavaScript 挑战 第二题笔记
  • 【RH134知识点问答题】第 3 章:分析和存储日志
  • 永磁同步电机无速度算法--零速启动非线性磁链观测器
  • QT第二讲-信号和槽
  • 企业WEB服务器nginx新手超详细讲解
  • 机器学习DBSCAN密度聚类
  • 【线程池】压测确定线程池合适的参数
  • 华为实验:DHCP 典型配置
  • 深入理解Qt事件处理机制
  • 新手向:Python开发简易待办事项应用
  • Linux 中CentOS Stream 8 - yum -y update 异常报错问题
  • [每周一更]-(第155期):深入Go反射机制:架构师视角下的动态力量与工程智慧
  • Spring Boot自定义Starter:从原理到实战全解析
  • GM3568JHF:FPGA+ARM异构开发板环境搭建教程
  • 免费PDF编辑软件 pdf24-creator 及其安装包
  • C语言(10)——结构体、联合体、枚举
  • 【Vapor Mode】Vue 从“运行时“优化转向“编译时“优化的范式跃迁
  • Java基础-TCP通信单服务器接受多客户端
  • Linux运维新手的修炼手扎之第27天
  • 1.2.3 迅猛发展期(2020年至今)
  • 从免费到盈利:Coze智能体1小时封装变现全流程指南——井云科技
  • SQL基本