当前位置: 首页 > news >正文

Deeper and Wider Siamese Networks for Real-Time Visual Tracking

现象

the backbone networks used in Siamese trackers are relatively shallow, such as AlexNet , which does not fully take advantage of the capability of modern deep neural networks.

direct replacement of backbones with existing powerful architectures, such as ResNet and Inception, does not bring improvements.

如果要处理一些比较复杂的视觉问题时,使用孪生网络之前的backbone效果就不太好了(因为网络比较浅,不能充分提取图像的特征。)但是使用一些比较深/宽的网络替换掉之前的backbone后发现其效果反而更差了,所以本文就探索了是什么原因导致的这个现象,并提出了几种不同的backbone

原因/问题:

  • receptive field size
    large increases in the receptive field of neurons lead to reduced feature discriminability and localization precision;
    感受野的增大导致特征差异以及局部精细度感知的降低。

  • feature padding
    the network padding for convolutions induces a positional bias in learning.

    when an object moves near the search range boundary, it is difficult to make an accurate prediction.
    卷积过程中使用的填充会导致位置的偏移,从而导致位于search range边缘的物体检测不准确

  • network stride
    The network stride affects the degree of localization precision, especially for small-sized objects.
    步长会影响局部精度,特别是对于小的物体

本文的创新点/解决

  • 设计了CIR来减少padding的不利影响
  • 控制了步长和感受野大小,并且把CIR加了进来,在孪生网络的基础上设计了两种网络架构。

CIR单元
在这里插入图片描述

  • (a')CIR:The cropping operation removes features whose calculation is affected by the zero-padding signals. Since the padding size is one in the bottleneck layer, only the outermost features on the border of the feature maps are cropped out. This simple operation neatly removes padding-affected features in residual unit.
    相加后得到的特征图的最外面一圈才会受到填充的影响,那就把最后一圈去掉
  • (b')CIR-D:If we were only to insert cropping after the addition operation, as done in the proposed CIR unit, without changing the position of downsampling, the features after cropping would not receive any signal from the outermost pixels in the input image.
    对于像(b)有下采样的卷积,就拿b举例,因为步长是2填充是1,原始图最外面那一圈的信息只包含在特征图最外面一圈中,如果直接像(a')一样把特征图最后一圈裁掉,那么原图最后一圈的信息将会永远丢失。所以作者改变了下采样的顺序(妙啊)

补充

  • 视觉跟踪任务的定义:Visual tracking is one of the fundamental problems in computer vision. It aims to estimate the position of an arbitrary target in a video sequence, given only its location in the initial frame.
  • 孪生网络:
    • 定义:Siamese architecture takes an image pair as input, comprising an exemplar image z and a candidate search image x. The image z represents the object of interest (e.g., an image patch centered on the target object in the first video frame)
      两个input,两个网络,同一类的距离近些,不同类的距离远些。
    • siamese networkVSpseudo-siamese network
      • 左右两边共享权值,是相同的网络:siamese network
      • 如果左右两边不共享权值,时不相同的网络:pseudo-siamese network
  • CNN VS FCN
    • CNN: 在传统的CNN网络中,在最后的卷积层之后会连接上若干个全连接层,将卷积层产生的特征图feature map映射成为一个固定长度的特征向量。一般的CNN结构适用于图像级别的分类和回归任务,因为它们最后都期望得到输入图像的分类的概率。(例如:手写字识别)
    • FCN: FCN是对图像进行像素级的分类(也就是每个像素点都进行分类),从而解决了语义级别的图像分割问题。(例如:确定一张图片上猫的位置)
http://www.xdnf.cn/news/476209.html

相关文章:

  • 香港 GPU 服务器优势及使用场景解析
  • 灌区量测水自动化监测解决方案
  • Git基础使用方法与命令总结
  • MySQL的缓存策略
  • C# 面向对象 构造函数带参无参细节解析
  • 巧记英语四级单词 Unit8-上【晓艳老师版】
  • Android minSdk从21升级24后SO库异常
  • 【Android构建系统】如何在Camera Hal的Android.bp中选择性引用某个模块
  • Springboot 异步场景 使用注解 @Async 及 自定义线程池分模块使用
  • 一分钟了解机器学习
  • 专业版降重指南:如何用Python批量替换同义词?自动化操作不香嘛?
  • STM32 ADC+DMA+TIM触发采样实战:避坑指南与源码解析
  • 宇宙中是否存在量子现象?
  • Jenkins的流水线执行shell脚本执行jar命令后项目未启动未输出日志问题处理
  • #跟着若城学鸿蒙# web篇-运动和方向传感器监测
  • 【愚公系列】《Manus极简入门》042-投资策略分析师:“投资智慧导航”
  • 武汉火影数字全息剧秀制作:科技与艺术的梦幻联动
  • RabbitMQ 消息模式实战:从简单队列到复杂路由(三)
  • 通信安全堡垒:profinet转ethernet ip主网关提升冶炼安全与连接
  • PCL PolygonMesh 与 TextureMesh 源码阅读与简单测试
  • 数据结构进阶:AVL树与红黑树
  • SRS流媒体服务器(5)源码分析之RTMP握手
  • Python中in和is关键字详解和使用
  • C语言实现简单的--队列
  • Redis解析
  • C#将1GB大图裁剪为8张图片
  • 100G QSFP28 BIDI光模块一览:100G单纤高速传输方案|易天光通信
  • 组件导航 (Navigation)+flutter项目搭建-混合开发+分栏
  • Android 中 权限分类及申请方式
  • HNU工训--计算机串口数据收发与测量