当前位置: 首页 > ops >正文

计算机视觉的四项基本任务辨析

计算机视觉是使计算机能理解采集设备采集的图像视频的一门学科,目的是让计算机实现人的视觉功能——对客观世界的三维场景的感知、识别和理解。换句话说,要让计算机具备通过二维图像认识三维环境的能力。

目录

三个阶段

视觉层级

基本任务 

技术难点


三个阶段

计算机视觉研究图像包括图像处理、图像分析、图像理解三个阶段。

视觉层级

计算机视觉可以划分为初级视觉、中级视觉、高级视觉三个层级:

初级视觉图像修复、超分辨率重建
中级视觉图像分割、物体检测
高级视觉图像描述、动作识别

基本任务 

计算机视觉包括四项基本任务:分类、定位、检测和分割

  • 分类:解决“图像是什么”的问题,即给定一张图或一段视频,判断图片或视频所属的类别
  • 定位:解决“目标在哪里”的问题,即判断图像中的目标具体在图像的什么位置,位置通常以包围盒的形式表示,通常面向单一或给定数目的目标。
  • 检测:解决“哪里有哪些哪种类别的目标”的问题,即发现图片中的目标并判断目标种类,检测任务面向的图像中出现的目标种类和数目都不定。
  • 分割:解决“每个像素属于哪个目标/场景”的问题,分为。检测只需要框出每个目标的包围盒,分割则需要进一步判断图像中哪些像素属于哪个目标。分割包括语义分割、实例分割和全景分割,语义分割不区分属于相同类别的不同实例,实例分割则需要区分出哪些像素属于相同类别的不同实例。全景分割可以认为是实例分割和语义分割的结合。

技术难点

难点示例
平面内旋状物品正放、倒放、侧放的检测
超平面旋转肢体等三维动作的检测
背景干扰复杂场景下的目标检测
光照变化图片过曝或图片过暗

http://www.xdnf.cn/news/17087.html

相关文章:

  • Android audio之 AudioDeviceInventory
  • 飞算JavaAI需求转SpringBoot项目:从零到一的沉浸式开发之旅
  • 人工智能之数学基础:利用全概率公式如何将复杂事件转为简单事件
  • 学习游戏制作记录(将各种属性应用于战斗以及实体的死亡)8.5
  • DM8日常运维命令总结(四)
  • Go语言 string
  • 数据结构——双向链表
  • Linux 调度器函数sched_*系统调用及示例
  • 【音视频】WebRTC 一对一通话-信令服
  • Go语言实战案例:使用context控制协程取消
  • 算法训练之哈希表
  • Java后端高频面试题
  • React在使用create-react-app创建项目慢的解决办法
  • python的高校考研交流系统
  • 基于ARM+FPGA多通道超声信号采集与传输系统设计
  • 广州客户 戴尔R720服务器 liunx系统 RAID5无损升级扩容
  • 注意点:Git 从安装到分支协作、冲突解决的完整步骤 ---待修改,没看这个步骤,需要重新整理步骤
  • JavaWeb(苍穹外卖)--学习笔记17(Websocket)
  • 国产三防平板电脑是什么?三防平板推荐
  • 前端包管理器深度对比
  • VUE2 学习笔记18 路由守卫
  • Mysql使用Canal服务同步数据->ElasticSearch
  • 数据挖掘,到底是在挖掘什么?
  • Golang 基本数据类型
  • 智慧工业复杂目标检测精度跃升:陌讯多模态融合算法实战解析
  • mac前端环境安装
  • 机器学习之KNN、贝叶斯与决策树算法
  • 自动驾驶控制算法——MPC控制算法
  • 浮雕软件Artcam安装包百度云网盘下载与安装指南
  • Redis(六):分布式锁