当前位置: 首页 > news >正文

OCR、图像分类与目标检测

目录

  • 前言
  • 一、OCR(光学字符识别)‌
    • OCR常见模型‌
      • 1. CRNN(卷积循环神经网络)‌
      • 2. CTPN(连接文本提议网络)‌
      • 3. DBNet(可微分二值化网络)‌
    • OCR常用数据集‌
  • 二、图像分类‌
    • Image Classfication常见模型‌
      • 1. CNN经典架构‌
      • 2. Transformer模型‌
    • Image Classfication常用数据集‌
  • 三、目标检测‌
    • Object Detection常见模型‌
      • 1. 双阶段模型‌
      • 2. 单阶段模型‌
    • Object Detection常用数据集‌
  • 总结‌

前言

本文简单介绍下人工智能领域中的OCR,图像分类与目标检测等任务,将从常见模型,常用数据集等方面做入门介绍。

一、OCR(光学字符识别)‌

OCR常见模型‌

1. CRNN(卷积循环神经网络)‌

结合CNN特征提取与RNN序列建模,支持端到端不定长文本识别,适用于水平文本识别。

2. CTPN(连接文本提议网络)‌

通过固定宽度锚框检测文本行,再合并成完整文本框,擅长自然场景水平文本检测。

3. DBNet(可微分二值化网络)‌

创新可学习阈值分割模块,精准处理弯曲、遮挡等复杂文本,检测效率高。
MonkeyOCR(2025新模型)‌
轻量级文档解析模型(3B参数),支持多类型文档(公式、表格)解析,速度达0.84页/秒。

OCR常用数据集‌

OCR任务常用数据集有SynthText, ICDAR, COCO-Text等。

数据集特点
SynthText‌合成数据集,含80万图、800万文本,模拟自然场景文本分布
ICDAR系列‌自然场景文本检测与识别基准
http://www.xdnf.cn/news/953641.html

相关文章:

  • 雷达RCS计算中的旋转矩阵
  • 在Ubuntu上利用loongarch64交叉编译工具编译opencv4.4.0
  • 【排错】ollama报错unable to load model
  • 【知识点】第8章:程序设计方法论
  • CKA考试知识点分享(6)---PriorityClass
  • 自动化测试工具playwright中文文档-------19.评估JavaScript
  • 初版BL程序一些细节整理(碎碎念)
  • 相机Camera日志实例分析之二:相机Camx【专业模式开启直方图拍照】单帧流程日志详解
  • 无线耳机存储痛点解决方案-64Mb Quad-SPI Pseudo-SRAM CS56404L
  • 向量几何的二元性:叉乘模长与内积投影的深层联系
  • 安宝特方案丨从依赖经验到数据驱动:AR套件重构特种装备装配与质检全流程
  • SQL注入篇-sqlmap的配置和使用
  • 分布式计算框架学习笔记
  • 我的世界Java版1.21.4的Fabric模组开发教程(十二)方块状态
  • UE5 文本框自动换行
  • 苍穹外卖--缓存菜品
  • 用docker来安装部署freeswitch记录
  • “一张网,万般用”——聊聊网络虚拟化到底怎么实现的
  • 大话软工笔记—记录形式
  • React从基础入门到高级实战:React 实战项目 - 项目五:微前端与模块化架构
  • XCTF-web-easyupload
  • Python 实现 Web 静态服务器(HTTP 协议)
  • 语义化商品详情API:AI赋能下一代电商平台数据接口的创新应用
  • 【Dv3Admin】系统视图菜单管理API文件解析
  • ArcGIS Pro 3.4 二次开发 - 栅格
  • 【李沐-动手学深度学习v2】1.Colab学习环境配置
  • 如何给浏览器安装WeTab插件
  • 安宝特方案丨XRSOP人员作业标准化管理平台:AR智慧点检验收套件
  • 图片组件baseImage
  • Redux完整指南:从入门到精通