当前位置：首页 > news >正文

OCR、图像分类与目标检测

news 2025/6/10 7:13:47

目录

前言
一、OCR（光学字符识别）‌
- OCR常见模型‌
- - 1. CRNN（卷积循环神经网络）‌
  - 2. CTPN（连接文本提议网络）‌
  - 3. DBNet（可微分二值化网络）‌
- OCR常用数据集‌
二、图像分类‌
- Image Classfication常见模型‌
- - 1. CNN经典架构‌
  - 2. Transformer模型‌
- Image Classfication常用数据集‌
三、目标检测‌
- Object Detection常见模型‌
- - 1. 双阶段模型‌
  - 2. 单阶段模型‌
- Object Detection常用数据集‌
总结‌

前言

本文简单介绍下人工智能领域中的OCR，图像分类与目标检测等任务，将从常见模型，常用数据集等方面做入门介绍。

一、OCR（光学字符识别）‌

OCR常见模型‌

1. CRNN（卷积循环神经网络）‌

结合CNN特征提取与RNN序列建模，支持端到端不定长文本识别，适用于水平文本识别。

2. CTPN（连接文本提议网络）‌

通过固定宽度锚框检测文本行，再合并成完整文本框，擅长自然场景水平文本检测。

3. DBNet（可微分二值化网络）‌

创新可学习阈值分割模块，精准处理弯曲、遮挡等复杂文本，检测效率高。
MonkeyOCR（2025新模型）‌
轻量级文档解析模型（3B参数），支持多类型文档（公式、表格）解析，速度达0.84页/秒。

OCR常用数据集‌

OCR任务常用数据集有SynthText, ICDAR, COCO-Text等。

数据集	特点
SynthText‌	合成数据集，含80万图、800万文本，模拟自然场景文本分布
ICDAR系列‌	自然场景文本检测与识别基准

http://www.xdnf.cn/news/953641.html

相关文章：

雷达RCS计算中的旋转矩阵

在Ubuntu上利用loongarch64交叉编译工具编译opencv4.4.0

【排错】ollama报错unable to load model

【知识点】第8章：程序设计方法论

CKA考试知识点分享(6)---PriorityClass

自动化测试工具playwright中文文档-------19.评估JavaScript

初版BL程序一些细节整理（碎碎念）

相机Camera日志实例分析之二：相机Camx【专业模式开启直方图拍照】单帧流程日志详解

无线耳机存储痛点解决方案-64Mb Quad-SPI Pseudo-SRAM CS56404L

向量几何的二元性：叉乘模长与内积投影的深层联系

安宝特方案丨从依赖经验到数据驱动：AR套件重构特种装备装配与质检全流程

SQL注入篇-sqlmap的配置和使用

分布式计算框架学习笔记

我的世界Java版1.21.4的Fabric模组开发教程(十二)方块状态

UE5 文本框自动换行

苍穹外卖--缓存菜品

用docker来安装部署freeswitch记录

“一张网，万般用”——聊聊网络虚拟化到底怎么实现的

大话软工笔记—记录形式

React从基础入门到高级实战：React 实战项目 - 项目五：微前端与模块化架构

XCTF-web-easyupload

Python 实现 Web 静态服务器（HTTP 协议）

语义化商品详情API：AI赋能下一代电商平台数据接口的创新应用

【Dv3Admin】系统视图菜单管理API文件解析

ArcGIS Pro 3.4 二次开发 - 栅格

【李沐-动手学深度学习v2】1.Colab学习环境配置

如何给浏览器安装WeTab插件

安宝特方案丨XRSOP人员作业标准化管理平台：AR智慧点检验收套件

图片组件baseImage

Redux完整指南：从入门到精通