当前位置: 首页 > news >正文

Opencv---blobFromImage

在OpenCV的dnn模块中,cv::dnn::blobFromImage 是一个非常重要的预处理函数,用于将输入图像转换为深度学习模型(神经网络)可接受的 blob格式,是连接原始图像与模型输入的关键步骤。其核心作用是对图像进行标准化、尺寸调整、通道转换等预处理操作,使其符合目标网络的输入要求。

一、函数作用

深度学习模型的输入通常需要特定的格式(如固定尺寸、通道顺序、数值范围等),而原始图像(如OpenCV读取的Mat)往往不符合这些要求。blobFromImage 的主要功能是:

  • 调整图像尺寸至模型要求的输入大小;
  • 对像素值进行缩放(如归一化到[0,1]);
  • 减去均值(消除光照等干扰);
  • 转换通道顺序(如BGR→RGB,适应模型需求);
  • 最终输出一个4维的“blob”数组,作为模型的输入。

二、函数原型

void cv::dnn::blobFromImage(InputArray src,               // 输入图像(单张图像,如cv::Mat)OutputArray blob,             // 输出的blob(4维数组,符合模型输入格式)double scalefactor = 1.0,     // 缩放因子:对图像像素值的缩放比例Size size = Size(),           // 目标尺寸:模型要求的输入宽高 (W, H)const Scalar& mean = Scalar(),// 均值:需要从图像中减去的均值(B, G, R顺序,与OpenCV一致)bool swapRB = false,          // 是否交换红蓝通道(BGR→RGB)bool crop = false,            // 是否裁剪:调整尺寸时是否保持比例并裁剪(而非拉伸)int ddepth = CV_32F           // 输出blob的数据类型(通常为CV_32F或CV_8U)
);

三、参数详细解释

1. InputArray src

输入的原始图像,通常是cv::Mat类型(单通道灰度图或三通道彩色图)。图像的像素值范围一般为[0, 255]CV_8U类型)。

2. OutputArray blob

输出的blob(4维数组),格式为 [1, C, H, W]

  • 1:批量大小(batch size),因输入是单张图像,故为1;
  • C:通道数(如RGB/BGR为3,灰度图为1);
  • H/W:图像的高度和宽度(由size参数指定)。

blob的数据类型由ddepth决定(默认CV_32F)。

3. double scalefactor

像素值的缩放因子。作用是将图像像素值缩放到模型要求的范围(如[0,1][-1,1])。

  • 若模型要求像素值归一化到[0,1],可设为 1.0 / 255.0(将[0,255]缩放到[0,1]);
  • 若模型不需要额外缩放(仅减去均值),可设为1.0
4. Size size

模型要求的输入尺寸 (W, H)(宽,高)。例如,YOLOv5的输入尺寸可能为(640, 640),MobileNet可能为(224, 224)

5. const Scalar& mean

需要从图像中减去的均值(用于消除光照影响),格式为Scalar(b, g, r)(与OpenCV的BGR通道顺序一致)。

  • 若模型需要减去像素均值(如[104, 117, 123],常见于VGG等网络),直接传入该值;
  • 若模型不需要减均值(仅归一化),设为Scalar(0,0,0)即可。
6. bool swapRB

是否交换红(R)和蓝(B)通道。

  • OpenCV读取的彩色图像默认是 BGR 通道顺序;
  • 但多数深度学习模型(如TensorFlow、PyTorch训练的模型)要求输入为 RGB 顺序。因此,实际使用中通常需设为true(将BGR转为RGB)。
7. bool crop

调整图像尺寸时是否裁剪(而非拉伸),用于保持图像比例:

  • crop = true
    先将图像按比例缩放到“刚好覆盖size”(即缩放后图像的宽或高等于size的宽或高,另一维度更大),再从中心裁剪到size大小(避免变形)。
  • crop = false
    直接将图像拉伸/压缩到size大小(可能导致比例失调,适合对比例不敏感的场景)。
8. int ddepth

输出blob的数据类型,默认CV_32F(32位浮点数)。多数深度学习模型的输入为float32,故无需修改;若需整数类型,可设为CV_8U

四、处理流程(内部逻辑)

blobFromImage 的核心是对图像进行一系列预处理,步骤如下:

  1. 调整尺寸:根据sizecrop参数,将输入图像调整为目标宽高(保持比例裁剪或直接拉伸);
  2. 通道转换:若swapRB = true,将BGR转为RGB;
  3. 减去均值:从每个通道的像素值中减去mean对应通道的均值(如B通道减mean[0],G通道减mean[1],R通道减mean[2]);
  4. 缩放像素:将像素值乘以scalefactor(如归一化到[0,1]);
  5. 格式转换:将处理后的图像转换为4维blob([1, C, H, W]),并设置为ddepth指定的数据类型。

五、示例代码

以“YOLOv5模型预处理”为例(YOLOv5要求输入为(640,640),RGB通道,像素值归一化到[0,1],无需减均值):

#include <opencv2/opencv.hpp>
#include <opencv2/dnn.hpp>using namespace cv;
using namespace cv::dnn;int main() {// 读取图像(OpenCV默认BGR格式)Mat img = imread("test.jpg");if (img.empty()) {printf("无法读取图像!");return -1;}// 定义模型输入参数Size targetSize(640, 640);  // YOLOv5输入尺寸 (W=640, H=640)double scalefactor = 1.0 / 255.0;  // 归一化到[0,1]Scalar mean(0, 0, 0);  // 不减均值bool swapRB = true;    // BGR→RGB(YOLOv5需要RGB)bool crop = true;      // 保持比例裁剪// 生成blobMat blob;blobFromImage(img, blob, scalefactor, targetSize, mean, swapRB, crop);// 此时blob格式为 [1, 3, 640, 640],可直接输入YOLOv5模型return 0;
}

六、注意事项

  1. 通道顺序:OpenCV默认BGR,模型若需RGB,务必设swapRB = true
  2. 均值与缩放:若需同时归一化(如[0,255]→[0,1])和减均值,需注意顺序:先减均值再缩放,还是先缩放再减均值?
    • blobFromImage 内部是 先减均值,再乘以scalefactor。因此,若均值是基于[0,255]的(如[104,117,123]),需先减均值,再缩放(此时scalefactor=1.0);若均值是基于[0,1]的,需先缩放(scalefactor=1/255),再减均值(如mean=(0.485, 0.456, 0.406))。
  3. 裁剪与拉伸:对比例敏感的模型(如分类模型)建议crop = true;对比例不敏感的模型(如目标检测)可设crop = false(或按模型要求)。

通过cv::dnn::blobFromImage,可以快速将原始图像转换为符合深度学习模型输入要求的格式,是OpenCV中进行模型推理前预处理的核心函数。

http://www.xdnf.cn/news/1118395.html

相关文章:

  • NO.4数据结构数组和矩阵|一维数组|二维数组|对称矩阵|三角矩阵|三对角矩阵|稀疏矩阵
  • 在conda的环境中安装Jupyter及其他软件包
  • SpringBoot单元测试类拿不到bean报空指针异常
  • python函数快捷的传变量地址
  • C++--红黑树封装实现set和map
  • 极矢量与轴矢量
  • Linux系统移植19:根文件系统的构建
  • leetGPU解题笔记(2)
  • C# 接口(接口可以继承接口)
  • 华为OD 处理器
  • 改进后的 OpenCV 5.x + GStreamer + Python 3.12 编译流程(适用于 Orange Pi / ARM64)
  • vue的优缺点
  • Vue 3 TypeScript 接口(Interface)使用
  • 【基于开源大模型(如deepseek)开发应用及其发展趋势的一点思考】
  • 西藏氆氇新生:牦牛绒混搭液态金属的先锋尝试
  • web:js的三种引用方式
  • MYSQL笔记1
  • 大模型之Langchain篇(二)——RAG
  • SQL的初步学习(二)(以MySQL为例)
  • 《区间dp》
  • Excalidraw:一款颠覆传统思维的免费开源绘图工具
  • DHS及HTTPS工作过程
  • JSON/AJAX/XHR/FetchAPI知识点学习整理
  • 代码随想录算法训练营第三十二天|动态规划理论基础、LeetCode 509. 斐波那契数、70. 爬楼梯、746. 使用最小花费爬楼梯
  • std::sort的核心设计思想
  • 代码随想录算法训练营第十七天
  • MongoDB数据基本介绍
  • 从 Intel MacBook 迁移到 ARM MacBook 的完整指南
  • Windows怎样同步时间服务器?
  • 【网络实验】-BGP选路原则-11条