当前位置：首页 > news >正文

深度学习——卷积神经网络

news 2025/9/4 6:13:45

在当今的数字化时代，图像识别技术已经渗透到我们生活的方方面面，从智能手机的相机功能到自动驾驶汽车的环境感知，都离不开图像识别技术的支持。图像识别技术使得机器能够像人类一样理解和解释视觉信息，从而在众多领域发挥着重要作用。而在众多图像识别技术中，卷积神经网络（Convolutional Neural Networks，简称CNN）以其独特的结构和强大的功能，成为了图像识别领域的核心力量。CNN不仅在学术研究中取得了突破性进展，还在工业界得到了广泛应用，推动了人工智能技术的飞速发展。

一、卷积神经网络的基本构成

卷积神经网络，顾名思义，其核心在于“卷积”这一操作。它主要由卷积层、池化层和全连接层构成，每一层都有其独特的功能和作用。

1. 卷积层

卷积是卷积神经网络（CNN）中最核心的操作之一，它是一种数学运算，在图像处理领域，卷积操作本质上是通过对图像和卷积核（也称为滤波器）进行内积（逐个元素相乘再求和）来提取图像的特征。

从直观上理解，卷积核可以看作是一个小的矩阵，这个矩阵就像是一个具有特定功能的“探测器”，在输入的图像上按照一定的规则滑动，每次滑动到一个位置，就将卷积核与图像对应位置的局部区域进行逐元素相乘，然后将这些乘积相加，得到一个数值，这个数值就是新生成的特征图中对应位置的值。通过卷积核在图像上的不断滑动，就可以生成一个完整的特征图。

2工作过程

卷积核：卷积核是一个固定大小的矩阵，其中的每个元素都有一个对应的权重值。这些权重在卷积操作过程中是固定不变的，这也是卷积核又被称为恒定滤波器的原因。不同的卷积核可以用来提取图像中不同类型的特征，例如，有的卷积核擅长提取图像的边缘特征，有的则擅长提取纹理特征。
滑动与计算：卷积核在输入图像上按照一定的步长（stride）进行滑动。步长决定了卷积核每次在图像上移动的距离，常见的步长有1、2等。当卷积核滑动到一个位置时，它会覆盖图像的一个局部区域，然后将卷积核与该局部区域的像素值进行逐元素相乘，最后将所有乘积相加，得到特征图中对应位置的值。例如，若卷积核大小为 3×3，输入图像的一个局部区域也是 3×3，那么就会将这 3×3 个对应位置的像素值与卷积核的 3×3 个权重值分别相乘，再把这9个乘积相加，得到一个结果作为特征图的一个元素。
输出特征图：通过卷积核在图像上的不断滑动和计算，会生成一个新的二维矩阵，这个矩阵就是特征图。每一个卷积核都会生成一个对应的特征图，多个不同的卷积核就可以生成多个不同特征的特征图，这些特征图包含了图像中不同方面的特征信息。例如，使用10个 5×5×3 的卷积核对一幅 32×32×3 的图像进行操作（这里假设图像为RGB图像，有3个通道），最终会输出10个 32×32 的特征图，每个特征图捕捉了图像不同的局部特征。

2. 池化层

池化层是卷积神经网络中的另一个重要组成部分，它的主要作用是对卷积层输出的特征图进行降采样。降采样的目的是减小数据的空间大小，从而减少后续计算过程中的参数数量和计算量，同时也在一定程度上有助于控制过拟合现象。

工作过程

池化窗口：池化操作与卷积操作类似，也是通过一个固定形状的窗口（称为池化窗口）在输入的特征图上进行滑动。这个池化窗口有一个固定的大小，例如常见的 2×2 或者 3×3 等。
滑动与计算：池化窗口根据其设定的步幅大小在输入特征图的所有区域上滑动，对于窗口遍历的每个位置，会计算一个输出值。不同的是，池化层不包含像卷积层那样的参数（即没有像卷积核那样的可学习权重）。
常见池化类型
- 最大池化（max pooling）：在池化窗口所覆盖的区域内，选取最大的像素值作为该区域池化后的值。最大池化是最为常见的池化方式，它的主要功能是压缩特征图，同时不会损坏识别结果。因为在卷积后的特征图中，可能存在一些对于识别物体不必要的冗余信息，最大池化能够保留区域内最显著的特征（即最大值），去除一些相对不重要的信息，从而减少数据量，提高计算效率，并且在一定程度上增强特征的鲁棒性。例如，在一个 2×2 的池化窗口内，比较这4个像素值的大小，选取最大的那个值作为池化后该位置对应的值。
- 平均池化（average pooling）：计算池化窗口所覆盖的图像区域的平均值作为该区域池化后的值。平均池化是对池化窗口内的所有像素值求平均，它能够平滑特征图，减少噪声影响，同样可以起到减小特征图尺寸、降低计算量的作用。例如，在一个 2×2 的池化窗口内，将这4个像素值相加后除以4，得到的平均值就是池化后该位置对应的值。

3. 全连接层

全连接层位于CNN的最后部分，它将前面提取到的特征进行整合，并输出最终的分类结果。在全连接层中，每个神经元都与前一层的所有神经元相连，因此能够捕捉到全局的特征信息。

全连接层通过将前面提取到的特征进行整合，将高维的特征向量映射到低维的输出空间，从而实现分类或识别任务。全连接层中的每个神经元都与前一层的所有神经元相连，能够捕捉到全局的特征信息，从而为最终的决策提供全面的信息支持。通过全连接层，CNN能够将提取到的特征进行整合，输出最终的分类结果，实现对图像的准确识别和分类。

二、卷积神经网络的工作原理

卷积神经网络的工作原理可以概括为以下几个步骤：

1. 特征提取

输入图像首先通过卷积层，卷积核在图像上滑动并进行卷积操作，提取出图像的局部特征。这些特征以特征图的形式呈现，每个特征图对应一个卷积核。

在特征提取阶段，卷积核在图像上滑动，逐个像素地进行计算，生成一个新的特征图。每个卷积核可以提取出图像中的某种特定特征，例如边缘、角点或纹理。通过使用多个卷积核，CNN可以提取出图像中的多种特征，从而为后续的分类或识别任务提供丰富的信息。

2. 降采样

提取出的特征图随后进入池化层，通过池化操作进行降采样，减小特征图的空间尺寸。这一步骤有助于减少计算量和参数数量，同时也有助于防止过拟合。

在降采样阶段，池化层通过降采样操作，减少了特征图的空间尺寸，从而降低了计算复杂度和参数数量。最大池化选取特征图中的最大值作为新的特征值，能够保留图像中的主要特征信息，同时减少冗余信息。平均池化则计算特征图中的平均值作为新的特征值，能够平滑特征图，减少噪声影响。通过池化操作，CNN能够在保持主要特征信息的同时，减少计算量和参数数量，提高模型的效率和泛化能力。

3. 特征整合与分类

经过多次卷积和池化操作后，提取到的特征被整合并传递到全连接层。全连接层将这些特征进行整合，并通过激活函数输出最终的分类结果。

在特征整合与分类阶段，全连接层通过将前面提取到的特征进行整合，将高维的特征向量映射到低维的输出空间，从而实现分类或识别任务。全连接层中的每个神经元都与前一层的所有神经元相连，能够捕捉到全局的特征信息，从而为最终的决策提供全面的信息支持。通过全连接层，CNN能够将提取到的特征进行整合，输出最终的分类结果，实现对图像的准确识别和分类。