当前位置：首页 > news >正文

卷积神经网络（CNN）入门学习笔记

news 2025/6/3 15:42:44

什么是 CNN？

CNN，全称 卷积神经网络（Convolutional Neural Network），是一种专门用来处理图片、语音、文本等结构化数据的神经网络。
它模仿人眼识别图像的方式：
从局部到整体，一步步提取特征，最后做出判断。

什么叫“卷积”？

卷积这个词，来源于数学中的卷积操作。
简单说，就是用一个小方块（卷积核）在图片上滑动，把相邻像素做个“加权求和”，用来提取特定特征。
比如：

检测边缘
识别线条
找出颜色块

CNN 结构组成

CNN 通常由以下几部分组成：

卷积层（Convolutional Layer）
激活函数（Activation Function）
池化层（Pooling Layer）
全连接层（Fully Connected Layer）
输出层（Output Layer）

CNN 常见术语速查表

专有名词	含义
卷积核（Filter）	提取局部特征的小方块
步长（Stride）	卷积核每次移动的格子数
填充（Padding）	给图像边缘补零，避免尺寸缩小
激活函数	增强模型非线性能力，常用 ReLU
池化	降维、保留关键信息，防止过拟合
全连接层	将所有特征组合分类
损失函数	衡量预测值和真实值的差距

图片识别

图片识别-Neuron Versin

李宏毅老师: 《机器学习》学习笔记

overall

输入是一张图片,输出是图片的分类: cat/dog…
在这里插入图片描述
计算每一个像素–判断是否是cat

Cverservation 1 - 不需要观察整张图片

只观察一张图片特定的几个部分,如下面例子中的: 鸟嘴/鸟眼/鸟爪
在这里插入图片描述

Simplification 1 - Typical Setting

kernel size(卷积核（filter）): 3 * 3
all channels
stride(步长)=1:每次移动一个像素，沿着水平+垂直方向移动
padding:就是在输入特征图（图片或序列）边缘周围补上额外像素（通常是 0），目的是为了：
• 保持输出尺寸不变
• 控制特征图尺寸变化规律
• 更好地提取边缘特征

Cverservation 2 - 共享参数

在这里插入图片描述

Simplification 2

原理

weight: 决定输入信号对神经元输出的影响程度
bias: 偏移值，帮助模型更灵活拟合数据

Typical Setting

在这里插入图片描述

图片识别-Filter Version

feature map

在这里插入图片描述

Multiple Convolutional layers

在这里插入图片描述

Comparision of 2 Stories

在这里插入图片描述

Pooling - Max Pooling

卷积操作后，特征图通常很大,这时候用 **subsampling（池化 Pooling）**来降低特征图尺寸，但保留重要特征。

在这里插入图片描述

特征提取（Feature Extraction） 就是：从原始数据中，把能代表事物本质特征的信息挑选出来，作为模型输入的过程。
- 最大特征（Max Feature / Max Pooling）：从一堆特征值里，取最大值作为代表
- 平均特征（Average Feature / Average Pooling）：从一堆特征值里，计算平均值作为代表

Convolutional Layers + Pooling

在这里插入图片描述

The Whole CNN

在这里插入图片描述

Application Playing Go(略)

在这里插入图片描述

http://www.xdnf.cn/news/681265.html

相关文章：

定时清理流媒体服务器录像自动化bash脚本

大模型 Agent 中的通用 MCP 机制详解

JavaScript- 4.1 DOM-document对象

FEMFAT许可的常见问题及解决方案

【慧游鲁博】【10】全端优化用户信息存储+网页端user模块与后端对接

AI一周事件（2025年5月20日-5月26日）

使用API有效率地管理Dynadot域名，查看一口价域名的详细信息

伪创新-《软件方法》全流程引领AI-第1章 04

JavaScript 中 this 指向详解

2025年我国低空经济产业链研究与梳理

P2 C++基础（2.2）

minhash-大模型输入前的去重

Bootloader 与 U-Boot 全解析

2025年- H55-Lc163--124. 二叉树的最大路径和(深搜）--Java版

深度学习常见实验问题与实验技巧

基于 OpenCV 和 DLib 实现面部特征调整（眼间距、鼻子、嘴巴）

DAY9 热力图和箱线图的绘制

【数据库】-4 mysql权限语句

阿姆斯特朗数

两视角分析

Python 实现桶排序详解

龙虎榜——20250527

7.0 Q1|四川大学CHARLS发文 | 前瞻性队列中肌肉减少症和心血管疾病的变化

vue3 判断一个多字段数组内包含某个值

STM32 UART通信实战指南：从原理到项目落地

编译pg_duckdb步骤

linux 通过命令将 MinIO 桶的权限设置为 Custom（自定义策略)

常用流程审批OA系统推荐，三款产品对比分析

【AI面试秘籍】| 第22期：进行SFT时,基座模型选用Chat还是Base模型?

罗技优联接收器如何配对，如何让一个接收器配对多个无线设备