当前位置：首页 > backend >正文

CS231n2017-Lecture9经典CNN架构笔记

backend 2025/8/5 16:24:19

AlexNet:

首先回顾一下LeNet-5，该网络结构为[CONV-POOL-CONV-POOL-FC-FC]，卷积层使用 $3\times3$ 的 $5\times5$ 的卷积核，步长为1,；池化层使用 $2\times2$ 的size，步长为2

AlexNet的结构：

[CONV1-MAX POOL1-NORM1-CONV2-MAX POOL2-NORM2-CONV3-CONV4-CONV5-MAX POOL3-FC5-FC7-FC8]

结构如图：

在图中分成上下两个部分，是因为当时的GPU容量太小，需要分成两个GPU来完成

VGG：

相对于AlexNet时候用更小的卷积核，层数也更深，有16层和19层两种。卷积核只使用 $3\times3$ ，padding=1，POOLING为 $2\times2$ ，stride=2

使用小卷积核的原因：

第一次卷积核感受原图的size是 $3\times3$ ，第二次卷积就是 $5\times5$ （因为边界会多感受一格），堆叠三层就变成了 $7\times7$ 的感受野

多个小卷积层比一个大卷积层有更多层的非线性函数，使得判决函数更加具有判决性

3个 $3\times3$ 的卷积层参数比一个 $7\times7$ 的大卷积层具有更少的参数，比如假设每个卷积层的输入和输出的size都是 $C\times C$ ，则3个 $3\times3$ 的卷积层的参数个数就是 $3\times(3\times3\times C^2) = 27C^2$ ，而 $7\times7$ 的卷积层的参数个数是 $7\times7\times C^2= 49C^2$ ，要更多

GoogLeNet:

网络有22层，比VGG更深

为了高效的计算，使用inception模块

不使用全连接层

Inception Module:

是一种设计得比较好的局域网络拓补结构，如图所示

这种结构对上一层的输入分别进行不同size卷积核的卷积以及pooling，通过分别设定不同的padding和步长，保证这几个卷积以及pooling的输出size一致，然后把所有的这些输出在深度上串叠在一起

这种结构的一个问题就是计算量会大大增加，且由于pooling会保持原输入的深度，导致模块的最终输出的深度一定会增加

因此，解决办法是在进行卷积核pooling操作前加入一个bottleneck层，该层使用 $1\times1$ 的卷积，在保留原输入的size的同时，减小其深度（只要kernel的个数小于原输入的深度即可），修正后的模块结构如图所示

这样一来，我们既减小了输出的深度，又减少了计算量

完整结构：

分为三部分，分别是主干网，inception模块堆叠，分类输出层

如图所示：

下面还有两个小辅助网络，其在网络较浅的部分作出分类预测，在训练期间，它们的损失会加权(0.3)到网络总损失中，在预测的时候，辅助网络不再使用。这样的目的是，网络中间层产生的特征应该是区别性较强的，通过添加连接到这些中间层的辅助分类器，我们期望在分类器的较低阶段中鼓励区分，增加回传的梯度信号，并提供额外的正则化