pg下载麻将胡了安卓专属特惠.安卓应用版本.中国【视觉AI的基石】斯坦福大学笔记！带你吃透卷积神经网络 (CNN)

频道：生活应用日期：2026-03-13 06:08:27 浏览：28

CNN：让计算机拥有“火眼金睛”的秘诀

想象一下，你怎么认出一张图片里的是猫还是狗？

在看图片时，不是将那图片里的所有像素点都揉成一团之后再去看，而是会先留意到一些局部特征，像这样子，猫表现为拥有向外突出的尖耳朵、细长的胡须，狗则或许呈现出向下低垂的耳朵、较为突出的鼻子。随后，会对展现出的这些局部特征进行组合，具体来说就是，向外突出的尖耳朵加上细长的胡须再加上圆圆的脸，约等于猫。最后，会把所有这些信息综合起来从而得出结论。

一种名叫卷积神经网络的，也就是CNN，其实际上正在对我们人类独具的那种视觉识别进程予以模仿呢！

卷积神经网络原理_CNN图像识别特征提取_卷积在生活应用

它和传统神经网络不一样，不是从一开始，就把图片弄成一长串数字，将其“拍扁”，从而丢失了空间信息，像像素点之间的邻近关系这种。

美国有线电视新闻网借助被称作 “卷积核”（Filters/Kernels）的这般较小窗口于图片之上滑动着实施扫描，此专为着重检识局部特征而设。存在着一些卷积核专门寻觅边缘之处，存在着一些卷积核专门找寻纹理，存在着一些卷积核专门探寻特定形状（例如眼睛、鼻子）。

经由一层又一层的卷积，CNN能够将所检测出的低级特征，像边缘这类的，组合成为更高级的特征，比如眼睛以及轮廓，最终依据这般高级特征来开展判断与识别。

CNN图像识别特征提取_卷积神经网络原理_卷积在生活应用

简单来说，CNN 的核心优势在于：

针对于局部感知，也就是Local Receptive Fields而言，每个神经元仅仅对输入的一小块区域予以关注，从而能够有效地捕捉局部相关特征，参数共享，即Parameter Sharing，指的是一个卷积核会于整个图片之上进行滑动，运用同一组参数来检测同一个特征，这极大地减少了模型参数量，空间或层级结构，也就是Spatial Hierarchy，借助于堆叠卷积层以及池化层，能够学习到从简单直至复杂的特征表示。

正是由于这些特性，CNN在图像识别里取得了革命性成功，在目标检测中也取得了革命性成功，在图像分割方面同样取得了革命性成功，在人脸识别范畴还取得了革命性成功，而这些成功是我们如今能够享受到的各种“刷脸”支付技术的核心基石，是自动驾驶感知技术的核心基石，是医学影像分析技术的核心基石。

传统 CNN 架构：

卷积神经网络

卷积神经网络模型一般包含如下过程：

输入图像 (Input Image): 原始图片。

有这样一层，即卷积层，它被称作Convolutions，其作用是，借助卷积核去提取特征。

池化层，也就是Pooling，它能够降低特征图的维度，通过下采样的方式，进而减少计算量，并且还能提高模型的鲁棒性。

全连接层（Fully Connected）pg下载，于最后阶段之时，把先前提取出的高级特征予以整合，进而开展分类或者回归预测。

层的类型：

卷积层 (CONV):

其作用在于，运用滤波器（Filters）针对输入展开卷积操作，通过扫描输入图像（或者它上一层的特征图），以此来提取特征。

CNN图像识别特征提取_卷积神经网络原理_卷积在生活应用

卷积操作

超参数：

该滤波器尺寸，称之为（Filter Size, F）：其为滤波器的大小，举例而言，像那种 3x3 的情况，还有 5x5 的状况。

步长 (Stride, S): 滤波器每次滑动的距离。

提取出的特征图，也就是 Feature Map，或者激活图，即 Activation Map，所表示的是，滤波器探测到的特征于不同位置处的强度。而卷积操作能够被拓展到 1D，像文本这种情况，以及 3D，例如视频、医学影像这类情况。

池化层 (POOL):

其作用为，执行下采样也就是Downsampling操作，此操作通常是在卷积层的后边，其目的在于降低空间维度，还要减少计算量，并且要提供一定程度的空间不变性，所谓空间不变性就是物体在图片里轻微移动不会对结果产生影响。

CNN图像识别特征提取_卷积神经网络原理_卷积在生活应用

最大池化

对于最大池化，也就是Max Pooling而言，它是在一个小区域范围之内去挑选最大值，其具备的优点是能够留存下那最为显著的特征，并且它是最为常用的一种方式。

将平均池化，亦称作Average Pooling ，于一个较小区域范围之内，开展平均值的计算。其具备的优点是，能够留存更多的背景方面的信息，然而，也存在着可能致使特征变得模糊不清的情况。在LeNet当中，曾经被运用过。

平均池化

全连接层 (FC):

作用是，把前面层输出的特征图进行“压平”，也就是Flatten，使之成为一个向量，接着呢，如同普通神经网络那般，每个输入节点都要连接到所有输出节点，它一般处在CNN的末端，被用来作最终的分类决策。

卷积神经网络原理_卷积在生活应用_CNN图像识别特征提取

全连接层 (FC):

其为滤波器的超参数pg下载，是用于滤波器的超参数组成要素所体现出的超参数，是与滤波器相关联的超参数。

滤波器的维度（Dimensions of a filter）：有一个滤波器，其尺寸是F乘以F，要是将它应用于一个具备C个通道（Channel）的输入，比方说彩色图存在R、G、B这三个通道，那么该滤波器切实的“体积”就是F乘以F乘以C。它会针对输入的I乘以I乘以C区域展开运算，进而生成一个O乘以O乘以1的输出特征图。

众多滤波器，一般而言，一个卷积层当中会存在 K 个各异的滤波器，每一个滤波器用于学习检测一种不一样的特征，所以，在应用 K 个滤波器之后，输出的特征图维度为 O x O x K。

步长，也就是Stride，简称为S，它指的是，滤波器于输入之上，每一次进行移动时的像素数量。

CNN图像识别特征提取_卷积神经网络原理_卷积在生活应用

零填充 (Zero-padding)

作用：在输入的边界周围添加 P 圈 0。

目的：控制输出特征图的空间尺寸 (O)。

使得卷积核具备处理图像边缘信息的能力，不然的话，边缘像素被“扫描”的次数将会少许多。

有效的情况是。P等于0。进行不填充的操作。输出的尺寸出现缩小的状况。会有边缘信息丢失呀。

卷积神经网络原理_卷积在生活应用_CNN图像识别特征提取

不填充

相同情形：填入适量的P，以此让输出尺寸O跟输入尺寸I大体一样，确切来讲是ceil(I/S)，这对接网络设计有利，还被称作“半填充”(half padding)。

卷积在生活应用_卷积神经网络原理_CNN图像识别特征提取

半填充

满满当当地填充数量足够多的 P，其中 P=F 减去 1，以此令滤波器具备能够“看到”输入的每一个角落的能力。

全填充

CONV与POOL以及FC三者的对比表，此表对三类层的输入尺寸进行了总结，还对其输出尺寸予以了总结，并且也涵盖了参数数量的总结。

卷积神经网络原理_卷积在生活应用_CNN图像识别特征提取

参数量方面，CONV层参数量跟滤波器大小以及数量存在关联，其计算方式为((F*F*C + 1) * K，这里的+1指的是偏置项)，POOL层没有参数，FC层参数量极为庞大，计算方式是((Nin+1)*Nout)。

CONV 通常 S

感受野 (Receptive field)

定义为，于第k层特征图之上的一个像素，其可以“看到”的原始输入图像的区域大小，将其记作为Rk x Rk。

卷积在生活应用_卷积神经网络原理_CNN图像识别特征提取

它依靠于各层的滤波器大小，也就是 Fj，以及步长，也就是 Si。直观去理解的话，便是层数越处于深的状态，感受野就会越大，进而能够看到更为宏观的特征，此处有标点。

CNN图像识别特征提取_卷积在生活应用_卷积神经网络原理

感受野

图中显示的是两层卷积，卷积核大小为3x3，步长设定为1，其中第二层卷积所形成的感受野大小是5。

对超参数加以调优，进行各项不同情况的调整，以达到最佳状态。

参数兼容性相关公式，即：O等于pg下载赏金下载，用括号括起来的，I减掉F加上P_start再加上P_end，然后除以S再加1，这里面的P_start加上P_end代表着总padding，一般而言就是指2P。该公式会告诉你，在给定输入尺寸I、滤波器尺寸F、填充P以及步长S的情况下，能够计算得出输出尺寸O究竟是多少。需要注意的是，这在设计CNN架构的时候是必须要考虑进去的。

卷积神经网络原理_CNN图像识别特征提取_卷积在生活应用