可视化卷积神经网络的过滤器_可视化卷积神经网络的基础知识

<div style="font-size:16px;">
<h1>什么是卷积神经网络？</h1>
<p>卷积神经网络(Convolutional Neural Networks, CNN)是一种主要用于图像分类的人工神经网络(Artificial Neural Networks, ANN)。它遵循的生物学原理是复制一种能够识别模式的结构，从而在不同的位置识别这些模式。它的灵感来自于诺贝尔奖得主Hubel和Wiesel在1962年出版的《Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex》一书中提出的猫视觉系统模型。1980年，Fukushima’s Neocognitron就是利用了这一灵感，尽管当时没有使用“卷积”这个词。卷积神经网络(CNN)不仅仅在图像识别方面的取得了成功，它们在处理时间序列和语音识别等时态数据时(甚至应用于图形时)，也显示出了良好的结果。<br>卷积神经网络在赢得2012年Imagenet大型视觉识别挑战赛(ILSVRC)后变得非常受欢迎。Alex Krizhevsky和Ilya Sutskever在Geoffrey Hinton的指导下，提交了以“AlexNet”的命名的CNN架构。那时，Geoffrey Hinton已经在ANN领域做出了重大的科学贡献。他是1986年的反向传播算法和1983年的玻尔兹曼机的贡献者之一。这些就是杰弗里·辛顿被公认为深度学习之父的原因。</p>
<h1>卷积、互相关</h1>
<p>典型的CNN由一系列卷积层组成，这些卷积层充当特征提取器，然后是分类器，通常是多层感知器(MLP)，也称为全连接层(FC层)，如图1所示。</p>
<div class="pgc-img">
  <img alt="e736fdb4230bfc8e7735d369842b4b0d.png" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-b0bc9cfb6c635f8d56dd92286665984a.png">
  <p class="pgc-img-caption">图1 基本卷积神经网络的体系结构</p>
</div>
<p>第一层接收以三种颜色通道(RGB通道)表示的输入图像。然后，第一层使用多个kernels对输入图像进行卷积，得到第一层的一组特征映射。每个特征映射决定一个特定特征的强度和位置。卷积层提取的特征映射可以提交到一个下行采样操作，称为池化。池化操作是可选的。池化层的结果是另一组特征映射，这些映射具有相同的数量，但是分辨率降低了。接下来的卷积层使用前一层的特征映射来执行更多的卷积并生成新的特征映射。最后一层的特征映射是分类器FC层的输入。</p>
<p>用*(星号)表示的卷积运算可以描述为：</p>
<div class="pgc-img">
  <img alt="ee319423930f42e114fa4f56c1fda18c.png" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-afe68470e1215af9d6ec65223bd0e9d7.png">
</div>
<p>x某种类型的输入(如传感器信号)，t为给定时间,k为核应用。</p>
<p>卷积运算的一个重要特性是它是可交换的，这意味着()=()如下：</p>
<div class="pgc-img">
  <img alt="1cea472f15980111f497aeffa8e7d768.png" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-3d59009287c9579d146f496664789f08.png">
</div>
<p>另一方面，用(五角星)表示的互相关运算不是可交换的，可以描述为：</p>
<div class="pgc-img">
  <img alt="4ae649cfdb889bca7d9291442191bd9a.png" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-6af9840e4708e45c7c6ac38214164636.png">
</div>
<p>卷积的可换性来自于核相对于输入的翻转(flip)。翻转是索引操作的结果。注意,输入的索引为，核的索引为-。虽然交换性对于数学证明的编写是有价值的，但是它与神经网络的实现并不相关。实际上，许多机器学习库都实现了互相关而不是卷积，并且将这两种操作都称为卷积。结果，与方程式1所描述的实际实现卷积的库相比，在训练过程中学习的内核将被翻转。在本文中，我们将遵循相同的约定，并将其称为互相关卷积。</p>
<p>我们可以将等式3调整为适用于2D数据(例如灰度图像)的卷积：</p>
<div class="pgc-img">
  <img alt="e896431f69bad9600f9ec8e59d6b5025.png" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-1bdaeda3bd74d0e33dbd1f97a823ae39.png">
</div>
<p>[]卷积的离散输出,核的高度,核的宽度,(,)灰度图像的patch,[++]核。</p>
<p>换句话说，卷积运算从图像中提取多个像素块，以与核相乘。核基本上是权重矩阵。从图像中提取的像素patch通常被称为感受野(在生物学上，感受野是刺激神经元的感觉区域)。感受野与核之间的乘法包括每个像素与核中各个元素之间的逐元素乘法。乘法之后，将结果相加，以形成特征映射的一个元素(在等式4中由[，]定义)。</p>
<p>以下动画显示了5x5灰度图像和3x3核之间的卷积操作。该卷积的输出是3x3特征映射。</p>
<div class="pgc-img">
  <img alt="9120dea4715de4291205a3fe1f2e77e7.gif" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-44ca026b28d190c636748e281187452d.gif">
  <p class="pgc-img-caption">图2-逐步将5x5图