【学习笔记】week1-cnn

写在之前

我之所以开这个博客就是为了记一下我个人的学习笔记，因为最近学的信息量太多，小脑瓜又不一定记得住，所以写了个弄个这个博客。。。。言归正传，我在第一周主要了解CNN的大概模型，学着学着发现缺的非常之多，所以今天这个主要是写CNN（convolution neural network，卷积神经网络），主要是以李宏毅的深度学习视频为主，还参考了网上大佬的学习笔记，另外，本周只是个大概，具体的实验结果和细节以及数学公式之后在说= =

卷积神经网络（CNN）

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一，被大量应用于计算机视觉、图片处理等领域。

CNN的基本结构

网络的一般结构为：

 输入层 -> 卷积层 -> 激活函数 -> 池化层 -> 全连接层 -> 输出层

 输入层(INPUT)：顾名思义，用于输入数据

 卷积层(CONV)：使用卷积核对样本数据进行扫描，提取特征值和特征映射

 激活函数(RELU)：归一化识别高频特征

 池化层(POOL)：对卷积后的特征图进行采样处理，减少数据运算量

 全连接层(FC)：进行重新拟合，减少特征信息的损失

 输出层(OUTPUT)：用于输出结果

CNN的各层解析

1.卷积层

卷积说白了其实就是一种神经网络的连接方式，就是因为这种卷积的方式，才使得CNN的参数要比全连接神经网络的参数少得多。

（1）对于黑白图片，其通道数为1，其卷积方式如下：

PS(个人注解)：在第一图中，卷积核的权值是自由确定的，因为在训练过程中，模型会自行对权值进行修改，根据反向传播（之后会写的），自定义的大小会影响调整的速度。

（2）对于彩色图片，其通道数为3（RGB三原色），其卷积方式如下：

PS(个人注解)：彩色的卷积方式和黑白的本质上是一样的，就是拿卷积核进行扫描，然后因为是彩色的，具有RBG三通道，故卷积核也要是三层的（其目的是为了同时对RGB同时扫描），具体的卷积过程可以参考本网址= =补0扫描，步数为2

（3）卷积和全连接方式的对比，体现出利用卷积的连接方式比全连接方式所需的参数更少。（我差点忘了李宏毅讲过这里= - =）

刚开始看这图其实我并不是很了解的= =，然后看到下面这图，回想起李宏毅的话，我终于了解卷积核全连接的区别了= =

刚开始我是当做这是讲卷积的代码实现思路来着= =然后看了大佬的博客有点小明白了= =所以代码实现我。。还是看JAVA去吧- -

（4）卷积层和激励层通常合并在一起称为“卷积层”

激励层，我们俗称“激活函数”，它主要对卷积之后的结果进行一个非线性映射，说白了就是讲卷积之后的输出进行函数运算使其值在[0~1]区间内，我们一般使用RELU函数进行运算，基本上激励层是在卷积之后进行（但李宏毅貌似没讲= =还是忘了。。
PS：函数的运算使其在[0~1]之间，称为“归一化”。其就是找出高频特征。

2.池化层

池化层又称采样层，它的作用是减小数据处理量同时保留有用信息

当输入经过卷积层时，若感受视野比较小（就是卷积核比较小），步长stride（步长代表着卷积核一次移动几格，基本是为1)比较小，得到的feature map （特征图）还是比较大，可以通过池化层来对每一个 feature map 进行降维操作，输出的深度（这应该说是维度的深度，即扫描之后有几张图）还是不变的，依然为 feature map 的个数。

池化层也有一个“池化视野（filter）”来对feature map矩阵进行扫描，对“池化视野”中的矩阵值进行计算，一般有两种计算方式：

Max pooling：取“池化视野”矩阵中的最大值我是尺寸

Average pooling：取“池化视野”矩阵中的平均值

以Max pooling为例，见下图：

PS（个人注解）：采样核的定义可以自己定义，在JAVA当中必须能整除，而李宏毅视频中可以不整除，这个需注意~

3.全连接层

作用：把所有局部特征结合变成全局特征，用来计算最后每一类的得分
换句话说全连接层就是把卷积层和池化层的输出展开成一维形式，在后面接上与普通网络结构相同的回归网络或者分类网络，一般接在池化层后面，如图所示;

没啥好说的，就是拉直后通过分类网络将其分为所需要的几个类，通过输出层根据softmax函数啥的输出= =

具体代码啥的

对于手写数字识别，我发现GitHub有个例子，点此，现场体验。
接下来是一些有用的图片= =

PS(个人注解)：这是计算神经元的个数，在convolution2D(x,y,z)中，y,z分别代表卷积核的长和宽，x代表扫描的维度（可以认为一次扫了几遍），需注意的是x容易被忽视= =

CNN的主要特点（算了，有总比没有好= =

这里主要讨论CNN相比与传统的神经网络的不同之处，CNN主要有三大特色，分别是局部感知、权重共享和多卷积核

1.局部感知

局部感知就是我们上面说的感受野，实际上就是卷积核和图像卷积的时候，每次卷积核所覆盖的像素只是一小部分，是局部特征，所以说是局部感知。CNN是一个从局部到整体的过程（局部到整体的实现是在全连通层），而传统的神经网络是整体的过程。

2.权重共享

传统的神经网络的参数量是非常巨大的，比如1000X1000像素的图片，映射到和自己相同的大小，需要（1000X1000）的平方，也就是10的12次方，参数量太大了，而CNN除全连接层外，卷积层的参数完全取决于滤波器的设置大小，比如10x10的滤波器，这样只有100个参数，当然滤波器的个数不止一个，也就是下面要说的多卷积核。但与传统的神经网络相比，参数量小，计算量小。整个图片共享一组滤波器的参数。

3.多卷积核

一种卷积核代表的是一种特征，为获得更多不同的特征集合，卷积层会有多个卷积核，生成不同的特征，这也是为什么卷积后的图片的高，每一个图片代表不同的特征。