LeNet与AlexNet原理

LeNet-5网络

也就是说，模型很容易搭建，真正的难点在于数据处理和训练以及后续验证

LeNet(LeNet-5)两个部分：特征提取部分由两个卷积层和两个平均池化层组成；全连接层：由三个全连接层组成。

模型单元结构：一个卷积层、一个sigmoid激活函数，一个池化层

数据的传输：
卷积层输入为4维的数据（B，C，W，H）卷积层输出为4维的数据（B，FN，OW，OH）全连接层的输入为2维数据（B，L）
全连接层的输出为2维数据（B，FL）

重复以上操作即 $X\rightarrow CNN\rightarrow sig\rightarrow pool$

输入的数据一批次有一百个，通道数是3，宽高分别为28和28，于是人为的设定卷积核假设是100*3*5*5，那么输出的数据4维的数据（B，FN，OW，OH）

LeNet-5网络参数

5代表网络中有五个有参数的层，事实上他只有2个卷积层，还有三个全连接层

输入一个1*28*28的灰度图，第一层卷积运算卷积核的一个大小5×5啊，这是人为去设的。卷积核的个数就是六个，输出的一个特征图的通道数肯定是六

最大池化用的最多的，因为相对来说，平均池化，它没有最大的效果那么好，最大池化它能提取到这里面最有效的一个特征，而不是说把平均把它糊弄过去。为什么没有用最大池化呢，因为那个时候最大化还没有被发明出来。一个计划书的操作

最后做一个展平操作啊，把所有的特征图做一个展平flatten，然后输入到我们这里120个神经元当中，然后八十四个神经元再输入到十个神经元当中，输出我们的分类结果

第1层输入层：Input为28×28×1
第2层卷积层：Input为28×28×1，卷积核5×5 ×1× 6；stride= 1， padding=2。output为28×28×6
第3层平均池化层：Input为28×28×6，池化感受野为2×2，stride= 2，output为14×14×6
第4层卷积层：Input为14×14×6，卷积核5×5×6 ×16， stride =1， padding=0,output为10×10×16
第5层平均池化层：Input为10×10×16，池化感受野为2×2，stride=2，output 为5×5×16，Flatten操作，通过展平得到400个数据与之后的全连接层相连。
第6～8层全连接层：第6～8层神经元个数分别为120，84，10。其中神经网络中用sigmoid作为激活函数，最后一层全连接层用softmax输出10个分类。

卷积是用来增多特征的，池化是用来修改特征表现的，如平滑或者突出

LeNet-5总结
1、卷积神经网络（CNN）是一类使用卷积层的网络。
2、在卷积神经网络中，组合使用卷积层、非线性激活函数sigmoid和全连接层。
3、为了构造高性能的卷积神经网络，我们通常对卷积层进行排列逐渐降低其表示的空间分辨率，同时增加通道数。
4、在传统的卷积神经网络中，卷积块编码得到的表征在输出之前需由一个或多个全连接层进行处理。
5、LeNet是最早发布的卷积神经网络之一，它的问世有开创意义

AlexNet网络

在LeNet提出后，卷积神经网络在计算机视觉和机器学习领域中很有名气。但卷积神经网络并没有主导这些领域。这是因为虽然LeNet在小数据集上取得了很好的效果，但是在更大、更真实的数据集上训练卷积神经网络的性能和可行性还有待研究。事实上，在上世纪90年代初到2012年之间的大部分时间里，神经网络往往被其他机器学习方法超越，如支持向量机。
而在2012年，ILSVRC 大规模视觉识别挑战赛(Imagenet Large Scale Visual Recognition Challenge), AlexNet首次引入了深度卷积神经网络，并获得2012的大规模视觉识别挑战赛的冠军，这标志着深度学习在计算机视觉领域的崭露头角。

输入是227 ，不是224，代入公式所以算不出55，用227代入公式，是可以算出55的。后来的都是24*24

卷积核的大小：
- 第一层卷积核使用了 11x11 的大卷积核，这在早期网络设计（例如 AlexNet）中较为常见，可能是为了更好地捕获图像中的大范围特征。实际上卷积神经网络的可解释性较差，属于是知道答案说理由
- 然而，后续的网络（如 VGG、ResNet）大多使用 3x3、5x5 等较小的卷积核，因为这种卷积核有助于减少参数量，同时能够逐步提取更加细致的特征。
池化层与卷积层的作用：
- 池化层主要用于减少特征图的尺寸，通常使用最大池化或平均池化。在深度学习网络设计中，最大池化逐渐成为主流，因为它有助于提取显著特征。
- 卷积层负责提取图像的特征，通过不同的通道数和卷积核大小，逐层提取更高阶的特征。
全连接层的参数量：
- 全连接层的参数量极为庞大，通常占据整个神经网络的大部分参数。为了防止过拟合，设计中可能会采用 Dropout 或其他正则化方法来减少模型的复杂度。
过拟合的概念：
- 过拟合是指模型在训练集上表现很好，但在测试集上表现较差的情况通常是网络参数过多导致的。通过减少全连接层的参数量或引入正则化方法Dropout操作，可以有效减轻过拟合问题。

总结：卷积神经网络的架构设计复杂，涉及输入输出特征图的尺寸计算、卷积核的选择、池化操作、全连接层的设计等细节。在设计和调试过程中，掌握和运用公式以及合理设计各层参数是关键。

Dropout操作

第一层全连接层是有4096个神经网络神经元
第二层那个全连接层它也是有4096个
第三个就是我们输出层也就是我们有1000个这个神经元
然后的话在前面平展层操作里面的时候这里得到9216个也就是将近1万个输入数据

假设有 9216个数据，隐藏层有4096个神经元，那么参数就有w=4096*9216，n==4096

过拟合很很容易带有一种欺骗性嘛，就是可能啊就是我们训练的时候效果比较好。到应用的时候效果也比较差

输入数据和层结构：你提到了输入数据（X1, X2, X3），它们通过神经元连接层传播，经过全连接层后得到输出。在训练过程中，除了输入数据外，还有对应的标签（label），用于计算损失函数（loss）。
计算损失和反向传播：训练时，模型会通过前向传播计算输出，之后将输出与真实标签进行对比，计算损失（如均方误差或交叉熵损失）。然后通过反向传播（backpropagation）算法调整权重（W）来最小化损失。
Dropout机制：Dropout 是在训练过程中，随机“关闭”一部分神经元（即让它们暂时失效），这可以用来防止模型过拟合。你提到的设定比例（比如0.2），意味着在每次训练中，有20%的神经元随机失活。
随机失活与更新：
- 在某一轮训练时，Dropout 随机挑选一部分神经元不参与训练（失活），相应的权重W不会更新。
- 在下一轮训练中，失活的神经元可能重新被激活，继续参与训练并更新权重。
- 通过这种随机的失活机制，模型可以避免过度依赖某些特定的神经元，从而提升泛化能力，防止过拟合。
防止过拟合和加速训练：Dropout 不仅能减少过拟合，还可以加速训练，因为每次只更新一部分权重，减少了计算量。
多轮训练和极端情况：经过多轮训练后，几乎所有的神经元及其权重都会参与到某轮训练中，尽管理论上可能出现某些神经元在多轮训练中总是失活，但这种极端情况比较少见。

总结来说，Dropout 是通过随机失活部分神经元，避免过拟合，同时保持模型的高效训练。虽然有其他防止过拟合的技术，但 Dropout 仍在一些网络结构中被广泛使用。

这个图不是很好，应该是神经元失活，即与其相连的权重都为零，深度学习中，使用relu存在梯度过大导致神经元“死亡”，怎么理解？ - 知乎 (zhihu.com)对 Relu激活函数导致 [ 神经元死亡 ] 的理解 - 知乎 (zhihu.com)【科普】神经网络中的随机失活方法 - 知乎 (zhihu.com)

图像增强

水平翻转和随机裁剪将会提供大量样本数据

PCA图像增强

PCA图像增强流程：

1、将图片按照RGB三通道进行~~normalization归一化~~处理，均值为0，方差为1（应该是z-score标准化吧）
2、将图片按照channel展平成大小为（H*W，3）的矩阵。3、计算展平后的矩阵的协方差矩阵，协方差矩阵的大小为(3,3)
4、对协方差矩阵进行特征分解，得到对应的特征向量（3，3）和特征值（3，1）
5、设置一个抖动系数，该抖动系数是一个（3，1）大小的矩阵，里面的元素是随机值，利用抖动系数和对应的特征进行相乘，依然得到一个（3，1）大小的矩阵，对该矩阵进行转置并和特征向量进行矩阵相乘，得到一个（3，1）大小的矩阵；
6、利用上述最后计算出来的（3，1）大小的矩阵，其中的3个值分别加到原图像的R，G，B三通道上，就是最后得到的增强的图像。