计算机视觉与深度学习-全连接神经网络-训练过程-欠拟合、过拟合和Dropout- [北邮鲁鹏]-CFANZ编程社区

机器学习的根本问题

过拟合overfitting：指学习时选择的模型所包含的参数过多，以至于出现这一模型对已知数据预测的很好，但对未知数据预测得很差的现象。这种情况下模型可能只是记住了训练集数据，而不是学习到了数据特征。

在这里插入图片描述

增加更多的训练样本可以帮助模型更好地学习数据的真实分布，减少过拟合的风险。

在这里插入图片描述

L1正则化的效果是推动模型的权重向稀疏的方向学习，即将某些权重变为零，使得模型具有稀疏性。这对于特征选择和模型简化很有用。

在这里插入图片描述

L2正则损失对于大数值的权值向量进行严厉惩罚，鼓励更加分散的权重向量，使模型倾向于使用所有输入特征做决策，此时的模型泛化性能好！
在这里插入图片描述

实现方式：

训练过程中，对某一层使用Dropout，就是随机将该层的一些输出舍弃（输出值设置为0），这些被舍弃的神经元就好像被网络删除了一样。
在这里插入图片描述
随机失活比率（Dropout ratio）:

是被设为0的特征所占的比例，通常在0.2~0.5范围内。

在这里插入图片描述

随机失活为什么能够防止过拟合呢？

解释一：随机失活使得每次更新梯度时参与计算的网络参数减少了，降低了模型容量，所以能够防止过拟合。

在这里插入图片描述
解释二：随机失活鼓励权重分散，从这个角度来看随机失活也能起到正则化的作用，进而防止过拟合。

通过随机失活，在训练过程中，将一部分神经元的输出置为零，相当于随机断开了这些神经元与其他神经元之间的连接。这样做的结果是，每个神经元都不再依赖于其他特定的神经元，而是需要通过其他神经元来进行信息传递。因此，网络中的神经元被鼓励去学习更加独立和分散的特征表示，而不是过度依赖于某些特定的神经元。
这种随机失活的效果是，网络的不同部分在训练过程中会以更加均衡的方式进行学习，权重会分散到更多的神经元上。这有助于避免某些特定的神经元或权重集中承担大部分的计算负载，从而提高网络的鲁棒性和泛化能力。

解释三：Dropout可以看作模型集成。
在这里插入图片描述