多层感知机-CFANZ编程社区

数值稳定性

参数更新过小，导致模型无法学习

sigmoid函数就是导致梯度消失的常见原因，由于sigmoid函数是饱和函数，在输入很大或很小时其梯度都会消失。导致模型梯度被切断

参数更新过大，破坏了模型的稳定收敛

与模型消失相反，但同样让人烦恼，模型爆炸也是一种不可避免的问题

神经网络设计中的另一个问题是其参数化所固有的对称性。

在这种情况下，我们可以对第一层的权重进行重排列，并且同样对输出层的权重进行重排列，可以获得相同的函数。

在基于梯度的迭代（例如，小批量随机梯度下降）之后， W1的所有元素仍然采用相同的值。这样的迭代永远不会打破对称性，我们可能永远也无法实现网络的表达能力。隐藏层的行为就好像只有一个单元。请注意，虽然小批量随机梯度下降不会打破这种对称性，但暂退法正则化可以。

在模型训练中，我们想努力使训练更稳定，目标就是要让梯度值在合理的范围内。

可使用的方法有：

不能同时满足前一层与后一层的方差＝1，采用折中的办法

这节，我学不懂，等以后会概率论了再说吧

使用泰勒展开检查可以发现各个激活函数的合理性

模型的数据来源，数据精度是很重要的问题，我们在训练模型的时候一定关注这些问题，当数据分布改变时，模型部署可能会出现灾难性的失败。