数值稳定性和模型初始化

初始化方案的选择在神经网络学习中起着举足轻重的作用，它对保持数值稳定性至关重要。

此外，这些初始化方案的选择可以与非线性激活函数的选择有趣的结合在一起。

选择哪个函数以及如何初始化参数可以决定优化算法收敛的速度有多快。糟糕选择可能会导致我们在训练时遇到梯度爆炸或梯度消失。

梯度消失和梯度爆炸

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fi01ld4Y-1649135524240)(C:\Users\Lenovo\Documents\Tencent Files\850604703\FileRecv\MobileFile\Image\EY48TH32YQ3Q1H4QB@D3IEC.png)]$

不稳定梯度带来的风险不止在于数值表示；不稳定梯度也威胁到我们优化算法的稳定性。我们可能面临一些问题。

要么是梯度爆炸（gradient exploding）问题：参数更新过大，破坏了模型的稳定收敛；

要么是梯度消失（gradient vanishing）问题：参数更新过小，在每次更新时几乎不会移动，导致模型无法学习。

梯度消失

曾经sigmoid函数1/(1+exp(−𝑥)) 很流行，因为它类似于阈值函数。

梯度值变为0，对16为浮点数尤为严重
训练没有进展，不管如何选择学习率
对底部层尤为严重
- 仅仅顶部层训练的较好
- 无法让神经网络更深

由于早期的人工神经网络受到生物神经网络的启发，神经元要么完全激活要么完全不激活（就像生物神经元）的想法很有吸引力。

然而，它却是导致梯度消失问题的一个常见的原因，让我们仔细看看sigmoid函数为什么会导致梯度消失。

%matplotlib inline
import torch
from d2l import torch as d2l

x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)
y = torch.sigmoid(x)
y.backward(torch.ones_like(x))

d2l.plot(x.detach().numpy(), [y.detach().numpy(), x.grad.numpy()],
         legend=['sigmoid', 'gradient'], figsize=(4.5, 2.5))

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Co6ahUUU-1649135524242)(C:\Users\Lenovo\Documents\Tencent Files\850604703\FileRecv\MobileFile\Image\G[()]NEVAN__R_3K3{9$4V[Q.png)$

当sigmoid函数的输入很大或是很小时，它的梯度都会消失。

此外，当反向传播通过许多层时，除非我们在刚刚好的地方，这些地方sigmoid函数的输入接近于零，否则整个乘积的梯度可能会消失。当我们的网络有很多层时，除非我们很小心，否则在某一层可能会切断梯度。

事实上，这个问题曾经困扰着深度网络的训练。

因此，更稳定的ReLU系列函数已经成为从业者的默认选择（虽然在神经科学的角度看起来不太合理）。

梯度爆炸

相反，梯度爆炸可能同样令人烦恼。

值超出值域，对16为浮点数尤为严重（6e-5到6e-4）
对学习率敏感
- 学习率太大：大参数值导致更大梯度
- 学习率太小：训练无进展
- 可能在训练过程中需要不断调整学习率

生成100个高斯随机矩阵，并将它们与某个初始矩阵相乘。对于我们选择的尺度（方差𝜎2=1），矩阵乘积发生爆炸。

当这种情况是由于深度网络的初始化所导致时，我们没有机会让梯度下降优化器收敛。

M = torch.normal(0, 1, size=(4,4))
print('一个矩阵 \n',M)
for i in range(100):
    M = torch.mm(M,torch.normal(0, 1, size=(4, 4)))

print('乘以100个矩阵后\n', M)