神经网络的偏差与方差处理

模型偏差与方差实例

测试集	验证集	模型问题
高误差	高误差	模型或数据处理错误
底误差	高误差	方差过大，过拟合
高误差	底误差	偏差过大，欠拟合

偏差与方差处理

正则化 regularization

在成本函数中添加参数
$\lambda/2m*\begin{Vmatrix}w \end{Vmatrix}_2^2$
以上是常用的L2正则化，除此外，还有L1正则化或者对b参数正则化等。
特别的，L1正则经常会得到稀疏矩阵，但并未因稀疏而降低内存使用。
$\lambda = regularization\_parameter$
对于神经网络中的二维 W 矩阵，我们用弗罗贝尼乌斯范数代替L2范数即正则参数表达为：
$\lambda/2m*\begin{Vmatrix}w \end{Vmatrix}_F^2$
后令 $dw^{[L]}=\delta J/\delta w +\lambda/m w^{[L]}$
得到新的梯度下降公式：
$w^{[L]}:=w^{[L]}-\alpha dw^{[L]}$
$:=(1-\alpha \lambda/m)w^{[L]} -\alpha \delta J/\delta w$

0 条评论