0
点赞
收藏
分享

微信扫一扫

神经网络的偏差与方差处理

神经网络的偏差与方差处理

模型偏差与方差实例

测试集验证集模型问题
高误差高误差模型或数据处理错误
底误差高误差方差过大,过拟合
高误差底误差偏差过大,欠拟合

偏差与方差处理

正则化 regularization


在成本函数中添加参数
λ / 2 m ∗ ∥ w ∥ 2 2 \lambda/2m*\begin{Vmatrix}w \end{Vmatrix}_2^2 λ/2mw22
以上是常用的L2正则化,除此外,还有L1正则化或者对b参数正则化等。
特别的,L1正则经常会得到稀疏矩阵,但并未因稀疏而降低内存使用。
λ = r e g u l a r i z a t i o n _ p a r a m e t e r \lambda = regularization\_parameter λ=regularization_parameter
对于神经网络中的二维 W 矩阵,我们用弗罗贝尼乌斯范数代替L2范数即正则参数表达为:
λ / 2 m ∗ ∥ w ∥ F 2 \lambda/2m*\begin{Vmatrix}w \end{Vmatrix}_F^2 λ/2mwF2
后令 d w [ L ] = δ J / δ w + λ / m w [ L ] dw^{[L]}=\delta J/\delta w +\lambda/m w^{[L]} dw[L]=δJ/δw+λ/mw[L]
得到新的梯度下降公式:
w [ L ] : = w [ L ] − α d w [ L ] w^{[L]}:=w^{[L]}-\alpha dw^{[L]} w[L]:=w[L]αdw[L]
: = ( 1 − α λ / m ) w [ L ] − α δ J / δ w :=(1-\alpha \lambda/m)w^{[L]} -\alpha \delta J/\delta w :=(1αλ/m)w[L]αδJ/δw

举报

相关推荐

0 条评论