0
点赞
收藏
分享

微信扫一扫

LayerNorm


手推公式之“层归一化(LayerNorm)”梯度

昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。

前向传播

LayerNorm_归一化

反向传播

LayerNorm_归一化_02

推导过程

LayerNorm_推公式_03

LayerNorm_推公式_04

均值和标准差的梯度 

LayerNorm_归一化_05

这次内容较少就是一些图哦~~  

举报

相关推荐

0 条评论