0
点赞
收藏
分享

微信扫一扫

batch normalization

你的益达233 2022-02-26 阅读 107
深度学习

batch normalization

  Batch Normalization确实是深度学习领域的重大突破之一,也是近年来研究人员讨论的热点之一。Batch Normalization是一种被广泛采用的技术,使训练更加快速和稳定,已成为最有影响力的方法之一。然而,尽管它具有多种功能,但仍有一些地方阻碍了该方法的发展,因此在一些特定业务上需要采用其他归一化的方法。

什么是batch normalization

  在训练过程中,当我们更新之前的权值时,每个中间激活层的输出分布会在每次迭代时发生变化。这种现象称为内部协变量移位(ICS)。所以很自然的一件事,如果我想防止这种情况发生,就是修正所有的分布。简单地说,如果我的分布变动了,我会限制住这个分布,不让它移动,以帮助梯度优化和防止梯度消失,这将帮助我的神经网络训练更快。因此减少这种内部协变量位移是推动batch normalization发展的关键原则。
  Batch Normalization通过在batch上减去该批量平均值除以该批量标准差来对前一个输出层的输出进行归一化。这将使数据看起来像高斯分布。
在这里插入图片描述
其中μ和σ2分别为批均值和批方差。并且,我们学习了一个新的平均值和协方差γ和β。所以,简而言之,你可以认为batch normalization是帮助你控制batch分布的一阶和二阶动量。

BN优点:

  • 更快收敛
  • 降低初始权重的重要性
  • 鲁棒的超参数(对超参数不敏感)
  • 需要更少的数据泛化(个人理解就是每个分布都是一定的,不会发生太大偏移导致每次训练很快都能得到收敛)

BN的缺陷

  • 在使用小batch size的时候不稳定
      如上所述,batch normalization必须计算平均值和方差,以便在batch中对之前的输出进行归一化。如果batch大小比较大的话,这种统计估计是比较准确的,而随着batch大小的减少,估计的准确性持续减小。
    在这里插入图片描述
            ResNet-50在Batch Norm使用32、16、8、4、2张/GPU图像时的验证错误
    以上是ResNet-50的验证错误图。可以推断,如果batch大小保持为32,它的最终验证误差在23左右,并且随着batch大小的减小,误差会继续减小(batch大小不能为1,因为它本身就是平均值)。损失有很大的不同(大约10%),但是batchsize并不是越大越好的,在finetune的时候,就不能使用大的batch,以免过高的梯度对模型造成伤害。

  • 导致训练时间的增加
      NVIDIA和卡耐基梅隆大学进行的实验结果表明,尽管Batch Normalization不是计算密集型,而且收敛所需的总迭代次数也减少了。但是每个迭代的时间显著增加了,而且还随着batch大小的增加而进一步增加
    在这里插入图片描述
      ResNet-50 在ImageNet上使用 Titan X Pascal
    你可以看到,batch normalization消耗了总训练时间的1/4。原因是batch normalization需要通过输入数据进行两次迭代,一次用于计算batch统计信息,另一次用于归一化输出。

  • 训练和推理时不一样的结果
      例如,在真实世界中做“物体检测”。在训练一个物体检测器时,我们通常使用大batch(YOLOv4和Faster-RCNN都是在默认batch大小= 64的情况下训练的)。但在投入生产后,这些模型的工作并不像训练时那么好。这是因为它们接受的是大batch的训练,而在实时情况下,它们的batch大小等于1,因为它必须一帧帧处理。考虑到这个限制,一些实现倾向于基于训练集上使用预先计算的平均值和方差。另一种可能是基于你的测试集分布计算平均值和方差值。

  • 对在线学习不好
      与batch学习相比,在线学习是一种学习技术,在这种技术中,系统通过依次向其提供数据实例来逐步接受训练,可以是单独的,也可以是通过称为mini-batch的小组进行。每个学习步骤都是快速和便宜的,所以系统可以在新的数据到达时实时学习。
    在这里插入图片描述
    由于它依赖于外部数据源,数据可能单独或批量到达。由于每次迭代中batch大小的变化,对输入数据的尺度和偏移的泛化能力不好,最终影响了性能。

  • 对NLP任务不好
    因为NLP任务都是时序数据,长度不固定,如果使用BN的话每次训练的批量都不固定导致稳定。因此,在NLP任务都是采用LN,即简单理解是在单个数据的两维(长宽)做归一化。

举报

相关推荐

0 条评论