【北京迅为】iTOP-4412全能版使用手册-第三十五章 WEB控制LED-CFANZ编程社区

【北京迅为】iTOP-4412全能版使用手册-第三十五章 WEB控制LED

回望这一段人生

阅读 20

2024-12-04

在复现simsam的过程中，看到在线性评估部分的训练函数中设置了model.eval,不太理解，印象中一直觉得，model.eval会影响梯度的回传，这里来拨乱反正一下。

事实上，model.eval()主要影响 BatchNorm 和 Dropout 层的行为，确保它们在训练和评估时的表现一致。
model.eval() 会做以下几件事：

BatchNorm 层：从计算每个批次的均值和方差，变成使用训练期间保存的全局均值和方差。这有助于模型在推理时保持一致的行为。
Dropout 层：将 Dropout 层禁用（即在训练时丢弃部分神经元的随机行为停止），以确保所有神经元参与计算。

而真正影响梯度回传的实际上是requires_grad=True。只要某一层该属性为True，那么这一层就会参与前向传播和反向传播。
结合simsiam的实际场景来看一下：
在该场景中希望冻结模型的前几层（特征提取部分）并只训练后面的线性分类器部分，因此，将前面的层的 requires_grad 设置为 False，使得它们不会计算梯度和更新参数，后面的线性分类器部分保持 requires_grad=True，使其参与训练。同时在训练的过程中设置model.eval(),确保被冻结的层中的BN层的参数不会改变。

万万要搞清楚啊！

相关推荐
yundejia
 第三十五章 网络应用
yundejia 93 0 0
小沙坨
 第三十五章 : 字符串和数字
小沙坨 60 0 0
岁月不饶人老不正经
 第三十五章 SQL函数 CURRENT_DATE
岁月不饶人老不正经 76 0 0
腾讯优测
 四核iTOP4412开发板使用手册目录
腾讯优测 42 0 0
蚁族的乐土
 迅为iTOP-STM32MP157开发板使用手册目录
蚁族的乐土 86 0 0
肉肉七七
 自然语言处理:第三十五章Embedding 测评榜单MTEB
肉肉七七 36 0 0
余寿
 学习Vue3 第三十五章（Evnet Loop 和 nextTick）
余寿 159 0 0
小时候是个乖乖
 《MiniPRO H750开发指南》第三十五章 IIC实验
小时候是个乖乖 60 0 0
程序小小黑
 【北京迅为】《STM32MP157开发板使用手册》- 第三十章Cortex-M4通用定时器实验
程序小小黑 40 0 0
东林梁
 【北京迅为】itop-3562机器视觉opencv开发手册使用OpenCV处理图像
东林梁 2 0 0

精彩评论（0）