一、模型调参

本章主要讲如何对超参数进行调节，得到比较好的结果

1. 手工调节超参数

从一个比较好的基准线（baseline）开始
- eg：高质量的工具包的默认参数、别人论文的超参数
调一个值，重新训练一个模型，去看看损失、精度
重复前面的步骤多次，得到一些直觉，就能知道：
- 哪些超参数比较重要
- 模型对超参数对超参数的敏感度
- 比较好的超参数的范围
需要妥善管理实验，做笔记
记录下所有的日志、超参数，之后可以进行比较区别
- 把log存在txt文件，把超参数和一些指标放在excel
- 使用tensorboard和weight&bias
重复一个实验很难，关系到：
- 环境（硬件、库）
- 代码
- 随机性（随机种子）

2. 自动调节超参数

计算成本在减少，人力成本在增加
使用算法调参，当训练超过1000次，算法能够打败90%的数据科学家调参

2.1 AutoML自动机器学习

用ML去解决问题的时候，把每一个步骤（数据清理、特征抽取、模型选择）都自动化
在模型选择这块，AutoML效果不错

2.1.1 超参数优化 HPO：通过搜索算法找到一个很好的超参数的集合

2.1.2 神经网络架构NAS：构造一个比较好的神经网络模型使得能够拟合到我的数据上

3. HPO算法

3.1 搜索空间

请添加图片描述

为每个超参数指定一个范围
搜索空间不能太大

3.2 HPO算法分类

请添加图片描述

3.2.1 Black-box黑盒

每挑一组超参数去做训练，每次训练都是完成了的
优点：适用于任何机器学习算法

3.2.2 Multi-fidelity 多精度（只需要关注超参数哪个更好，关注于他的排序）

在完整数据集上进行采样，然后训练
缩小模型大小（eg：减少层数#layers、通道数#channels）
不需要等完全训练完，提早结束不好的超参数

3.3 最常见的两个HPO策略（属于黑盒优化）

3.3.1 网格搜索

for config in search_space:
	train_and_eval(config)
return best_result

搜索空间的所有的组合都训练和评价一次
保证结果是最好的
搜索空间大的话，任务不可能完成

3.3.2 随机搜索（最优先选择）

for _ in range(n):
  config = random_select(search_space)
  train_and_eval(config)
return best_result

最多选择n次，每次从搜索空间随机选择一个config
通常很有效，当遇到没什么进度（eg：精度不提升）了，就停止

3.3.3 贝叶斯优化（BO）

请添加图片描述

学习一个从超参数到目标函数（eg：损失函数、评估精度）的函数
根据当前的评估，来选择下一次训练的超参数

3.3.3.1 代理模型（Surrogate model）

拟合超参数到目标函数的模型
概率回归模型：随机森林回归、高斯过程回归

3.3.3.2 获取函数（Acquisition function）：评估我下一个点采样谁

值大表示我不那么置信
下一个采样的超参数是获取函数最大的点
权衡exploration（探索未知）和exploitation（深处挖掘）

3.3.3.3 BO的局限性

刚开始的阶段，和随机搜索差不多，后期比较好
参数优化过程是顺序的（采集下一个点需要等前一个点完成）

3.4 Successive Halving（SH）

请添加图片描述

把最靠谱的超参数训练的足够长，不好的超参数早期淘汰掉，节约钱
随机取n个超参数，每个超参数训练m轮（epochs）
一直重复下面的步骤，直到只剩下一个超参数
- 保留最好的一半超参数，丢掉剩下的一半
- 每个超参数训练的epoch翻倍
根据预算来选择n、m、迭代次数#epochs
钱多n可以大一些

3.4.1 问题：n不太好取

3.5 Hyperband

在SH中
- n代表exploration
- m代表exploitation
Hyperband运行多次SH，每次都减少n增加m
- 刚开始关注于exploration，然后关注于exploitation

4. NAS算法（用于NN）

神经网络（NN）有各种不同的超参数
- 拓扑结构：resnet、mobilenet、每个网络的层数
- 每一层：核窗口大小、卷积层输出通道数、全连接层或者RNN输出的隐藏单元的个数
NAS使得整个神经网络的设计更加自动化
- 指定NN的搜索空间
- 如何在搜索空间进行搜索
- 如何判断NN架构的好坏

请添加图片描述

4.1 通过强化学习实现NAS

用一个RNN来生成网络架构
- 然后在我的数据集上训练，得到验证的精度
- 把精度反馈给RNN（强化学习）
强化学习很贵，加速NAS的方法
- 不要训练完整的网络
- 重用参数，不用重新训练（EAS、ENAS）

4.2 One-Shot 方法实现NAS

既学习模型架构也学习其中的超参数
训练一个巨大的模型，其中包含很多个子模型
评估候选架构
- 只需要关心候选架构的好坏，以此排序
- 使用近似的指标：训练一些轮就好了，选出精度好的架构
选出最好的候选架构，再到完整的数据上做一次训练

4.3 可微的架构搜索（属于One-shot方法）

请添加图片描述

把选择谁做成一个可以学习的softmax参数
- 每一层有多个候选的层（比如kernel size是3x3还是5x5）
- 第 $l$ 层的第 $i$ 个候选输出是 $o_i^l$
- 每一个候选有一个可学习的参数对其进行softmax操作 $\alpha^l = softmax(\alpha^l)$
- 下一层的输入是上一层的进行加权求和 $\sum{a_i^lo_i^l}$ ,然后复制几份给下一层做select
- 选择每一层最大的那个 $\alpha_i$

4.4 Scaling CNNs（伸缩CNN）

CNN可以通过3种办法调节
- 更深：更多层
- 更宽：更多的输出通道
- 更大输入：输入更大的图片分辨率
EfficientNet提出三个东西要一起动（compound scale）
- 四个可调节参数 $\alpha,\beta,\gamma,\phi$
- 伸缩大小： $\alpha^\phi控制深度,\beta^\phi控制宽度,\gamma^\phi控制分辨率$
- $\alpha\beta^2\gamma^2\approx2$ ，只需要调节 $\phi$ 就可以了