一、是集成学习中一种典型的Bagging类型的算法（引导聚合类算法）

集成学习：指整个模型的内部是由多个弱监督模型组成，而每个弱监督模型只在某个方面表现比较好

（ok这里就可以理解为某个学生只在某一科成绩比较突出）

二、随机森林

分别随机选取不同的数据集中不同的部分（样本随机，特征随机）当作树的训练集，当每棵树都完成训练后，我们把待测样本放到三棵树中做决策。

因为每棵树在训练过程中“所见到”的样本不一样，即看问题的角度不同，

所以最后得到的结论也可能不同。

最后，我们将不同的结果做一个综合，就可得到随机森林最终的输出。

随机森林的详细训练过程：

DATASET[N*D]=>data subset[n*d]

N,n 样本数量 D,d特征数量

3.输入待测样本到每棵树中，再将每棵树的结果整合

Regression:求均值

Classification问题：求众数MODE（找到所有输出中最多的类别当作最终的输出）

2.处理高维数据相对更快（对于每次采样，只选取原数据集中的一小部分）

3.RandomForest是树状结构，所以模型的可解释度高，可以告诉我们每个特征的重要性

模型往往过于General,不具备正确处理过于困难的样本的能力

2.由于组成森林的每个决策树都不属于强分类器，而且随机森林在训练过程中，也不会关注难以处理的样本（for example:在分类模型中难以分类别的样本），这就导致了有很大的概率在随机森林中的每个决策树都无法对这样的样本得到正确的分类结果，这就可能会导致了最后的分类结果也非常一般

模型的起点高，但是天花板低（三个只擅长某一单科的学霸放在一起可能会有所进步，但对于一道极其困难的题，仍做不对）

它会更加关注那些难以做正确的，或许可以解决现在这个问题

本文为我的学习博客，相关学习链接🔗如下：【五分钟机器学习】随机森林（RandomForest）：看我以弱搏强_哔哩哔哩_bilibili

如果觉得我的文章写的还有些帮助，请给我点赞收藏（打赏~），新手小白，如有错误请各位大佬指出。