机器学习——随机森林-CFANZ编程社区

前言

跟着b站补基础，视频链接：第四章：随机森林 1-随机森林算法原理_哔哩哔哩_bilibili

一、原理篇

1、集成算法

决策树使用到的树模型是单一的模型，而集成算法就是把单一的树模型做一个融合。

（1）Bagging

Bagging可以理解为训练多个树模型，在预测的时候将这多个树模型取平均。如下，M是指树模型的个数。

Bagging中的一种典型算法就是随机森林。

（2）Boosting

Boosting相当于提升算法。也就是先建立一棵树，在进行预测任务的时候，真实值是100，第一棵树预测为90，再加一棵树使得预测结果为95，继续加树使得结果为97，再继续加树使得预测值越来越靠近真实值，加树是为了提升其性能。

Boosting中的一种典型算法就是XGboost

（3）Stacking

Stacking是堆叠模型，其实就是把不同算法融合在一起。可以分阶段聚合多个分类或回归模型。

2、随机森林

Boosting全称为bootstrap aggregation，其实就是并行训练一些分类器。

随机森林作为典型的Boosting算法模型，如果有三颗树构成了森林，在分类任务中，如果三棵树预测的结果分别为A、B、B，则少数服从多数，最终的预测结果为B；在回归任务中，如果三棵树预测的结果分别为98、99、100，则计算平均数，最终的预测结果为99。

“随机森林”这里的重点在于随机，在构造树的时候使用的算法是一样的，使用的原始训练数据集也是同一份，那么为了获得多颗不同的树构造森林，就可以从下面几点入手：

（1）样本随机采样

例如第一颗树随机选择原始完整数据的80%进行训练，第二棵树也随机选择原始完整数据的80%进行训练.....这里随机性就保证了大概率下使用到的数据不完全一致，构造出来的树也不会完全一致。

（2）特征随机采样

例如第一颗树随机选择原始完整数据其中的6个特征进行训练，第二棵树也随机选择原始完整数据其中的6个特征进行训练.....

原始样本有多少以及特征的总数不重要，只要在构造森林的时候选择的时候进行“随机”操作，使得每颗树不一样即可，这样就能构造出随机森林了。

3、随机森林的优势

①它能够处理很高维度(feature很多)的数据，并且不用做特征选择；

②在训练完后，它能够给出哪些feature比较重要；

③容易做成并行化方法，速度比较快；

④可以进行可视化展示，便于分析。

如下，通过可视化结果可以迅速查看不同特征的重要程度。

简单介绍就是例如特征A，首先使用原始数据进行计算得到其原始预测值，之后可以进行修改该特征的数据计算噪音预测值，当噪音预测值的结果比原始预测值的结果要差得多的话说明这个特征比较重要，如果噪音预测值的结果跟原始预测值的结果差距不大甚至可能好那么一点点，说明这个特征就不怎么重要了。

4、树的个数

随机森林要有不同的树，那么树的个数要多少好呢？越多越好嘛？答案是否！不是树越多模型性能就一定越好，就像一个班级来了一位新同学，这一位同学有可能拉低了班级的平均分也有可能提高班级的平均分。【再次感慨一声：世界上并没有十全十美的东西】

5、小结

以上就是随机森林的大致介绍，简单概括就是：

（1）数据采样：从原始数据集中有放回地随机抽取多个子集。
（2）构建决策树：对每个子集训练一个决策树模型，树的每个节点在分裂时随机选择特征子集。
（3）集成预测：将所有决策树的预测结果通过投票或平均方式结合，生成最终的预测结果。

随机森林通过集成多个决策树，提升了模型的稳定性和泛化能力。

二、代码篇

1、数据集

这里依旧是使用iris数据集，该数据集包含150个样本，每个样本属于三种鸢尾花（Iris flower）类别之一：Setosa、Versicolor 和 Virginica。每个样本有四个特征，代表了花的不同测量值。数据集如下：

2、RandomForestClassifier

简单介绍一下分类模块RandomForestClassifier：

class sklearn.ensemble.RandomForestClassifier(
    n_estimators=100, *,
    criterion='gini',
    max_depth=None,
    min_samples_split=2,
    min_samples_leaf=1,
    min_weight_fraction_leaf=0.0,
    max_features='sqrt',
    max_leaf_nodes=None,
    min_impurity_decrease=0.0,
    bootstrap=True,
    oob_score=False,
    n_jobs=None,
    random_state=None,
    verbose=0,
    warm_start=False,
    class_weight=None,
    ccp_alpha=0.0,
    max_samples=None,
    monotonic_cst=None
)

【参考链接：RandomForestClassifier — scikit-learn 1.5.1 documentation】

3、基础sklearn实现

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化随机森林分类器
rf = RandomForestClassifier(n_estimators=100, random_state=42)

# 训练模型
rf.fit(X_train, y_train)

# 预测
y_pred = rf.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, y_pred):.2f}")

4、GridSearchCV进行超参数调优

使用 GridSearchCV 进行超参数调优是一种系统地搜索最佳模型参数组合的技术。在机器学习模型中，超参数是那些在训练之前设置的参数（如决策树的最大深度或随机森林中的树的数量），它们会影响模型的性能。GridSearchCV 通过遍历给定的参数值组合，并对每个组合进行交叉验证，找到最优的参数设置。

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化随机森林分类器
rf = RandomForestClassifier(random_state=42)

# 设置超参数网格
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10]
}

# 使用GridSearchCV进行超参数调优
grid_search = GridSearchCV(rf, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

# 获取最佳模型并预测
best_rf = grid_search.best_estimator_
y_pred = best_rf.predict(X_test)

# 计算准确率
print(f"Best Parameters: {grid_search.best_params_}")
print(f"Accuracy: {accuracy_score(y_test, y_pred):.2f}")