机器学习的相关知识-决策树-CFANZ编程社区

机器学习的相关知识-决策树

陬者 2022-04-01 阅读 82

标签: 机器学习

基本原理

就相当于坐火车，铁路网那么大，但是每个人心中都有一个目的地，知道自己的归途。就像搜索二叉树一样，进来一个数字知道往哪里走。

三要素

特征选择：在训练数据中选择合适的特征，让决策树长的合理
生成决策树：递归结构，不断生长
剪枝：对于长成的决策树进行修剪，因为容易过拟合的。

优缺点

优点：快、省心、理解容易、简单
缺点：离散的呀，容易过拟合，类别过于多的话就容易出错，数据关联大就处理不好。

剪枝

预剪枝：在决策树生成过程中，在每个节点划分前先估计其划分后的泛化性能，如果不能提升，则停止划分，将当前节点标记为叶结点。
后剪枝：生成决策树以后，再自下而上对非叶结点进行考察，若将此节点标记为叶结点可以带来泛化性能提升，则修改之。

熵

可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏，熵就是信息的不确定性，概率越小熵就越大。比如划分前的数据集合熵为 $H (D)$ ，用了 $A$ 特征划分后的数据集合熵为 $H (D ∣ A)$ ，信息增益为：
$g (D, A) = H (D) - H (D ∣ A)$
集合往最快到达纯度更高的子集合方向发展，因此我们总是选择使得信息增益最大的特征来划分当前数据集D。

$信息增益比=惩罚参数\times信息增益$

信息增益比本质：在信息增益的基础之上乘上一个惩罚参数。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大。

惩罚参数：数据集D以特征A作为随机变量的熵的倒数。

0 条评论