基本原理
就相当于坐火车,铁路网那么大,但是每个人心中都有一个目的地,知道自己的归途。就像搜索二叉树一样,进来一个数字知道往哪里走。
三要素
- 特征选择:在训练数据中选择合适的特征,让决策树长的合理
- 生成决策树:递归结构,不断生长
- 剪枝:对于长成的决策树进行修剪,因为容易过拟合的。
优缺点
优点:快、省心、理解容易、简单
缺点:离散的呀,容易过拟合,类别过于多的话就容易出错,数据关联大就处理不好。
剪枝
- 预剪枝:在决策树生成过程中,在每个节点划分前先估计其划分后的泛化性能, 如果不能提升,则停止划分,将当前节点标记为叶结点。
- 后剪枝:生成决策树以后,再自下而上对非叶结点进行考察, 若将此节点标记为叶结点可以带来泛化性能提升,则修改之。
熵
可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏,熵就是信息的不确定性,概率越小熵就越大。比如划分前的数据集合熵为
H
(
D
)
H(D)
H(D),用了
A
A
A特征划分后的数据集合熵为
H
(
D
∣
A
)
H(D|A)
H(D∣A),信息增益为:
g
(
D
,
A
)
=
H
(
D
)
−
H
(
D
∣
A
)
g(D,A)=H(D)-H(D|A)
g(D,A)=H(D)−H(D∣A)
集合往最快到达纯度更高的子集合方向发展,因此我们总是选择使得信息增益最大的特征来划分当前数据集D。
信
息
增
益
比
=
惩
罚
参
数
×
信
息
增
益
信息增益比=惩罚参数\times信息增益
信息增益比=惩罚参数×信息增益
信息增益比本质:在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。
惩罚参数:数据集D以特征A作为随机变量的熵的倒数。