0
点赞
收藏
分享

微信扫一扫

机器学习的相关知识-决策树

陬者 2022-04-01 阅读 80
机器学习

基本原理

就相当于坐火车,铁路网那么大,但是每个人心中都有一个目的地,知道自己的归途。就像搜索二叉树一样,进来一个数字知道往哪里走。

三要素

  1. 特征选择:在训练数据中选择合适的特征,让决策树长的合理
  2. 生成决策树:递归结构,不断生长
  3. 剪枝:对于长成的决策树进行修剪,因为容易过拟合的。

优缺点

优点:快、省心、理解容易、简单
缺点:离散的呀,容易过拟合,类别过于多的话就容易出错,数据关联大就处理不好。

剪枝

  • 预剪枝:在决策树生成过程中,在每个节点划分前先估计其划分后的泛化性能, 如果不能提升,则停止划分,将当前节点标记为叶结点。
  • ​后剪枝:生成决策树以后,再自下而上对非叶结点进行考察, 若将此节点标记为叶结点可以带来泛化性能提升,则修改之。

可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏,熵就是信息的不确定性,概率越小熵就越大。比如划分前的数据集合熵为 H ( D ) H(D) H(D),用了 A A A特征划分后的数据集合熵为 H ( D ∣ A ) H(D|A) H(DA),信息增益为:
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)H(DA)
集合往最快到达纯度更高的子集合方向发展,因此我们总是选择使得信息增益最大的特征来划分当前数据集D。

信 息 增 益 比 = 惩 罚 参 数 × 信 息 增 益 信息增益比=惩罚参数\times信息增益 =×

信息增益比本质:在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。

惩罚参数:数据集D以特征A作为随机变量的熵的倒数。

举报

相关推荐

0 条评论