8月吃瓜教程—task03-学习笔记-ss

第四章 决策树

4.1基本流程

依据最佳的属性进行分治:

4.2划分选择

4.2.1信息增益

信息熵:image
信息增益:image
即已知划分条件下,分出来的不确定性衡量,表示纯度的提升。利用最大的信息增益值来选择划分的属性:image
ID3决策树即以信息增益为准则来选择划分属性的决策树

4.2.2 增益率

为了避免生成的模型过拟合,无法泛化,可以引入增益率:image,其中image为属性a的固有值
先从属性中选择高于信息增益平均值的属性,再根据增益率来选择最大的属性。
C4.5决策树以此准则来选择划分属性

4.2.3 基尼指数

基尼值:image,基尼值越高纯度越低。
基尼指数:image
实际操作中:


会选择最小的基尼指数值作为划分属性标准
CART决策树基于基尼值