决策树概述
- 决策树是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。
- 决策树模型:树形结构,内部节点表示特征或属性,分支代表一个判断结果的输出,叶节点代表分类结果。
- 决策树的学习:主要包括特征选择、决策树生成、决策树的剪枝三个部分,生成算法有ID3算法、C4.5算法、CART算法。
- 决策树的主要优点:模型具有可读性,分类速度快。
决策树模型

需要解决的问题:
选择哪些属性作为内部节点——>特征选择
怎样得到树的结构,何时形成叶子节点——>决策树生成和剪枝
特征选择
特征选择在于选取对训练数据具有分类能力的特征,
- ID3的特征选择准则为信息增益最大化;
- C4.5的特征选择准则为信息增益比最大化;
- CART分类树的特征选择准则为基尼指数最小化;
- CART回归树的特征选择准则为平方误差最小化准则。
信息增益和信息增益比