ML之DT之CART:分类与回归树CART算法的简介、应用、经典案例之详细攻略
ML之DT之CART:分类与回归树CART算法的简介、应用、经典案例之详细攻略
分类与回归树CART算法简介
分类与回归树(Classification and Regression Trees, CART)是由Leo Breiman, Jerome Friedman, Richard Olshen与Charles Stone于1984年提出,既可用于分类也可用于回归。
CART是决策树的一个实现方式,由ID3,C4.5演化而来,是许多基于树的bagging、boosting模型的基础。CART可用于分类与回归。
1、CART原理—比较ID3、C4.5
CART是在给定输入随机变量x条件下输出随机变量y的条件概率分布。与ID3和C4.5的决策树所不同的是,ID3和C4.5生成的决策树可以是多叉的,每个节点下的叉数由该节点特征的取值种类而定,比如特征年龄分为(青年,中年,老年),那么该节点下可分为3叉。
而CART为假设决策树为二叉树,内部结点特征取值为“是”和“否”。左分支取值为“是”,右分支取值为“否”。这样的决策树等价于递归地二分每一个特征,将输入空间划分为有限个单元,并在这些单元上预测概率分布,也就是在输入给定的条件下输出条件概率分布。
2、CART算法描述
其中T代表当前样本集,当前候选属性集用T_attributelist表示。
(1)创建根节点N
(2)为N分配类别
(3)if T都属于同一类别or T中只剩下 一个样本则返回N为叶节点,否则为其分配属性
(4)for each T_attributelist中属性执行该属性上的一个划分,计算此划分的GINI系数
(5)N的测试属性test_attribute=T_attributelist中最小GINI系数的属性
(6)划分T得到T1 T2子集
(7)对于T1重复(1)-(6)
(8)对于T2重复(1)-(6)
CART算法的案经典案例
ML之RF:利用Js语言设计随机森林算法【DT之CART算法(gain index)】&并应用随机森林算法
相关文章
人工智能之CART算法