用Excel建模进行决策树分析

决策树(Decision Tree)在机器学习中也是比较常见的一种算法,最早的决策树算法是ID3,改善后得到了C4.5算法,进一步改进后形成了我们现在使用的C5.0算法,综合性能大幅提高。

算法核心:为每一次分裂确定一个分裂属性。ID3采用的是“信息增益”为度量来选择分裂属性的。

本文在Excel中建模进行决策树分析,属于基础的决策树学习,有兴趣的可以在SPSS Modeler和Python中进行操作。

树模型(又称决策树或者树结构模型):基本思想和方差分析中的变异分解极为相似。
目的(基本原则):将总研究样本通过某些牲(自变量取值)分成数个相对同质的子样本。每一子样本因变量的取值高度一致,相应的变异/杂质尽量落在不同子样本间。所有树模型的算法都遵循这一基本原则。
不同树模型差异:差异在于对变异/杂质的定义不同。比如P值、方差、熵、Gini指数(基尼指数)、Deviance等作为测量指标。

决策树图例

现在我们来分析天气、温度、湿度、风这些属性对打球的影响

首先确定样本集信息熵,然后计算各个属性的信息增益进行对比分析。

熵:数据集中的不确定性、突发性或随机性的程度的度量。当一个数据集中的记录全部都属于同一类的时候,则没有不确定性,此时熵为0。

信息增益:按照某个属性A把数据集S分裂,所得到的信息增益等于数据集S的熵减去各个子集的熵的加权和。

计算是否打球的概率:

计算天气对打球的影响:

I(晴天)=-0.25*log(0.25,2)-0.75*log(0.75,2)=0.811278

E(天气)=0.285714*0.811278+0.357143*0+0.357143*0.70951=0.578562

Gain(天气)=E(all)-E(天气)=0.940286-0.578562=0.361724

经计算得出天气的信息增益为0.361724,温度、湿度和风计算步骤类似

对各属性的信息增益进行降序排序,选择最大的作为分裂属性

(0)

相关推荐

  • 决策树(decision tree)(一)——构造决策树方法

    说明:这篇博客是看周志华老师的<机器学习>(西瓜书)的笔记总结,虽然自己写了很多总结性文字包括一些算法细节,但博客中仍有部分文字摘自周老师的<机器学习>书,仅供学习交流使用.转 ...

  • 学术简报|构建多属性决策树:获取电网暂态稳定规则的新方法

    摘要 电网智能化调度与控制教育部重点实验室(山东大学).国网江西省电力有限公司南昌供电分公司.中国电力科学研究院有限公司的研究人员石访.张林林.胡熊伟.于之虹.张恒旭,在2019年第11期<电工 ...

  • 项目管理:决策树分析法

    决策树分析法 以上介绍的以决策矩阵表为工具的数学期望值法,对解决比较简单的决策问题是适用的,但用它来分析和解决较为复杂的决策问题则有困难,这就需要借助于决策树分析法. 决策树分析法是将构成决策问题的有 ...

  • 如何用Excel做数据预测分析?

    HI,大家好,我是星光. 今天给大家聊一下如何用Excel预测未来! 先别砸鸡蛋,看我小眼睛,我是认真的. 摊手,其实预测未来这事吧,说起来,Excel有很多可用的方法.今天给大家聊四种函数方案:也就 ...

  • MVP方法:如何借助决策树分析做产品决策?

    当今的社会经济活动中,竞争日趋激烈,现代企业的经营方向面临着许多可供选择的方案,如何用最少的资源,赢得最大的利润以及最大限度地降低企业的经营风险,是企业决策者经常面对的决策问题,决策树法能简单明了地帮 ...

  • Excel盈亏条形图对比分析

    点击下方 ↓ 关注,每天免费看Excel专业教程 置顶公众号或设为星标 ↑ 才能每天及时收到推送 个人微信号 | (ID:LiRuiExcel520) 微信服务号 | 跟李锐学Excel(ID:LiR ...

  • ABAQUS复合材料建模及基本分析流程

    案例1:创建开孔矩形复合材料常规壳层合板,层合板一端固定,另一端施加拉伸载荷,对模型进行分析,查看每层单方向的应力,对比云图和加载时的铺层额方向,理解铺层方向与lamina材料的概念. 01 建立几何 ...

  • 用Excel做预算跟踪分析,这个方法又快又简单

    Excel预算跟踪分析,用传统方法做,需要些公式,链接很多表格,容易出错,不容易维护修改.这里介绍一个方法,又快又简单.这个案例我在很多面授课程里都当作案例来练习,不过今天介绍的是用Power Que ...

  • 如何在Excel中进行KPI分析?

    Excel能进行KPI分析吗?复杂吗?难学吗?其实这一切都很简单.只要使用Power Pivot,你也可以轻松完成KPI分析--从数据到可视化一步完成. 如何在Excel中进行KPI分析 在超级透视表 ...

  • Excel如何获取薪酬分析中工资层级的中间值

    最近正在做薪酬分析,需要快速使用MEDIAN函数来找出各层级的基本工资的中间值.比如等级1共有3名员工,工资分别为5000.6000和7000,中间值就是6000,如图3-227所示. 图3-227 ...

  • 供需互动分布式发电系统收益-风险组合优化建模及其可靠性分析

    点击下面标题,了解通知详情 第九届电工技术前沿问题学术论坛征文通知 风.光等可再生能源出力.负荷以及市场电价的不确定性会导致分布式发电系统运营收益具有一定的风险特性.合理管理系统内多类资源在能量和备用 ...