数据分析实战案例,帮你全面认识 Power BI
很多人学习了一段时间,可是依然不清楚如何将Power BI用于实践,或者只接触了其中的某个模块,认为她只是一个分析工具或者可视化工具,对PowerBI没有一个整体的认识。
本文利用一个实例,来梳理一下PowerBI数据分析的步骤和流程,以及各个模块的主要功能,帮你认识一个全面的PowerBI。
先看一个高德地图发布的中国主要城市交通健康排行榜,网址如下,
https://trp.autonavi.com/diagnosis/index.do
下面就利用PowerBI提取该页面数据,并用她进行数据清洗和数据建模,然后制作一个类似的可视化分析报告。
一,获取网页数据
数据分析的第一步是获取数据,在PowerBI中,可以连接各种形式、各种来源的数据,无论是Excel、txt文件,还是各种数据库、云服务,甚至是网页数据。
在PowerBI Desktop中,选择从web获取数据,并输入网址:
在弹出的窗口中点击"使用示例添加表":
该页面数据有很多,我们以抓取城市排行榜数据为例,来看看PowerBI是如何获取这些数据的。
先看一下前两名的城市分别是哪个,然后输入这两个城市名,并选择需要的数据,系统就会自动识别剩余的数据,
以同样的方式,可以提取出该页面的刷新时间、TOP3的城市名称等数据。
二,数据清洗
从各种来源获取的数据很可能不能直接用于数据分析,需要进行一系列的整理,这个过程称为数据清洗,如果数据源不够规范,这个过程也会非常耗时耗力,而利用PowerQuery,可以帮你快速清洗数据。
第一步从高德网站获取到的排行榜数据是这样的,
所有的数据都挤在一列,需要想办法把这些数据分开。仔细观察这些数据,其实很有规律,只需要用几个分列技巧就可以完成。
1,按字符数分列
2,对第一列按从数字到非数字的转换分列
3,对最后一列按位置分列,如下图所示,
到这里基本上就是我们需要的数据结构了,然后调整一下数据格式和字段标题,清洗完成。
抓取的其他数据同样根据需要整理成需要的样子。
三、数据建模
需要分析的数据,往往并不是只有一张表,而这些不同的表,需要协同配合才能更好的使用,协同配合依靠表与表之间的逻辑关系,这个建立关系的过程就称为数据建模。
一个良好的数据模型是数据分析的基础,也是一个良好的可视化报告的基础,建立一个优秀的模型,可以更简单的实现分析目的。
在PowerQuery中清洗后的数据上载进来后,根据需要添加计算列、度量值或者维度表,比如在排行榜表中增加一个城市健康类型,以便与其他表建立关系:
增加一个健康类型维度表,
为了实现动态配色,建立一个配色的度量值,
配色 = IF(SELECTEDVALUE('健康分类表'[健康类型])="健康","#00BAFF","#AB7EFE")
这个简单的数据模型如下,
四、数据可视化
数据清洗、数据建模的结果将会以图表来展现,可视化的方式让数据更易于理解!
高德的这个"交通健康榜",主要是一个城市分布地图和一个排行榜表格,我们用PowerBI的图表来模拟制作一下。
地图可以使用China scatterMap,效果如下,
表格比较简单,关键是格式的细节设置,
左侧也可以根据高德的报告,添加个环形图和排名前三的城市,
这个报告也是可以根据高德数据进行刷新的,每次打开该文件,点击刷新,就是最新的实时报告。
五、发布分享
通过多种设备查看分析报告不再是梦想,PowerBI让数据变得触手可及,任何人都可以随时随地查看分析报告。
前面几步生成的PowerBI报告,不仅可以在本机查看,还可以更方便的发布到web上与他人共享。
1,在PowerBI Desktop中"发布"到服务
2,在PowerBI服务中发布到web
进入PowerBI服务(app.powerbi.cn)中,找到刚才发布的报表,发布到web,如下图所示:
然后会生成一串网址,利用它就可以随时随地查看了,在移动端同样可以查看。
报告网址:https://dwz.cn/K6Pa1jjU