【数据分析过程解析】一、整合数据并创建数据模型

前面我们介绍了Excel中的Power BI组件,也介绍了实际工作中使用这些组件的一些案例。但还有些朋友对Power BI不太熟悉。从今天开始,我们将用一系列(3-4篇)文章完整介绍一个使用Power BI进行数据分析的全过程。本文部分来自与微软的介绍,我根据Excel 2016的特点和自己的经化验,增加和调整了一部分内容。

今天是第一篇:整合数据并创建数据模型

为了减少麻烦,本系列用的文件是微软提供的几个数据文件。

数据源文件获得方式:

关注本公众号,回复“Power BI数据分析案例文件”即可获得下载地址

正文

基本上所有的数据分析过程都是从源数据开始的,传统上,如果源数据来自于不同的地方(多个工作表,多个文件,多种格式),那么光是整合这些源数据就需要花费非常大的时间和精力。现在,利用Power Query,这一切变得非常简单。

1. 从Excel文件中导入数据

有一些数据是存放在Excel文件中的,我们讲它们导入到一个新的Excel文件中:

新建一个Excel文件,然后新建一个工作表,命名为“Sports”。

在“数据”选项卡下,依次点击“新建查询”,“从文件”,“从工作簿”:

然后浏览到存放数据源文件的目录,找到并选中“OlympicSports.xlsx”,点击确定。

然后在导航器中左边选择“Sheet1”,点击右下角的“转换数据”按钮,进入“Power Query编辑器”。在编辑器中可以看到,原来的列标题“Sport”和“SportID”被作为数据内容的一行,Excel又新建了两个列标题:Column1和Column2。

回归线经验:造成这种情况的原因是数据源中的数据并没有转换为表格。如果是以表格(Table)形式存放的,就不会有这种情况了。

我们需要修改列标题:在列标题上点击鼠标右键,然后点击“重命名”

将这两列重新命名为:Sport和SportID

然后在“主页”选项卡下,依次点击“删除行”,“删除最前面几行”:

在行数中输入1,点击“确定”

点击“主页”选项卡下的“关闭并上载”的箭头,点击“关闭并上载至”,

将数据位置选择为“现有工作表”的$A$1单元格,并勾选“将此数据添加到数据模型”,点击“加载”:

数据被加载到Sports工作表中:

点击数据区域的任意单元格,在“表格工具-设计”选项卡中,在最右侧将“表名称”修改为“Sports”:

回归线经验:这一步不是必须的。但是建议为每一个表格(Table)起一个有意义的名字。

重复同样的过程,导入Hosts文件中的数据至Hosts工作表,并将导入后的表格命名为Hosts:

2. 从Access数据库导入数据

在“数据”选项卡下,依次点击“新建查询”,“从数据库”,“从Microsoft Access数据库”:

在源数据文件中,浏览到存放源数据文件的目录,选择文件“olympicmedals.accdb”,点击“导入”。

在导航器的左侧,勾选“选择多项”,然后勾选所有的表格:

点击右下角“加载”右侧的箭头,然后点击“加载到”,在“加载到”对话框中,显示方式选择“表”,并勾选“将此数据添加到数据模型”:

点击“加载”,数据被加载至Excel文件中。

3. 创建表关系

点击“Power Pivot”选项卡中的“管理”按钮,

进入“Power Pivot for Excel”窗口。在“设计”选项卡下,点击“创建关系”:

在左侧(表1),选择“Disciplines”,点选字段“SportID”,在右侧(表2),选择“Sports”,点选字段“SportID”,点击“确定”。

4. 总结

现在我们通过Power Query将不同的源数据整合到了一起。通过这个过程我们可以了解到,Power Query不仅仅是将这些不同的数据复制到了同一个Excel文件中,更重要的是还创建了一个数据模型。在Power BI中,数据模型起到了一个至关重要的作用,也可以说数据模型是Power BI的基础。而在数据模型中,表之间的关系可以说是基础的基础。如果没有关系,数据模型中的表格是一个一个的孤岛,有了关系,这些数据才互相关联到了一起。

本节,我们介绍了如何创建表之间的关系。下一节,我们将介绍如何Power BI组件扩展基础的数据模型,使这个模型具有更加丰富的信息,更加容易被分析。

取得本文案例文件的方式:

  1. 关注本公众号

  2. 回复“Power BI数据分析案例文件”即可获得下载地址

(0)

相关推荐