Excel数据清洗之二 纠正错误的表格格式
不规范的源数据中有一类是格式错误,我们清洗数据的第一步是纠正这些错误的格式。
空行或空列
其中一种非常常见的类型就是数据之间有空行或者空列。
这份数据中,橙色的竖线表示空列,蓝色的横线表示空行。
这份数据为了区分不同的场馆而被加入了空行,为了区分不同的产品而被加入了空列。
如果我们直接分析这份数据,无论使用函数还是数据透视表,这些空行空列都会让分析过程变复杂。
有空列的情况很简单,因为,一般来说,我们的数据往往是行比列多。比如,在上图中,我们只有30几列,但是却有几千行。所以,空列一般不多,只要找到然后删除就可以了。
而空行就相对麻烦一些,主要是因为空行有可能很多。比如在5000行的数据中随机分布着100个空行。一个一个删除就太麻烦了。
这时,我们可以使用排序
只要选定所有的数据区域,然后选择排序,
点击确定,即可。
合并单元格
第二种常见的格式错误是合并单元格,
不用说,我们需要将单元格拆分。选中整个数据区域,在开始选项卡中,点击“合并并居中”,
我们得到拆分后的结果:
接下来,我们需要将拆分后的空白单元格填充上合适的数据。
先来看第一列,
首先选中该列,然后按Ctrl+G(定位),调出定位对话框,
点击定位条件,然后点击“空值”,
点击确定,后,选中所有拆分后的空白单元格,
在公式栏中输入公式:
=A3
按Ctrl+Enter,在所有的空白单元格处输入公式,
然后再来看标题行(前两行)
一般来说,我们分析数据时只需要一行标题
因此,我们首先将第一行的空白单元格填充合适的数据:
然后在第二行下插入一个空行,
在C3中输入公式:
=C1&"|"&C2
向右拖拽填充,
然后选择整个数据区域,复制,并粘贴为数值,
删除前两行,用新添加的行最为标题行,
这一步的数据清洗工作基本上就完成了。但是,这里有一个问题,
比较新的标题行和原来的标题行就会发现,在原来两行标题的时候,这些指标是有层级和分类的,但是合并后的新的一行标题行上,这些层级结果信息丢失了。在后续分析的时候,如果要像分别统计不同的指标(Volumn或者Value,或者Transaction),就比较麻烦,尤其是要进行透视表的筛选时。我们更希望数据是这样的一种格式:
这就需要我们使用另外一种数据清洗的技巧-横表转竖表。我们下次为大家介绍。