菜鸟记166-浅谈数据清洗的几个思路

注:拍于2019年春节广西南宁青秀山
关键词:EXCEL2016;TRIM函数;替换;操作难度***
身为教学管理人员,经常要处理大量的数据,小菜最头疼的是其他来源的数据表,由于各种原因,往往会有一些不规范的数据混杂其中,比如某天小菜接到教务处王处长的指令,要统计分析多个学期学生评教情况,拿到数据小菜傻眼了:

图 1:数据示意图
您发现了吗?黄色底纹的单元格要么就是存在空格,要么就是存在文本类型数字……
接下来,小菜就和您分享一下拿到数据后,从哪些方面开展数据清洗工作。
步骤1:复制数据表
进行数据处理的第一要则:给自己留条后路!!!
所以强烈建议复制出工作表再操作,万一出错有回头的机会。
小菜经验之谈:当小菜还年轻的时候,直接SHIFT+DELETE删除了存储在服务器中的数据,结果……
步骤2:清除字符串或空格
接下来我们注意看数据中有没有多余的空格,比如我们可以用查找替换所有空格,在查找内容中按一个空格后点击全部替换即可,请看会动的图:
如果单元格中有的空格应该保留的,建议您使用TRIM函数来控制,该函数的作用是将单元格内容前后的空格去掉,但并不去除字符之间的空格。
请注意比较两种方法的差别


步骤3:截取字符串
有的时候还要根据需要数据进行截取,比如本例可以对身份证号码提取出生日和年龄等数据。
关于该部分应用,请参阅小菜前期分享过的文章。
步骤4:替换单元格中的部分内容
接下来还有可能需要替换单元格中的部分内容,比如为了保密需要将身份证号码部分数字替换为星号。
关于该部分应用,请参阅小菜前期分享过的文章。
小菜划重点:Replace/Substitute函数也强烈建议掌握
步骤5:关联其他数据表中的数据
处于数据分析的需要,我们还可能需要关联其他数据表中的数据,此时您需要用到的函数大概有VLOOKUP、LOOKUP、INDEX+MATCH等。
关于该部分应用,请参阅小菜前期分享过的文章。
《菜鸟记6-做领导喜欢的工作表之下集——快速提取同类数据到单元格》
《菜鸟记161-自己定制一个查询器》
《菜鸟记162-从多次测试中获取最好成绩,体育老师也可以教信息课!》
步骤6:……
小菜总结:其实进行数据清洗还有很多需要注意的细节,如果您在工作中有这样的烦恼,欢迎和小菜单线联系,咱们一起研究,共同学习提高。

今天就是这些,希望小菜的分享能帮到您或有所启发,欢迎您有问题联系,为小菜提供更多思路。
休息一下,休息一下

版权声明:文中所用图片除注明作者或出处外,均为本人亲自按动快门拍摄或截取,请勿盗用。