避坑指南!数据分析最容易被忽略的10个错误

本文总结了数据分析的几个阶段中最常犯的10个错误,以及规避的方法,收藏起来,分析不翻车!

一、数据采集阶段

1、数据失真

数据是可能骗人的,比如店铺、电影的评分,可能被人为操控;比如某公司发布的行业分析报告,也具有很大的主观性。

基于错误的数据,做出的分析结论是无益甚至是有害的。所以在采集数据时,我们先要考证数据的来源及可信度,还要关注不符合常理的数据变化,对数据采集方法进行调整。

2、幸存者偏差

就算数据是真实的,也不能轻信。

举个有名的例子,二战时英军发现,从战场飞回来的战机,机身上的弹孔比引擎和油箱上的要多的多,根据这个数据,我们很容易得出要加强机身的防护的建议。但事实的真相却是,那些引擎和油箱上中弹的飞机已经回不来了,我们更应加强引擎和油箱的防护,这就是常说的“幸存者偏差”。

造成幸存者偏差的原因,其实是取样出现了偏差,在数据采集时,我们要避免主观臆断,推演各类可能性,科学取样。

二、数据处理阶段

1、原始数据没有备份

很多新手在拿到原始数据后,喜欢在原始数据基础上把异常值剔除,再备份再做数据处理。但时常到后面发现删除的值其实并非异常值或者仍然有价值,这时候想找回值就麻烦了。所以,当我们拿到原始数据后,第一件事就是要做好备份。

2、不重视数据清洗

拿到数据后,大量繁琐的数据清洗工作常常让数据分析师们感到烦恼,很多人会图省事略过一些步骤,但这常常会造成返工,拖延了项目进度。

干净的数据源是我们一切分析工作的基础,我们需要重视数据清洗。当然了,为了提高数据处理效率,我们可以采用专业的数据分析工具。就拿我在用的FineBI来说,极大简化了数据处理流程,仅需拖拽就能完成数据的清洗、转化、抽取、合并、计算等功能,我们不需要花大量时间在数据处理上,可以把精力聚焦在业务分析上。

分享一下这个分析工具,回个“数据分析”就能拿得!

三、数据分析阶段

1、过度追求技巧

熟练使用各种数据分析工具如Excel、SQL、FineBI、Python,以及各类经典的分析方法,是每个数据分析大神的基本功,但这并不意味着,好的数据分析,就一定要用到各种高级的工具和方法。

很多数据分析新人会去搜罗各种最新的分析方法和思路,套用在项目中,以证明自己的工作能力。但真正优秀的数据分析,依靠的是不断深入地探索,以及严谨的逻辑链条。再好的工具和方法,都是为人服务的,合适的就是最好的。

2、过度依赖套路

我们不能过度追求技巧,但必要的方法论储备是要有的。在数据分析行业,并不存在“一招鲜,吃遍天”。

我们在刚开始学习数据分析时,会学习各种解题套路,但真正实操时,其实并不存在通用的套路。不同的行业、不同的业务,不同的阶段,哪怕用的是同一种分析方法,结论都应有所区别。比如to C和to B行业的客户运营就是不一样的,比如互联网初创公司可能追求用户增长,步入成熟期后追求利润率提高。

这里并不是鼓励大家盲目追求技术,而是我们要在日常工作中多学习积累分析思路和方法,丰富自己的武器库,将来胜任更多的应用场景。

3、相关性≠因果性

在分析时,我们常常将不同指标的数据进行关联分析,找出问题的原因。但这样往往会犯一个错误,就是错把相关当成因果。

我们通过统计,发现常吃海参的人比不吃海参的人智商要高一些,但这背后其实是因为吃海参的人普遍比较富裕,因而受教育水平高,测出的智商高,我们不能说为了提高智商赶紧去吃海参。

为了避免这一错误,我们在对数据间的相关性进行逻辑推演时,应时刻带着批判性思维,考虑各种中介变量。

4、由结果推原因

错误的数据,披上科学的外衣,是很危险的事。如果我们在开始分析前,就已经在心里预设了一个结论,带着结论找原因,射箭画靶,那做出的分析可能毫无价值甚至可能带来极大的损失

数据分析的优势,在于尊重客观数据而并非人的主观臆断。所以,我们在进行数据分析前,应摒弃主观臆想和经验主义,相信常识和客观数据,分析时还要多次检查逻辑的严谨性。

四、分析报告阶段

1、误导性图表

业内都说字不如表、表不如图,但比不用图表更可怕的,是用误导性图表。比如下面这两张图,光看左边会明显感知到数据在飞速增长,而看到右边才能得知真正的增长速度。

我认为,报告还是应当追求真实,不逃避问题、不美化缺陷,也是分析师的职责所在。

2、结论脱离业务实际

很多人在汇报结论时,只是简单把数据分析结果说了一通,得出一些模拟两可或者大家都知道的废话,并没有联系到业务实际,也并不具备可行性,这样的报告参考价值很低。

业务决策不光是业务人员的事,数据分析人员往往能从客观的角度提出独特的见解。我建议大家多和业务人员交流,至少要熟悉各个业务环节,了解提出数据分析需求的原因,最终得出的结论要有针对性,给出具体可落地的实质建议。

(0)

相关推荐