数据分析常用6种分析思路(上)

作为一名数据分析师,你又没有发现,自己经常碰到一些棘手的问题就没有思路,甚至怀疑自己究竟有没有好好学过分析?

譬如:KPI又出现较大波动,待会领导估计要问起来,赶紧分析数据找原因;再比如,新上线某个产品,需要监控转化率效果,既要看总体情况,也要看细分渠道;又或者策划营销活动,预算有限,要看看选择哪些目标用户群、采用哪种方案带来的销量更高(更能拉动KPI)。

总归是有问题,但是又不知道怎么处理才好?那么,今天这篇内容,你一定要好好读一读,说不定对你益处非常多。

1、流程

完成一项任务,通常需要一系列操作,比如做菜,得先想好吃啥,然后买菜、洗菜、切菜、炒菜。

1.1行动步骤

行动步骤就是先确定起点、终点(目标),然后将起点和终点的距离拆分成一个个小步骤,知道先做什么,后做什么。

注:图中小黑点表示该步骤下可以选择的行动方案

e.g. 常见的数据分析路径之一是SAS公司提出的SEMMA范式

1.Sample,数据抽样,保证数据的效度和信度;

效度是指数据的准确性,也指选择的数据和分析目标及业务目标是吻合的;

信度是指数据的稳定性,要保证样本数据有代表性,且在一定周期内不能有过大的波动(否则模型不稳定);

2.Explore,数据特征探索及预处理,e.g. 看数据的分布情况、对数据进行标准化等;

3.Modefy,明确问题、模型选择、方案调整;

4.Model,执行建模方案;

5.Assess,结果评估(准确性、稳定性、是否符合业务预期、效益如何);

另一个常用的数据分析范式是CRISP-DM,分为6个步骤。

1.商业理解:确定业务目标,评估现有资源,确定分析目标,制定解决方案;

2.数据理解:数据采集,探索分析,数据质量验证;

3.数据准备:筛选数据,数据清洗,整合数据,变量衍生;

4.建立模型:模型选择,检验设计,模型建立,结果评估;

5.模型评估:分析结果和业务目标匹配度确认,检查1-4步的执行过程,确定下一步行动;

6.结果部署:规划部署方案、监控和维护方案,输出项目报告,项目复盘;

e.g. 一个报表上线的基本步骤如下:

需求登记 --> 方案规划 --> 需求排期 --> 数据ETL--> 代码编写 --> 数据验证 --> 报表上线

1.2分步转化

要连续完成多个步骤,有的人“浅尝辄止”,有的人“半途而废”,有的人则是“善始善终”。

产品转化的每个步骤都会有用户流失,好比100个人参加有9个关卡的淘汰游戏,每个关卡会淘汰10个人,整个游戏最终会剩下10个获胜者,把这个游戏看作产品,那么该产品的全流程转化率就是10%(游戏获胜率)。

注:电商APP一般的转化漏斗

e.g. 常见的电商流程如下:

注册-->登录-->浏览商品-->加购物车-->支付-->售后

将上述步骤整理成鱼骨图,每个大步骤下还可以拆分更细的小步骤;

比如“支付环节”可以拆分为:

收货地址确认--> 选择优惠 --> 选择支付方式 --> 输入短信验证码-->返回支付结果(成功或失败)

e.g. 在用户运营理念中有这样一个转化公式:路人-->用户-->粉丝-->员工,先把围观的感兴趣的路人转化为用户,轻度用户是产品的使用者,中度用户是产品的“追随者”,重度用户则会主动参与产品的功能反馈和改进建议,在这个转化过程中用户的参与度逐步提高。

1.3闭环迭代

一般的闭环流程包括3部分:事前方案规划,事中执行监控,事后复盘总结。

e.g. 营销活动

事前:确定目标,选定用户,制定方案,确定检验标准等;

事中:实时数据监控(是否达到预期),不同方案赛马,备用方案启用等;

事后:对整个流程复盘,总结经验,CSS归类(Continue做先前已验证的正确的事,Stop做错误的事,Start做新的正确的事)

常用的闭环迭代框架是PDCA,通过计划(P)、实施(D)、检查(C)、总结(A)4个步骤,循环迭代,螺旋上升。

另外还要注意,在使用流程化思维时,除了常见的正向思考,也要逆向思考。

2、分类

互联网时代最核心的经营理念是深耕客群,通过差异化运营提升ARPU值(Average Revenue Per User,每用户平均收入),而分类无疑是开展这项工作的重要前提。

主要有4种分类方法:

二分法,非此即彼,e.g. 网站新客、老客,贷款审批结果分为通过申请、拒绝申请等;

并列分类,多个分类(子集)构成一个全集,e.g. 用户地域可以按省份划分,按年龄可以将用户分为70后、80后、90后、00后等,女性用户群体可以分为时尚丽人、都市白领、家庭主妇等;

等级分类,e.g. 会员等级——铁牌、铜牌、银牌、金牌、钻石、皇冠,城市等级——一线、二线、三线、四线;

矩阵象限,e.g. 波士顿矩阵,RFM象限

注:图片来自网络

分类的规则大致有两类:

按主体分类

e.g. 按社会关系模型,用户角色可以是父母、配偶、子女、朋友等;

e.g. 按照群体划分,可以分为一般情况和特殊情况、二八原则等;

按属性分类

依据主体(比如用户)的属性进行类别划分。

e.g. 用户画像时可以考虑以下属性:

1. 社会属性:收入水平、学历、职业、婚姻情况等

2. 位置属性:居住地、工作地、从手机端还是PC端登录等

3. 生物属性:年龄、性别、种族等

4. 心理属性:品牌偏好、购买行为、优惠偏好等

3、对比

“痛苦来自比较之中”(没有比较就没有伤害),其实幸福也来自比较之中,痛苦还是幸福,取决于选择的参照点是高于还是低于你。

对比就是找一个参照点,来发现两个数据间的差异量Δ大小如何。

对比可以分为两类:横向对比、纵向对比。

3.1横向对比

和同类(竞品)比较

e.g. 对比不同品牌的女装的销售情况,不同销售渠道(地区)的交易情况;

实验对比

设置实验组和对比组,对比两组或多组之间的差异,以确定人为干预(实验、方案)的效应。

e.g. 比较不同的产品或运营方案的效果差异时,常采用AB Test,需要确保对比的两组或者多组在数量和结构上要具有可比性(e.g. 用户的来源、等级等需要匹配);

和整体比较

e.g. 华东地区的销售情况和全国总体销售比较;

做组间比较时,一定要确保样本的可比性(无论是在数量级还是在群体结构上),e.g. 对比两个时间段的交易情况,建议剔除掉大促和节假日(这些交易日的数据波动很大)。

有两类不易察觉的样本错误尤其要提防:

“辛普森悖论”,即两个样本单独得到的结论和样本合并后得到的结论相反。

e.g. 如下表所示,单独看APP端和PC端,新客的转化率都是低于老客的,但是,整体新客的转化率却高于老客。

注:以上数据仅作为说明概念使用,不代表真实场景

“幸存者偏差”,即样本已经被容易忽略的因素筛选过。

e.g. 问卷调查中,那些愿意填写问卷的用户本身就是对产品有高认可度;

e.g. 产品漏斗转化流程中,处在不同环节的用户一般不能进行对比

3.2纵向对比

横向是和其他对象比较,纵向则是和自己的历史数据对比。

常见的纵向对比有同比和环比,对比的周期根据实际情况可以按日、周、月、季、年等。

注:一个常用的多组对比柱状图

对比的时候,除了比较相对量,也要看绝对量,以合理地评估数据差异的大小。

e.g. 0.5%的波动是大还是小,需要找参考点,如果历史波动最高也就0.1%,那么这个波动就很大。

e.g. 公众号关注人数昨日环比增长20%(看着还不错),实际上才增加4个人,截止前天也就20个人。

小结:

今天主要给大家了流程、分类、对比三大块,后面我们还会为大家拆解讲述关联、层级和优化三大块。

(0)

相关推荐