数据分析常用6种分析思路(上)
作为一名数据分析师,你又没有发现,自己经常碰到一些棘手的问题就没有思路,甚至怀疑自己究竟有没有好好学过分析?
譬如:KPI又出现较大波动,待会领导估计要问起来,赶紧分析数据找原因;再比如,新上线某个产品,需要监控转化率效果,既要看总体情况,也要看细分渠道;又或者策划营销活动,预算有限,要看看选择哪些目标用户群、采用哪种方案带来的销量更高(更能拉动KPI)。
总归是有问题,但是又不知道怎么处理才好?那么,今天这篇内容,你一定要好好读一读,说不定对你益处非常多。
1、流程
完成一项任务,通常需要一系列操作,比如做菜,得先想好吃啥,然后买菜、洗菜、切菜、炒菜。
1.1行动步骤
行动步骤就是先确定起点、终点(目标),然后将起点和终点的距离拆分成一个个小步骤,知道先做什么,后做什么。
注:图中小黑点表示该步骤下可以选择的行动方案
e.g. 常见的数据分析路径之一是SAS公司提出的SEMMA范式:
1.Sample,数据抽样,保证数据的效度和信度;
效度是指数据的准确性,也指选择的数据和分析目标及业务目标是吻合的;
信度是指数据的稳定性,要保证样本数据有代表性,且在一定周期内不能有过大的波动(否则模型不稳定);
2.Explore,数据特征探索及预处理,e.g. 看数据的分布情况、对数据进行标准化等;
3.Modefy,明确问题、模型选择、方案调整;
4.Model,执行建模方案;
5.Assess,结果评估(准确性、稳定性、是否符合业务预期、效益如何);
另一个常用的数据分析范式是CRISP-DM,分为6个步骤。
1.商业理解:确定业务目标,评估现有资源,确定分析目标,制定解决方案;
2.数据理解:数据采集,探索分析,数据质量验证;
3.数据准备:筛选数据,数据清洗,整合数据,变量衍生;
4.建立模型:模型选择,检验设计,模型建立,结果评估;
5.模型评估:分析结果和业务目标匹配度确认,检查1-4步的执行过程,确定下一步行动;
6.结果部署:规划部署方案、监控和维护方案,输出项目报告,项目复盘;
e.g. 一个报表上线的基本步骤如下:
需求登记 --> 方案规划 --> 需求排期 --> 数据ETL--> 代码编写 --> 数据验证 --> 报表上线
1.2分步转化
要连续完成多个步骤,有的人“浅尝辄止”,有的人“半途而废”,有的人则是“善始善终”。
产品转化的每个步骤都会有用户流失,好比100个人参加有9个关卡的淘汰游戏,每个关卡会淘汰10个人,整个游戏最终会剩下10个获胜者,把这个游戏看作产品,那么该产品的全流程转化率就是10%(游戏获胜率)。
注:电商APP一般的转化漏斗
e.g. 常见的电商流程如下:
注册-->登录-->浏览商品-->加购物车-->支付-->售后
将上述步骤整理成鱼骨图,每个大步骤下还可以拆分更细的小步骤;
比如“支付环节”可以拆分为:
收货地址确认--> 选择优惠 --> 选择支付方式 --> 输入短信验证码-->返回支付结果(成功或失败)
e.g. 在用户运营理念中有这样一个转化公式:路人-->用户-->粉丝-->员工,先把围观的感兴趣的路人转化为用户,轻度用户是产品的使用者,中度用户是产品的“追随者”,重度用户则会主动参与产品的功能反馈和改进建议,在这个转化过程中用户的参与度逐步提高。
1.3闭环迭代
一般的闭环流程包括3部分:事前方案规划,事中执行监控,事后复盘总结。
e.g. 营销活动
事前:确定目标,选定用户,制定方案,确定检验标准等;
事中:实时数据监控(是否达到预期),不同方案赛马,备用方案启用等;
事后:对整个流程复盘,总结经验,CSS归类(Continue做先前已验证的正确的事,Stop做错误的事,Start做新的正确的事)
常用的闭环迭代框架是PDCA,通过计划(P)、实施(D)、检查(C)、总结(A)4个步骤,循环迭代,螺旋上升。
另外还要注意,在使用流程化思维时,除了常见的正向思考,也要逆向思考。
2、分类
互联网时代最核心的经营理念是深耕客群,通过差异化运营提升ARPU值(Average Revenue Per User,每用户平均收入),而分类无疑是开展这项工作的重要前提。
主要有4种分类方法:
二分法,非此即彼,e.g. 网站新客、老客,贷款审批结果分为通过申请、拒绝申请等;
并列分类,多个分类(子集)构成一个全集,e.g. 用户地域可以按省份划分,按年龄可以将用户分为70后、80后、90后、00后等,女性用户群体可以分为时尚丽人、都市白领、家庭主妇等;
等级分类,e.g. 会员等级——铁牌、铜牌、银牌、金牌、钻石、皇冠,城市等级——一线、二线、三线、四线;
矩阵象限,e.g. 波士顿矩阵,RFM象限
注:图片来自网络
分类的规则大致有两类:
l 按主体分类
e.g. 按社会关系模型,用户角色可以是父母、配偶、子女、朋友等;
e.g. 按照群体划分,可以分为一般情况和特殊情况、二八原则等;
l 按属性分类
依据主体(比如用户)的属性进行类别划分。
e.g. 用户画像时可以考虑以下属性:
1. 社会属性:收入水平、学历、职业、婚姻情况等
2. 位置属性:居住地、工作地、从手机端还是PC端登录等
3. 生物属性:年龄、性别、种族等
4. 心理属性:品牌偏好、购买行为、优惠偏好等
3、对比
“痛苦来自比较之中”(没有比较就没有伤害),其实幸福也来自比较之中,痛苦还是幸福,取决于选择的参照点是高于还是低于你。
对比就是找一个参照点,来发现两个数据间的差异量Δ大小如何。
对比可以分为两类:横向对比、纵向对比。
3.1横向对比
l 和同类(竞品)比较
e.g. 对比不同品牌的女装的销售情况,不同销售渠道(地区)的交易情况;
l 实验对比
设置实验组和对比组,对比两组或多组之间的差异,以确定人为干预(实验、方案)的效应。
e.g. 比较不同的产品或运营方案的效果差异时,常采用AB Test,需要确保对比的两组或者多组在数量和结构上要具有可比性(e.g. 用户的来源、等级等需要匹配);
l 和整体比较
e.g. 华东地区的销售情况和全国总体销售比较;
做组间比较时,一定要确保样本的可比性(无论是在数量级还是在群体结构上),e.g. 对比两个时间段的交易情况,建议剔除掉大促和节假日(这些交易日的数据波动很大)。
有两类不易察觉的样本错误尤其要提防:
“辛普森悖论”,即两个样本单独得到的结论和样本合并后得到的结论相反。
e.g. 如下表所示,单独看APP端和PC端,新客的转化率都是低于老客的,但是,整体新客的转化率却高于老客。
注:以上数据仅作为说明概念使用,不代表真实场景
“幸存者偏差”,即样本已经被容易忽略的因素筛选过。
e.g. 问卷调查中,那些愿意填写问卷的用户本身就是对产品有高认可度;
e.g. 产品漏斗转化流程中,处在不同环节的用户一般不能进行对比
3.2纵向对比
横向是和其他对象比较,纵向则是和自己的历史数据对比。
常见的纵向对比有同比和环比,对比的周期根据实际情况可以按日、周、月、季、年等。
注:一个常用的多组对比柱状图
对比的时候,除了比较相对量,也要看绝对量,以合理地评估数据差异的大小。
e.g. 0.5%的波动是大还是小,需要找参考点,如果历史波动最高也就0.1%,那么这个波动就很大。
e.g. 公众号关注人数昨日环比增长20%(看着还不错),实际上才增加4个人,截止前天也就20个人。
小结:
今天主要给大家了流程、分类、对比三大块,后面我们还会为大家拆解讲述关联、层级和优化三大块。