构建用户画像系统解决方案
1 认识用户画像
1.1 什么是用户画像
用户画像是一个描述用户的工具,刻画出用户个体或者用户群体全方位的特征,为运营分析人员提供用户的偏好、行为等信息进而优化运营策略,为产品提供准确的用户角色信息以便进行针对性的产品设计。
用户画像系统集用户画像的生产与应用于一身,对外(如产品运营、推荐系统等)封装提供用户画像信息,以便对产品更好的设计以及对用户更好的运营。
1.2 用户画像与数仓的关系
那么用户画像与数仓是一个什么样的关系?一般来说,数据仓库存储的是结构化的数据,而构建用户画像需要结构化数据,也有非结构化和半结构化数据,既拥有结构化数据又拥有半结构化数据和非结构化数据的系统称之为数据湖。相对来说,结构化的数据更容易构建用户画像,只需要对结构化的数据直接进行标签化,而非结构化和半结构化数据需要通过算法进行处理后再进行标签化。用户画像与数仓的关系为数据源与数据应用的关系,两者相辅相成,关系图如下:
1.3 用户画像(User Profile)与用户角色(User Persona)区别
经常有人搞不清楚用户画像与用户角色的区别,其实两者本质上是不一样的,先来看看两者的对比图表:
①性质:用户角色为定性研究,只考虑用户的特征性质不考虑程度,而用户画像是对用户的精细刻画,为定量研究;
②使用时机:一般来说,用户角色的使用场景在产品上线之前,此时几乎没有任何数据,需要产品同学针对产品的使用方进行特征描绘,以便了解目标群体进行针对性的设计,用户画像的使用场景在产品上线后,此时已积累了一定的数据量,可以对用户进行数据统计构建用户画像,获得精细化运营的能力;
③描述程度:用户角色是对某个用户群体特征进行高度概括,用户画像是对用户个体或者用户群体的精细描述;
④用途:用户角色用于辅助产品进行设计,研究用户体验,例如权限控制系统会分为以下几个角色:分析师、产品、运营、数据科学家等角色,用户画像用于了解用户特征以及偏好,以便提供个性化的服务和提高盈利。
2 用户画像规划
在构建用户画像之前,需要产品同学进行一个规划,说明下项目的背景以及做这个系统的必要性,最终要实现的目标是什么,即提供什么样的功能,为了达成这个目标需要的人力以及物力资源。
2.1 所需物力资源
这里需要计算一下需要什么硬件,如多大的磁盘、内存,需要哪些,具体可以将硬盘和内存分配到每个存储及计算组件上,这个工作可与技术同学协商完成。
2.2 所需人力资源
基于前面的介绍,设备的维护以及各存储计算组件的运行保障这里需要运维工程师,数据的清洗需要ETL工程师。数据的存储、标签生成、流式计算等需要用到多种的大数据组件,这就需要大数据开发工程师,同时存储的数据库各种备份维护等工作需要配备数据库工程师。非结构化和半结构化数据需要经过算法处理,所以算法工程师也是必需的,最后,用户画像需要进行可视化,还需要配备一个前端工程师。根据以上分析,所需的工程师如下(具体需要人数视项目而定,有的全栈工程师可以身兼多职就不需要这么多):
3 怎么构建用户画像
3.1 用户画像实施
在开始构建用户画像之前,需要数据产品出一个详细的实施文档,如果说用户画像规划文档是说做什么的话,那用户画像实施文档就是说明具体要怎么做,这样开发人员才知道具体的逻辑着手实施,如受多个因素影响的标签每个因素的权重是多少,这样才能计算出最终标签的值。以下各步骤均要在实施文档里面详细说明。
3.2 数据建模
数据的如何从原始数据最终转化成标签数据,需要定义一个标准处理流程,这就是数据建模。
3.2.1 建模流程
以上图片为使用多项 Logistic 回归算法对电信业客户进行分类的建模流程,从图片上看,数据建模可以分为以下几个步骤:
①获取原始数据,包含用户访问的行为日志、用户基本属性等,具体需要的数据视用途而定,这里预测客户类别用到的信息有地区、年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别;
②数据预处理,挖掘出事实标签,对用户数据进行过滤、清洗、简化表示,例如:过滤掉表中的无关字段,指定字段类型,处理缺省值等;
③分析用户行为及属性,构建用户画像的模型标签,通过用户行为属性分析,得到各类型用户的行为规律及特征属性,构建用户行为属性模型,训练出最终模型;
④调优模型,对模型进行调优,使预测结果更准确;
⑤通过模型进行预测,完善用户画像,预测用户的操作行为。
3.2.2 建模常用模型
以下列出常见的建模模型,以便了解熟悉各模型的常见用途。
①文本挖掘模型(TF-IDF):常用于文本的特征提取,处理与清洗数据,匹配标识用户数据,TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率越高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,能更好的代表本篇文章,适合用来分类;
②分类聚类模型(贝叶斯、KNN、K-Means):通过分析有相同特征的群体信息,对用户进行划分;
③机器学习:通过特征提取挖掘出标签;
④相似度模型(余弦相似度、皮尔逊相似度):用于辅助分类、聚类;
⑤推荐算法(Apriori):根据用户访问情况推荐出兴趣标签,完善画像;
3.3 用户画像维度拆解
思考通过各种维度来全方位描述用户画像,根据产品是To B还是To C注重的方向又不一样,To C类型产品会关注用户的性别、年龄、兴趣、职业等信息,而To B类产品不太关注这些,会更倾向于研究用户的工作能力、行为习惯等。产品所处的行业对用户画像侧重点也有影响,社交类和金融类的产品关注点又不一样。一般来说,可通过以下信息来基本构建用户画像,其余的维度视具体需求再进行定制化开发。
总之,用户画像的多维度刻画需要遵循MECE法则进行全方位不重复的拆解,这里同时引出了一个问题,维度的细分是不是越细越好?
如果用户画像的颗粒度过于精细。意味着开发成本直线提升,同时,过细的拆分意味着每个类别对应的用户量变少,造成服务目标单一化,举一个比较极端不存在的例子,将用户ID作为标签,则每个ID对应一个用户,这样的细分对精细化运营是没有帮助的。在维度细化拆分的过程中也要不停关注标签值覆盖面来进行微调。
3.4 用户画像标签生成
由于用户需求和用户场景不断更新,所以标签体系需要持续完善。不同的用户需求和业务场景,不同的业务标签,用户标签系统就不同。
3.4.1 标签的生成
标签从生成逻辑上来区分主要有几大类:统计标签、规则标签、模型标签、算法标签。
①统计标签:根据已有数据进行统计,如统计用户近30天的消费金额;
②规则标签:根据一定的业务规则进行划分,如根据用户的历史消费情况给用户划分对应的消费等级;
③模型标签:基于一些分析模型对用户进行打标签,如RFM模型;
④算法标签:此类标签可用于预测,如预测用户是否是潜在付费用户。
下面在RFM模型基础上,结合AHP分析法对用户进行打标签:
某产品有以下购买消费数据:
如果我们想知道每个用户的价值是多少的话需要怎么评估,用户价值有多个因素影响,这里的影响因素就是RFM三个因素,计算步骤如下:
(1)构建层次结构模型
(2)构造判断矩阵
根据以上打分规则,由经验丰富、判断力强的专家对三个因素两两打分给出判断矩阵。
上表意味着专家评判RFM三个因素的权重顺序分别是M>F>R.
(3)计算特征向量
通过判断矩阵计算特征向量(也就是权重)。
(4)判断矩阵一致性检验
有了以上权重,还要进行一致性检验,判断权重分配是否合理,避免出现类似M>F,F>R,R>M的情况,由于篇幅问题,就不进行详细的计算,网上也提供了在线计算工具只需要输入判断矩阵即可得出一致性检验结果。
从以上计算,我们得出了RFM三个因素的权重,接下来就要根据这些权重以及各用户的RFM具体的值来计算用户价值。
(1)RFM值标准化计算价值
因为RFM值的量纲不一样,需要进行标准化才有可比性,可通过以下两个公式进行标准化。
两个公式应用的场景不一样,第一个公式适用于该因素对结果有正向影响时使用,第二个公式适用于该因素对结果有负向影响时使用。RFM因素中,R值越小对用户价值影响越大,因此使用第二个公式,F值和M值越大对用户价值影响越大,因此使用第一个公式。使用以上两个公式进行标准化后,将得到标准化后的值分别乘以该因素对应的权重即可得到每个用户的价值。
(2)生成标签
根据上面计算出来的值生成各因素对应的标签,可以用均值区分,均值以上的为1,均值以下的为0,最终生成的标签如下:
以上有R、F、M、价值四个因素,每个因素有0或者1两种情况,总共可以组合成16种情况,即可以将用户分为16层,针对每层用户特点进行个性化服务。
3.5 标签值映射规则
各类标签在底层存储中并不会储存具有实际意义的值,为了节省存储成本和提高查询效率通常用0、1等简单字符来表示,所以具体的映射规则需要数据产品进行定义并维护,业务人员咨询某标签里面的1代表什么意思的时候不至于一头雾水。
3.6 用户画像质量评估
经过以上步骤,用户画像的维度逐渐丰富,此时需要对用户画像的质量进行检验,主要从以下几个方面:
用户覆盖率:用户画像具体能够覆盖到多少用户,如年龄标签有80万人打上的具体的值,有20万人没打上,则年龄标签的用户覆盖率是80%.覆盖率是用户画像应用的一个评价,覆盖率越高,对后续精准营销的策略选择越准确。
准确率:标签有值但是打错了标签也是质量差的一个表现,,使用算法模型导致的用户分群错误或者对用户的购买意向预测错误,将直接影响购买率,影响GMV。此项指标可以通过灰度测试来验证。
可拓展:用户画像系统在维度刻画方面应该是可扩展的,支持后续方便的增加其他标签维度。
及时性:标签的实时更新对一些场景化推荐营销起到至关重要的作用,需要对近10分钟内做过某些行为的用户进行针对性广告推荐,如果用户做了该行为但是标签没有及时更新的话那这个推荐系统将起不到任何作用。此项指标可以人工进行操作后观察用户画像更新的时长。
3.7 用户画像可视化
用户画像完成之后,需要对用户画像进行可视化以便只管感受,可通过Echarts、Tableau等可视化工具进行绘图。对于用户个体,可生成类似于简历的用户信息描述,对于用户群体,可展示该群体在各个维度的分布情况。
4 用户画像的应用
用户画像的应用场景十分广泛,无论是用户精细化运营还是系统个性化服务都能很好的支持,以下列举一些用户画像常见的应用:
①精准营销,分析产品潜在用户,针对特定群体利用短信邮件等方式进行营销;
②用户统计,比如APP用户的性别、年龄分布;
③推荐系统,通过数据挖掘利用关联规则计算,进行物品关联推荐,利用聚类算法分析,上班一族使用APP的时间分布情况;
④广告推荐,其实也是推荐系统的一种;
⑤提供种子用户,筛选出与种子用户类似的用户群体或者相反的用户群体,进行定制化的服务。