数据标签的分类、设计及实现方法

在开展对数据的各种分析应用之前,如果在数据仓库的基础上再开展一些数据标签的工作,提前做一些准备工作,那么后续对数据应用的设计开发将更加深入、更加便利,也更容易快速交付。
整个数据中台的系统规划如下图所示。从这里可以看到,数据标签介于数据仓库与数据集市之间,在数据仓库之上,是为数据集市做的准备工作。

数据标签在数据中台中的位置

如果以数据标签为基础再开展各种数据分析与应用,那么对数据的分析利用将更加深入与便捷,这就是数据标签的作用。
01  什么是数据标签?
标签由标签和标签值组成,打在目标对象上,如下图所示。

打标签示例

标签由互联网领域逐步推广到其他领域,打标签的对象也由用户、产品等扩展到渠道、营销活动等。
  • 在互联网领域,标签有助于实现精准营销、定向推送、提升用户差异化体验等;

  • 在行业领域,标签更多助力于战略分级、智能搜索、优化运营、精准营销、优化服务、智慧经营等。

02  数据标签的分类
对数据打标签,可以由浅入深地分为以下三种类型。
1)属性标签,就是对业务实体各种属性的真实刻画。比如企业类型、所处行业、经营范围、所处地域等信息,用户性别、年龄段、职业状况、身高体重等信息,发票类别、代开发票、作废发票、异常发票等信息。
这些标签可以从某些字段直接获得,也可以通过某些字段进行一个条件判断获得。
2)统计标签,就是对业务实体从某个维度的度量进行的汇总,比如企业的月经营业绩、月增长额、季增长额、前n名的客户或供应商的交易额等。
通过这些统计可以真实地反映该企业的经营状况。
3)算法标签,就是通过某些算法推理得到的特性。算法标签相对比较复杂,但非常有用。它既可以设计得简单易行,如企业的行业地位、交易成功率、客户开拓能力、客户忠诚度、企业成长度等。
也可以运用一些数据挖掘算法进行推算,如通过用户近期的购买商品推算该用户的性别、职业、兴趣喜好、购物习惯,以及是否怀孕、是否有小孩等信息,以便日后的精准营销、商品推荐。
华为将标签分为事实标签、规则标签和模型标签,如下图所示。
三种类型的标签

事实标签是描述实体的客观事实,关注实体的属性特征,如一个部件是采购件还是非采购件,一名员工是男性还是女性等,标签来源于实体的属性,是客观和静态的。

规则标签是对数据加工处理后的标签,是属性与度量结合的统计结果,如货物是否是超重货物,产品是否是热销产品等,标签是通过属性结合一些判断规则生成的,是相对客观和静态的。

模型标签则是洞察业务价值导向的不同特征,是对于实体的评估和预测,如消费者的换机消费潜力是旺盛、普通还是低等,标签是通过属性结合算法生成的,是主观和动态的。

03  数据标签的设计
数据标签通常按照以下步骤分析设计。

1、确定标签对象

数据标签的设计首先从确定标签对象开始。数据标签是规划在数据集市这边的,就意味着它的设计与数据分析业务息息相关。
真实的世界有那么多的事物,每个事物都有那么多的属性,因此漫无目的地打标签没有意义。给什么事物打什么样的标签,一定是与分析业务息息相关的。
数据标签的对象可以是人(个人/群体)、事物与关系,比如用户、企业、订单、发票,以及开票行为、供销关系,等等。
给什么对象打标签,关键在于我们对数据分析与应用的兴趣点,对哪些方面的事物感兴趣。譬如,要进行精准营销就要关注用户的购物喜好,要进行防虚开风控就要关注企业开票行为,等等。
2、打通对象关系
很多标签,特别是算法标签,都是通过比对某个对象方方面面的状况推算出来的。如何才能推算呢?就需要通过某些key值将该事物方方面面的属性关联起来。
譬如,将用户通过订单与其购买的商品关联起来,然后又将哪些是婴儿用品关联起来,那么通过这些关联就可以推算某用户是否有了小孩;将企业所处的行业与地域关联起来,同时汇总各行业、各地区的平均水平,就可以推算该企业在本行业、在该地区的经济地位,等等。
3、标签类目设计
确定了标签对象,打通了对象关系,那么就正式进入标签设计环节。
标签的设计首先按类目进行划分,把标签对象按照业务划分成多个不同的方面,接着再依次确认每个类目下都有哪些标签。
04  数据标签的实现
通过以上分析,确定了数据标签的对象以及标签的类目,接着就是数据标签的设计实现。
每个标签都有它的规则,通过一系列脚本定期生成。但数据标签设计实现的核心是标签融合表,即标签按照什么样的格式存储在数据库中。
标签融合表的设计通常有两种形式:纵向融合表与横向融合表,如下图所示。

标签融合表的设计

纵向融合表,就是每个对象的每个标签都是一条记录,如一个用户的每种兴趣偏好都是一条记录,我们能识别出他的多少种兴趣偏好是不确定的。
纵向融合表的设计比较灵活,每个对象的标签可多可少,我们也可以自由地不断增加新的标签。然而,每个对象的每个标签都是一条记录,会导致数据量比较大。
横向融合表,就是将一个对象的多个标签按照字段放到一个表中。由于多个标签都放到了这一条记录中,因此横向融合表的每个对象一条记录,可以大大降低标签的数据量。
然而,一旦需要增加新的标签,就需要修改表结构,从而增加新字段。这样,不仅需要修改标签生成程序,还要修改标签查询程序,维护成本较高。因此,横向融合表往往应用于那些设计相对固定的属性标签或统计标签。
05  华为数据标签管理体系
华为标签管理分为标签体系建设打标签
1、标签体系建设
(1)选定目标对象,根据业务需求确定标签所打的业务对象,业务对象范围参考公司发布的信息架构中的业务对象。
(2)根据标签的复杂程度进行标签层级设计。
(3)进行详细的标签和标签值设计,包括标签定义、适用范围、标签的生成逻辑等
  • 事实标签应与业务对象中的属性和属性值保持一致,不允许新增和修改。

  • 规则标签按照业务部门的规则进行相关设计。

  • 模型标签根据算法模型生成。

2、打标签
(1)打标签数据存储结构

打标签是建立标签值与实例数据的关系,可以对一个业务对象、一个逻辑数据实体、一个物理表或一条记录打标签。

为了方便从“用户”视角查找、关联、消费标签,可增加用户表,将标签归属到该“用户”下,这里的“用户”是泛指,可以是具体的人,也可以是一个组织、一个部门、一个项目等。
(2)打标签的实现方法

事实标签:根据标签值和属性允许值的关系由系统自动打标签。

规则标签:设计打标签逻辑由系统自动打标签。

模型标签:设计打标签算法模型由系统自动打标签。

(0)

相关推荐

  • 金融知识图谱的构建与应用

    编辑整理:朱瑞杰 出品平台:DataFunTalk.AI启蒙者 导读:金融机构在过去积累了大量的数据,包括结构化数据和非结构化数据.如何利用这些数据来构建金融知识图谱,并将构造好的知识图谱应用到具体的 ...

  • 大数据下的用户画像和标签体系构建

    今天谈下对大数据下的用户画像和标签体系构建的一些关键点思考,对于用户画像和标签体系构建实际上网上已经有很多相关的历史文章可以参考,今天文章这篇文章不会系统地去谈整体的构建方法步骤,而是搞清楚里面的一些 ...

  • 数据中台、标签、数据资产相关的15个名词解释

    导读:本文将对数据中台.数据.标签相关的关键名词术语进行定义和解释. 作者:任寅姿 季乐乐 来源:华章科技 01 数据 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质.状态及相互关系等 ...

  • 对外经济贸易大学:用大数据描绘“教师画像” | 数据服务

    随着互联网和大数据技术的发展,人们可以通过网络获取到用户的海量数据,通过对海量数据进行多维度的数据分析,能够实现精准快速地分析用户的特征和行为习惯. 用户画像(User Profile)的概念应运而生 ...

  • 用户画像帮助你召回流失的用户

    用户画像帮助你召回流失的用户 用户画像又称用户角色,作为一种勾画目标用户,是连接用户需求与设计方向的有效工具,用户画像在各领域等到了广泛的应用. 用户画像最初是在电商领域中得到应用的,在用户信息充斥着 ...

  • 数据中台:让数据用起来 (2)

    第6章 数据开发:数据价值提炼工厂   汇聚联通到中台的数据,基本是按照数据的原始状态堆砌在一起的,是企业对过往所有IT信息化建设积累的成果的融合.数据开发是数据资产内容建设的主战场,是数据价值生产过 ...

  • 拿来即用的流程优化方法,分类设计简化流程 || 流程管理实践049

    根据我的经验,流程分类设计是最有效的流程优化方法之一,但我一直很困惑,为什么企业在做流程优化时,又常常忽略这个方法.后来,我总结最本质的原因有三个:管控思维的局限.业务全局把控能力不足.精细化管理水平 ...

  • 利用PowerBI计算组,设计个性化数据标签

    之前曾经介绍过如何在折线图上标注出最大值和最小值,利用了几个度量值实现的:PowerBI作图技巧:在走势图上标注最大值.最小值- 其效果如下: 如果在最低点和最高点上不仅显示数据标签,还想显示这个点的 ...

  • excel图表调整方法视频:调整柱形图间距数据标签格式及位置

    excel图表调整方法视频|调整柱形图间距视频|excel数据标签格式视频|excel数据标签位置视频 本视频教程由部落窝教育分享.

  • 传感器的分类原理与检测方法

    传感器(transducer/sensor)是一种能够探测.感受外界的信号.物理条件(如光.热.湿度)或化学组成(如烟雾)的装置或器件.它是实现自动检测和自动控制的基础. 一.传感器的分类 1.按工作 ...

  • 岗位分类的作用和方法

    2008年下半年开始,移动互联网行业在国内开始兴起.L公司是国内互联网行业首批创业型企业.同大多数高科技创业型公司相似,L公司创立之初也仅由几个合伙人共同完成项目创意.设计和开发,在2010年初,产品 ...

  • 菜鸟记499-看不见的图形,看得见的数据标签

    欢迎转发扩散点在看 万一您身边的朋友用得着呢? 各位朋友早上好,小菜继续和您分享经验之谈,截止今日小菜已分享450+篇经验之谈,可以文章编号或关键词进行搜索. 微信推送规则发生改变,如果您想看到小菜每 ...

  • 农贸市场改造-柜台分类设计应注意的问题

    农贸市场改造-柜台分类设计应注意的问题 在农贸市场设计中,柜台分类设施是最复杂.最困难的部分.农贸市场改造柜台设计和分类的基本原则是什么呢?实施中应注意的问题.   本文是农业市场设计专家杭州白英的专 ...

  • 简单有效的英语单词分类表 巧记方法, 让孩子爱上背单词!

    13个简单有趣的记忆方法 1读音记忆 根据字母组合.读音规则进行记忆,会读一个单词,便会拼写出来.外来语:中文中有许多词来自英语,这些词的发音近似英语. 如:tank坦克,jeep吉普车,coffee ...

  • 自噬的分类及常规检测方法

    自噬(autophagy)是由 Ashford 和 Porter 在 1962 年发现细胞内有"自己吃自己"的现象后提出的,是指从粗面内质网的无核糖体附着区脱落的双层膜包裹部分胞质 ...