从数据资源到数据资产的路有多长?
按照维基百科给出的定义数据是指对客观事件进行记录并可以鉴别的符号,是关于事件之一组离散且客观的事实描述,是用于表示客观事物的未经加工的原始素材。
数据是由“数字”和“文字”两个人类认知世界的基础工具组成的。最简单的数据就是数字,但是单纯的数字是没有意义的,要让数字变成有意义的数据,还需要通过“文字”给这个“数字”赋予一定的含义,它才能变得有意义。例如:数字1,如果没有上下文的文字描述,即使知道这个数字是用来表示“钱”的多少,但具体是1元、1角、1分,还是1万?如果不加以文字的描述就无法量化、说不清楚。因此,数字只是抽象的符号,数据是有意义的数字。
随着时代的发展,数据的表达或者说记录数据的方式也在发生着不断变迁。每一个时代,数据都有着不同的特征和意义。
原始社会时代,“结绳记事”、“楔形文字”、“象形文字”——人们用最简单的数据记录方式来观察和认知世界,推动历史车轮的向前发展。
公元3世纪,古印度人发明了现在的阿拉伯数字,并由阿拉伯人传向世界各地,因此,这种数字符号就被称为阿拉伯数字。阿拉伯数字的出现给人们计数带来了极大的方便。
在随后一千多年,人类相继经历了农耕文明时代,现代工业文明时代,与数据相关计算、统计逐步形成了一个包含数学、统计学、可视化的多学科的知识体系。
到了上世纪90年代,随着互联网和计算机技术的普及,人类开始迎来了信息爆炸的时代,数据的表达也不再是一个个的阿拉伯数字,而是变成了一个个二进制的字符,或者是一张图片,一个文本,一个声音,一段影像。
根据《数据资产论》作者王汉生先生观点:凡是能够被电子化记录的都是数据,不能被电子化记录的都不是数据。王老师举例:文本文字在当今时代属于数据,但在秦皇汉武时代,记录在竹简上、布帛上或纸张上的文字由于没有被电子化,因此不是数据。
我比较认可的是“电子化”记录是当今时代数据的一个主要特征这个观点,因为我们现在谈的数据管理、数据应用、数据分析、数据挖掘的主要前提就是“数据必须是被电子化记录的”。
对于秦皇汉武时代,记录在竹简上、布帛上或纸张上的文字不是数据的这个说法,笔者感觉有点难以接受。当然,也并不是质疑王老师的学术,只是在笔者的认知里只要能够记录事物的文字和数字都应该是数据,不论是记录竹简上、布帛上、纸张上还是计算机的数据库中,都只是承载数据的媒介不同罢了,他们依然发挥着记录事物并能够为人们传递信息的作用。
王老师在《数据资产论》提出:“数据治理,治理不是数据,而是对数据资产的治理”。
并不是所有数据资源都是数据资产,要成为数据资产,需要满足三个条件:①由企业的交易或者事项形成的;②企业拥有或者控制;③预期会给企业带来经济利益。
满足第一个条件比较容易,无外乎两种途径:一种是企业的各种业务交易过程产生并积累的,另一种是数据资源交换的方式所得。
满足第二个条件有一定难度。数据资产的确权认责是数据安全,数据隐私保护,以及数据定价,数据交易的一个先决条件。但是,实物资产的产权确认比较容易,而关于数据的确权问题业界还没有一个标准的做法,还需要各界专业人士不断的在实践中进行总结和提炼。
满足条件三也不是很容易。对于什么样的数据才能够产生可预期的经济收益?因具备三个条件:数据能够被电子化,数据能够整合融通,同时要保证一定的数据质量。
维克托·迈尔·舍恩伯格在《大数据时代》中曾经提到:“虽然数据还没有被列入企业的资产负债表,但这只是一个时间问题”。
笔者也相信数据资产终有一天会写入纳入企业的会计科目,写入资产负债表。但是目前还有许多问题有待解决,诸如:数据的产权问题,数据的定价问题以及数据安全、隐私保护和数据伦理问题等,而这些问题的解决,需要不断的数据资产实践,需要相关法律的进一步完善,需要产学研各界的共同努力。
数字化时代,有人将数据资源比喻为新时代的“石油”和“金矿”,国家层面也将数据定义为与土地、劳动力、资本、技术并列的五大生产要素之一。
为什么人们越来越关系数据?
这里,除了数据是记录和描述事物和现象,人们通过数据可以认知事物、感知和洞察现象,更重要的是人们关注数据中所蕴含的商业价值。更具体地来说,数据作为一种电子化记录,描述刻画了各种各样的不确定性,而不确定性蕴含着商业价值。
那么,什么是不确定性?
如果一个特定的个体对一个特定的事件无法绝对准确的预测其结果,那么这个事件对该个体而言就是一个不确定性事件。相反,如果一个特定的个体对于一个特定的事件能够做到绝对准确的预测其结果,那么这个事件对该个体而言就是一个不确定性事件。世间万物都存在不确定性,正因为不确定性的广泛存在,数据分析、数据挖掘才变得有意义。
试想一下,如果每个事件都是在意料之中的,那还有数据分析、数据挖掘的必要吗?不确定性在很大的程度上推动了科技的发展和商业的进步。
王老师认为不确定性产生的原因分为两类:一类是无知,一类是无奈。无知所对应的不确定性,可以通过数据的无限积累、算法的不断改进、人类知识的持续增加而逐步降低,直到消亡。但是,无奈所对应的不确定性,其根源是人类对稀缺资源的无限博弈,他将长期存在,甚至不会衰减。
通过数据的积累、算法改进可以增强对“无知”不确定性的预测精度,这个比较好理解。
但是王老师提出的“无奈”引起的不确定性,笔者没有完全理解,或者说没有get到其精髓,到底啥是无奈的不确定性?
在《数据资产论》也并没有给出更为具体的举例。如果说“无奈”的不确定性就是对的事物的不确定性“无可奈何”,这似乎有些主观。因为凡事都具有相对性,即使同一个“不确定性”,对于A来讲可能是“无可奈何”的,但对于B来讲就可能就是确定的。
关于对于什么是无奈的不确定性,您是怎么理解的呢?欢迎留言探讨。
我们在数据分析相关的图书以及百科中看到数据分析的定义大多类似,即:数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
这些定义并没有错,在《数据资产论》中关于数据分析的定义更为透彻:数据分析的分析对象并不是数据本身,而是数据的不确定性中所蕴含的商业价值,数据分析的目的也不是分析数据本身,而是创造价值。只要是能够创造价值的数据分析都是好的数据分析,相反则不然。
数据分析=业务场景+数据+算法。场景第一、数据第二、算法最后。
数据分析,场景为王。纯粹的数据不产生价值,纯粹的算法更不产生价值,价值的产生一定依赖于具体的业务场景,尤其是带有能够创造商业价值的业务场景。笔者理解所谓的业务场景是业务目标、业务流程、业务协作(组织和人)、业务数据的一个综合体,它有几个要素:时间、地点、人物、在什么情况下,想要做什么,以及怎么做以达到目标。
王老师在《数据资产论》提出数据分析可以抽象为一个数据模型,即:回归。在回归模型中有两个重要的参数,一个是自变量Y,一个是因变量X。Y是业务的核心诉求,通过改进Y从而改进业务目标,Y是业务的原因而不是结果。X是业务洞见,即有参考价值的业务见解,产生X的过程,其实就是对业务问题深刻分析和理解的过程。对业务分析的越深刻,能够提出的X变量就越多,生成的业务模型精度就越准,产生的商业价值也越大。
数据要产生价值,需要一个合理定义的Y,Y的定义必须来自真实的业务实践,要瞄准真实的业务场景,反映真实的业务目标。
笔者总结:任何的数据工作都应围绕实现业务目标、创造商业价值而开展。而作为数据工作人员,数据分析也好、数据治理也罢,最大的成就感莫过于自己的工作真正实现了为业务赋能,推动了业务的发展,并在业务过程中证实了数据工作的价值,这也正是作为一个数据工程师的价值所在。
数据资源资产化
数据资源要成为数据资产应具有可控制性,可量化性以及可变现性。
可控制性,即解决数据的产权问题,数据资产只有明确了产权才能进行交易,这也是给数据资产进行定价的前提;
可量化性,是指数据是要能够被电子化记录、能够聚集和融合、能够可靠的计量、能够被有效的管理和充分的利用;
可变现性,笔者理解数据资产的可变现性一方面是数据资源应有相应的定义可以支持数据交易,更重要的是在应用数据的过程中产生的业务洞察能力的商业价值。前者是可衡量的价值,而后者的价值难以衡量,附加值更高。要获得更高的商业价值,就需要更好的数据质量,而企业数据治理的价值就在于此。
数据资产价值的的创作,不是一两个人的事情,企业需要有相应的制度保障以及引进和培养相应的数字化人才队伍。“企业的竞争就是人才的竞争”,在数字化时代更是。企业的数字化转型过程中,需要在业务部门设置专业的岗位,这个岗位可以由业务骨干担任,他的职责不是业务、不是数据、更不是技术,而是“桥梁”,连接业务和数据的桥梁。为此,相关人员需要对业务、技术、数据有足够的了解——这就是数字化人才,数字化人才是拥有数字化技术、数据思维和业务思维综合性人才。