干货!论数据资产安全治理和防护的相关性和因果性

01 相关关系和因果关系

相关性和因果性之间的联系,从统计学到大数据,一直有着广泛的探讨,甚至争议不断。

在人们的工作和生活中,相关关系和因果关系都扮演着极其重要的角色,它们单独或共同影响着我们的行为去向。

千百年来,因果关系,已经深深地写入了人们的思维基因里。我们习惯性的喜欢问为什么?是什么引起了某个现象?等等

何谓因果关系,通常来说,原因是指引起一定现象的现象,结果是指由于原因的作用,随之串联而引起的现象。因果联系的特征就是,原因在先,结果在后,前者的出现,导致后者。但千百年来,有关因果关系的认知,却争议不断。也有人认为,所谓的因果关系,只不过是思想中的习惯性联想罢了。

相关关系是指一个变量与另一个变量的关系和关联。例如,粮食产量与施肥量、人的身高与体重、广告支出与商品销售额等等。

正相关表示趋势相同(左图);负相关表示变量沿相反趋势移动(中间图);最右边的图是变量之间没有相关性。

因果关系意味着一个变量导致另一个变量改变,也就是说一个变量依赖于另一个变量。例如:随着天气变热,人们会遭受更多的晒伤;进入股市买和卖就是因果关系,买是因,卖是果。

因果关系中绝对不可“倒因为果”。“菩萨畏因,凡夫畏果”。

如果时间轴线足够长,我们可以收集到大数据集合,然后分析发现,似乎原来毫不相关的事情,存在了相关性。比如说,我每天去停车场,总发现靠角落的那个车位总是被某一辆车占着,而回头一看,对面的典当行已经开门了。这样的事情一次次的重复着,我就认为“靠角落的车位被占”与“典当行开门”存在相关性,甚至会把他们归为因果关系,就是因为典当行的人来的早,他的车就停在了靠角落这个车位。

但事实是,后来我知道,典当行的人根本就没车。

02 人工智能可以处理相关性问题

但无法解释因果关系

事实往往是复杂的,统计数据有相关性并不意味着两个事件具有因果联系,反之,具有因果联系的两件事从统计数据上看经常也并不相关。

举个例子:有统计报告称,手指头越黄的人,得肺癌的比例越大。这个结论对吗?事实上,手指的颜色和得肺癌的概率之间没有直接的因果联系。

我很好奇这统计结果是怎么来的。仔细研究后发现,因为有统计称吸烟会致癌,吸烟也会导致手指黄,由此得出结论,手指黄和肺癌都是由吸烟造成的。进而造成手指黄和肺癌两者之间产生了虚假的相关性。

实际上,我们还可以进一步质疑,犯上烟瘾的那些人得肺癌的几率远远高于其他人,这是一个统计结果。但是,这真的能够说明吸烟致癌吗?当然不能!

完全有可能是某个第三方变量同时对“爱吸烟”和“患肺癌”产生影响。1957年,Fisher就提出了:癌症引起吸烟(因为烟瘾是癌症早期的一个症状),或者存在某种基因能够同时引起癌症和烟瘾。

这个例子告诉我们,这是虚假的相关性数据。既然有虚假的相关性数据,就一定有虚假的独立性数据。例如,我们常说,慢跑有利于身体健康。但是很奇怪的是,有统计数据表明慢跑的人和不慢跑的人平均寿命几乎相同相同。是统计数据错了,还是我们的健康锻炼理论错了呢?仔细研究你会发现,事实上,慢跑确实可以强身健体、延长寿命,但慢跑的人往往是体弱多病的人。所以,这一统计是基于虚假的独立性数据得到的。

我在做AIops的时候还发现更多的怪异的现象。AIops的目的与APM一样,他们都试图找到在IT运维过程中的所谓故障的根因问题,但是越来越多的统计怪异现象发生后,我开始避免使用根因问题分析和判断这样的用词了。

比如,有一次我的现场工程师给我发了一个微信,内容是在某业务系统发生故障的时候,在A服务器和B服务器上均出现了类似的服务异常的指标,问具体是哪个服务器引起的某业务系统的故障呢。根据基本的判断,我们知道应该只有其中一台服务器有问题(具体我们不再这里详细阐述)。我们根据现场工程师发来的报告和采样的数据,非常认真地进行了A和B两台服务器相关异常指标的分析比较。

然后,奇怪的事情出现了:A服务器的每个指标的异常率都比B服务器的相同指标的异常率要高,但综合起来看,A服务器的异常率却就比B服务器的低。

当然,在这个案例中判断不出来还是小事,大不了继续观察,扩大排查范围,被别人拿出去丢丢人、笑话笑话就完事了。

但是在数据资产安全领域却是需要更为精细的工作的,因为它可能直接牵涉到人的问题和企业资产流失等重大问题。

从这个案例中也可以看到,要从数据中挖掘因果关系并不是那么简单的事。如何确定影响目标的事件,如何从数据中获取相关关系,怎样控制最少的变量为因果关系定向,这都是建立一个因果判断所需要考虑的因素。

03 “因果和相关”的问题,

本质上是“人类思维”和“机器思维”的区别

我们来分析一下企业和组织关于数据资产安全治理和防护的问题。

相关与因果差异让我尝试用一个可视化的图例来表示。例如,当一个组织或者企业发生数据泄漏时,会发生什么事情呢?如,企业公众声望受损,公众对企业产生不信任感;企业经济利益受损;面临诉讼等法律指控;内部易产生不和谐因素;引发高层震荡,企业失去已有或潜在的客户等等。这些后果是因为数据泄密的因产生的,他们与数据泄密的关系是因果关系。

在这里列举的六类后果之间的关系是相关关系,他们共同的实际原因就是企业的数据泄密了。

为什么相关性和因果性在数据科学中,尤其在数据安全治理和防护工程中很重要?

您看过多少暗示A导致B的研究?例如,去健身房可以提高工作效率和专注力;充斥在证券市场的“会买的是徒弟会卖的才是师傅”的论调等等。

这些真的是因果关系?

健身房还容易理解,但很多人对于证券市场的买卖关系就开始犹豫了,似乎都这么说啊。

交易只在买卖之间,买和卖肯定是因果关系。但是,“会买的是徒弟会卖的才是师傅”确是谬论!这种强词夺理的论调不知坑杀了多少股民。无法知晓缔造这种“致命理论”的始作俑者出于何种目的,抑或无知者无畏。

卖得如何决定于你买得如何。买卖是一种因果关系,买是因,卖是果,绝对不可倒因为果。

作为数据安全领域的专家,我们不应让相关性强加偏见影响,否则可能导致错误的特征工程、错误的结论、错误的判断和错误的措施,最终导致更多的数据泄密的可能。

如果你要为数据泄密的六个后果之间寻找相关关系,并且想要评估数据集中的某些特征是否相关,相对比较简单。但是每个企业的情况不一样,相关的结果也会出现较大的差异,不能全然照搬别人的结果。

接近+1的值表示正相关,如果接近-1则意味着负相关。在上面的示例中,您可以观察到公众对企业的不信任感与企业经济利益受损呈现正相关,为0.87,而引发高管震荡与企业失去已有或潜在的客户呈现负相关,为-0.59。

注意,相关性并不代表有因果关系。

如果你要建立数据资产泄密与企业生产力、经济利益之间的关系的模型,就不应专注于这些功能型的因素,而是应关注造成这些功能型因素的实际原因,以验证其因果关系。

因果关系在实际中比相关关系更难断定。在实际工作中,用来确定因果关系最常见的方法就是通过实验和增量的研究。

舍恩伯格《大数据时代》一书的译者周涛认为:“大数据时代相关关系比因果关系更重要”这个观点是一种机器学习以结果为导向的研究思路,让我们注重“计算机工程”,而忽略了“科学”,得到了“结果”,但失去了“过程”。同时他认为,放弃了对因果的追求,就是放弃了人凌驾计算机之上的智力优势,是人类自身的放纵和堕落。

这个观点我十分的赞同,也十分有体会。“因果和相关”的问题,在本质上是“人类思维”和“机器思维”的区别。

到目前为止,机器算法所能够提供给我们的结论都应该是相关性的。因果必须是从“人”的立场才能理解的,是一种前后顺延的思维关系,很多还是经验的归纳。

尤其在数据安全领域,因果关系通常有时间或者条件的限制。绝对意义上的因果,是不存在的。

对于数据安全,针对普遍性的事件,最为关键的,就是利用采集到的数据集进行相关关系探索,利用相关性,预防或促成某些结果的发生。但是针对超级账户等可能引起“数据爆炸性泄密”和诸多新浮现的“复杂性”很高的事件,我们需要对其过程和背后的原因进行因果的探寻。

而这种探索恰恰是人工智能无法满足的。需要更多的人类的干预,也就是更多的采用安全策略、行为分析等干预来实现。

在数据资产安全领域,超级账户或特权账户本身也是因为工作的需要而设定的,设置这类账号本身并没有问题,问题是我们如何能防范这类账号的违规和泄密行为,难就难在我们如何从采集到的数据中挖掘出正确的信息。

在我们数据分析时,其实,计算机给出的是数据的相关性,而很多时候,比如说数据泄密的防护,尤其是超级账户的安全防护,我们希望得到是事件之间的因果联系。

这两类不同性质的事件,我们需要采用不同的策略、行为管控等来对待,采用相关性和因果性不同的方式进行区别对待。

例如:对要求快速反应的事件,我们更迫切的是想知道接下来要怎么做,而并非要找因果关系。而对于十分重要的事件,我们恰恰需要找到因果关系。

完全把宝押在其中之一,对数据安全来说,都可能导致灾难。

04 结论

通过大量的企业数据资产安全治理和防护的实践,我们认为针对不同的账户性质、职位权限、不同的密级、不同要求反应速度的事件等等,应该采用不同的处理方式。一个良好的数据资产安全防治理和防护系统,应该能胜任在相关和因果关系中协调和平衡中,满足业务发展速度和安全防护的平衡,能从因果关系中杜绝重要的数据安全事故,同时在相关关系中发现数据资产安全的隐患。

策略内嵌、政策内嵌、在防范、发现、告警、干预、处置等领域都能良好的发挥作用。

欢迎大家讨论咨询。

ICT销售与大客户联盟】如果您认同我们的营销思想和做事的价值观,希望解决企业自身的经营难题和营销困境,可以联系我们。销盟会真诚地为您解决难题,改变困境,合作共赢!销盟帮助企业抓住商业趋势,找到市场“需求点”,让您的每一件事、每一个资源都能创造更大的价值,获益更多!

销盟公众号:ICT_League


【数据资产治理与安全保护解决方案】,是华云数创(北京)科技有限公司针对内部数据泄漏、防范、加密和安全治理等提供了优秀的解决方案和产品,致力于保护数据安全,有效应对数据安全合规带来的风险与挑战。以数据智能分类为基础,对相关涉密数据进行全面的防护,保证数据全生命周期安全,重点解决企事业单位在深化信息化管理应用后面临的数据安全以及部门间、企业间数据共享的安全需求,保证用户数据无论何时何地均受到严密的安全防护及严谨的监控管理,杜绝数据被有意窃取或无意泄密的问题。

目前,该方案被广泛应用于金融、军工、科研机构、生产制造型企业等。
更多详情,可与联盟秘书处联系,或邮件发送至:marketing@chinaclouddata.com.cn,欢迎咨询及商务洽谈。
相关链接:银行再曝数据泄露事件!建行支行长售卖客户信息
(0)

相关推荐