驱动企业转变到数据化管理不得不知道的事(四)
关键词:数据化管理、大数据、高性能计算、人工智能、数据分析
这个系列,我们已经发了三篇文章。在前文中驱动企业转变到数据化管理不得不知道的事(一)驱动企业转变到数据化管理不得不知道的事(二)驱动企业转变到数据化管理不得不知道的事(三),我们讲到了如何通过数据驱动业务发展,数据多,就一定能推驱动业务发展吗?有了数据分析团队,就一定能找出问题来吗?数据驱动业务的数据化管理误区,及数据化管理的思路。同时通过三个案例来解析了数据管理让传统房地产行业改头换面。
在第四篇文章中,我们将讲述企业如何建立自己的大数据战略,如何考量大数据管理战略实施的可行性。
演绎好统一数据平台的依托是数据计算性能
传统企业转型的话题十分热闹,越来越多的企业寄希望于建立自己的大数据战略,那么如何考量大数据管理战略实施的可行性呢?
成立时间比较久、规模比较大但又有能力快速革新的企业,可以考虑梳理自身已有的数据(无论大小),逐步推进。如果身处传统行业但是规模不够大的企业,可以考虑购买相应的数据管理服务。
数据分析门槛并不低,并不是很多厂商给出的一些简单的APP、BI、漂亮的数据呈现报表那么简单。他们通常误导了用户,让用户有限的资源(包括人力、物力和财力)用到了表面的功夫上而不能带来实际的收益。
有厂家宣称:“无论你是什么样的企业,只要你对数据有需求,就可以用它的BI产品有针对性地帮你进行大数据部署,并且价格合理”。完全没有提及对大数据使用的可行性分析等问题。
《皇帝的新衣》中的骗子为什么可以骗那么多人?骗子告诉第一个来看衣服的大臣说,这是最新的技术,如果你看不见的话,你就是愚蠢的人。这个逻辑在现在的很多情况下都适用。
新技术来临,尤其是面对转型时迫切需要新事物时,很容易在没有深究的时候就相信新事物的力量,希望它带来巨大的变化。但是,这可能恰恰事与愿违!!!
做好数据管理需要强调上图所示的4个问题:
首先都要回归问题本源,明确我们要解决的问题是什么,也就是为谁服务的问题。
明确为解决这个问题需要探求怎样的数据,要进行数据的可行性论证。
确定这些数据从哪里来、如何清洗整理、如何在维度扩展的情况下,确保数据的可靠性,相关数据、因果数据、事件数据等等的获取。
反复印证应用场景,确定算法模型、确定计算效率、编码效率和计算稳定性。
美国的大数据行业图景(big data landscape)将美国大数据产业分为架构(infrastructure)、分析(analytics)和应用(applications)三个部分。从传统数据到大数据,数据的维度立刻变得很大,但同时数据也变得稀疏,这种稀疏会给计算带来很多问题。关键技术攻关层面强调的更多是,在维度变大的情况下如何解决计算问题,那就是降维,压缩信息使得结果尽可能稳。如果我们缺少懂得在什么时候用什么样的标准去压缩信息的人才,这就不只是技术问题了。实际数据分析,需要既通晓技术又了解实际问题症结的人才。
只有在数据架构和分析计算都处理得很好的前提下,才可以有应用。但实际是,现在的一些BI和报表公司在并不注重数据计算分析的情况下就开始了所谓的应用,最后给出一个APP和漂亮报表之类的产品,说用这个就可以了。在没有出现问题的时候,我们暂且认为没有问题,应用的效果只能通过时间、通过金钱检验。在经济转型的关键时期,如果某些关键行业因为数据的缺失出现重大损失,将会是很大的问题。而且当出现问题时再回头纠正的时候,往往需要花费较大的成本。
所以,“销盟”特别呼吁大家关注大数据计算和分析,理解大数据的局限性和可行性,在产业发展之初夯实基础,从而促进产业的健康发展。
“销盟“专家经过与ISV合作的众多经历中认为,强调计算引擎产品、轻数据开发、应用分析端很重要。
比如说,在大数据运维领域,很多厂家只用关心相关,不用关心因果。举例来说,我们对CPU的使用负荷的基线定义为80%,超过80%就告警。按照这个逻辑,“80%的负荷”可以表述为,假如知道CPU在什么时候接近80%的负荷后,就可以预测什么时候CPU有问题,但是,CPU的负荷这个现象背后的机制是什么并不重要?这个表述在很多时候没有问题,但是也会有例外,笔者就碰到过CPU负荷在98.5%的时候,用户还是认为这是正常现象!最核心的问题是,如果我们不懂得CPU的负荷为什么是这个数字,以此来预测CPU故障就很容易不准确,产生大量的无效告警信息。
在金融行业更是如此,笔者的一个朋友是香港汇丰银行的客户,汇丰一直在朋友的理财建议上表现的很好,但是,由于数据生成是经营活动的附属产品,而企业的经营可能既要经历经济的繁荣期,也要经历增速不那么快的时期。如果只关心相关而不关注因果,一些在繁荣期可以表现良好的模式可能在衰退期带来极大损失。笔者的朋友在6年前听从了汇丰银行的建议,买入了相关的金融产品,当年的收益的确不错,但随后的几年当中是迅速的缩水,直到今年随着亚洲经济大环境的改善才得以获利。汇丰银行,是非常负责的银行,也认识到自己算法的问题,及时通知朋友清仓改换其他的投资方式。
为什么如此老牌的银行,采用数据管理较好的银行都会出现这样的问题呢?事实上,他们能够利用大数据、通过精确算法实现金融建议并设计出产品,确实过去一直收益较好,还可以降低交易成本,但是要注意,其算法成立的基本假定是,机器学习时所用的样本和未来经济的样本非常接近,其中的规律没有发生变化。而一旦经济发生巨大变化,比如金融危机,这时候再用先前经济繁荣时期的模型去预测经济衰退时期的状态,就可能会出现笔者朋友碰到的情况。这是因为机器学习里没有关于经济衰退的知识,算法没有为探测经济变化做预备。
其实类似的突然变化在数据生成过程中会常常出现,因为大数据的收集方式和传统数据收集方式有着本质的不同。大数据是现在一些快速活动的副产品,是为企业的主营业务服务的。如果只是把数据简单的归类和展示(报表),尽管有所谓的钻取,得到的数据一定也是无法满足要求的。一方面,由于技术更新和数据分析往往不是同一群人,进行数据分析的员工并不知道系统已经发生了变化、或者不能深刻体会这些变化带来的数据生成规律的变化,这时如果只关心相关而不了解因果,沿用原本的数据分析方法就很可能得出不准确的结论。另一方面,由于数据往往分布在不同的系统中,而且事件数据、文件数据、录音转换得来的文本数据,还有许多的脏数据的获取和清洗,也不是传统的相关分析能方便简单的完成的,这时候统一数据平台(包括ETL)等就显得十分的重要,而在这里,要想完美的演绎好统一数据平台,数据计算性能就是大数据平台的依托了。
数据管理应用的效果究竟如何是需要验证的。现在流行的不少大数据分析往往是一个“黑箱”,企业做出报告,直接告知结论,对数据来源、处理方式不做说明,这中间数据使用的好还是不好,外界不太容易验证。使用的代码又无法设置断点,这一切造成数据管理的不可知性!
事实上,大数据相比过往的数据处理给我们带来了更多的挑战:
算法不同带来数据生成机制的不同;
时间频率增大、颗粒度变小之后噪音也越大等。
大数据给我们提供了在短时间内刻画国家新经济基本状况的可能性。因此你可以想象很多崭新的机会,比如刻画一个地区的产业布局以及与其他地区产业布局相比的高下特征,这将给当地产业的发展方向提供可视化指导,也可以为政府决策提供一定参考。
比如在银行业,银行网点的布局非常受关注。过去提供给决策者的数据往往来自抽样调查,到了现在大数据已经可以实时记录交易柜台状况,记录具体流向,记录交易高峰和低谷。充分利用好这些信息,那么在解决网点布局这一问题上,就可以非常的精准,可以节省大量的投入,而不是不管人们的实际需要,简单按人流来预测。恰当运用大数据为更低成本地、更精准地管理提供了可能。
2017已然过去,2018已经到来,“销盟”在过去的一年中组织了几场线下活动,并协同了若干家公司一起的实际招投标活动,在经过与数百家企业、ISV、集成商的沟通调研后,“销盟”专家认为,在大数据蓬勃发展的当下,各行各业的应用已然展开,
机器学习在2018年将沿袭2017年继续成为智能分析的核心技术。AI(人工智能)在2018年将比2017年更加深入的与其他技术深度结合,成为大数据分析和预测领域的热点。
这一点尤其在IT运维领域的发展最为迅速。IT运维在经历了简单的监控、流程、到敏捷运维、业务性能管理、Devops,到现在的AIOps的发展。从基础设施、应用系统、流量数据、运维经验、流程规则、CMDB到日志、行为等等的大量数据采集阶段后,如何使得运维成为驱动业务的核心关键、根因问题的分析、云知识库、云能力库、云专家系统的建设等等已经又了较大的发展,机器学习使得这些领域越来越智能,故障报警和处理越来越精准,业务与IT的关联日益清晰,使得IT运维不仅仅是确保IT系统和业务系统的稳定运行,他更可以帮助业务分析、业务策略、业务预警,事件分析等等。
在经历了数据处理多样化并存融合的阶段后,流计算渐成主流模式之一。基于海量知识的智能是主流智能模式,大数据架构的数据处理能力、边缘计算能力持续提升,带来数据平台架构的变化,独立计算引擎将被推向应用热点。当然,2017年数据科学兴起,但2018年仍然进展缓慢。数据科学促使多学科融合、多技术融合成为可能。
我们欣喜的看到国内有多家企业在这方面的努力。其中具有典型代表意义的企业还是那家老牌的,成立于2000年的企业---润乾信息。他的基于离散数据集的独立计算引擎---集算器,在经历了将近5年的洗礼后,愈加成熟,在2017年他取得了某省民政的阳光民政、北京银行、某部委的数据交换平台、某省厅的大数据平台等重大项目,成功案例的客户近万家。润乾从一个专注于数据呈现(报表)厂商到专注于轻型大数据平台(基于离散数据集的独立计算引擎)的转变,成功的在大数据时代实现了转型。他的合作伙伴有几百家国内著名的ISV和集成商,他开放性的产品可以与任何数据库、大数据平台、物联网平台、数据交换平台合作,推动数据库计算能力、大数据架构的数据处理能力、边缘计算能力持续提升。
语音、影像等数据化,数据语义化和知识化,渐成数据价值重要的基础数据源之一。
典型的行业是呼叫中心。通过海量的录音、录像数据,在语音引擎、影像识别、录屏等工具的帮助下,将传统的靠人工的工作流程转化为机器人工智能的工作流程。智能客户、智能自动质检、智能用户行为分析、智能办公后台管理、智能桌面管理、员工桌面行为分析等产品和应用开始呈现出新的生机和应用,给这个行业带来了新的发展机会。
笔者看到建立在统一的计算平台之上,来自录音、文本、CRM、桌面用户行为、Back Office管理、坐席自动质检、运维管理等等多维度海量数据的智能处理和展现的实现,这种实现是如何帮助呼叫中心从成本中心转变到业务驱动的。华云数创是一家16年成立的公司,他坚持在数据共享、高性能计算帮助他的合作伙伴,如来自离散数据集的独立计算引擎厂商润乾信息、来自数据呈现服务领域的汇达商智、来自呼叫中心语音领域的领头羊Verint、来自桌面行为分析的领军企业艺赛旗、来自语音数据服务的深圳众诚、来自人工智能的新秀广州优孚欧、来自AIops的北京云兴等,在17年看到了较好的前景,这不仅仅是一种技术的融合,更是一种商业共享、数据共享、数据价值挖掘的实现,相信这样的探索会在数据价值的发掘领域取得更大的成功。
文末福利:
文中提及的案例和实践是基于华云数创、北京润乾、汇达商智、艺赛旗、众诚信通、云兴维智等公司的实践,并在近百家的ISV、集成商和客户的推动中的总结。华云数创携手汇达商智等企业致力于基于大数据平台上的数据管理、数据展现、数据分析、用户行为管理、AIops、大数据运维、呼叫中心升级等领域,有着很好的实践和教父能力。
各位看官有兴趣,可以联系“销盟”秘书处。
(未完待续)
分享是一种美德,转载请注明来源和出处!
“相关文章阅读”