【技术前沿】数据虚拟化——让数据管理更高效
本文来自于《控制工程中文版》(CONTROL ENGINEERING China )2016年9月刊杂志,原标题为:数据虚拟化:实现大数据的有效管理
如何让数据管理更效率?对于传感器和很多自动化装置所产生的海量数据,意识到它的价值,只是第一步。接下来就是花更多的精力发现其中最有价值的部分。虚拟化能够提供一种比传统方法更快、更低成本的解决方案,帮助用户获得可信的数据和实现高效的数据管理。
对于在石油天然气的钻探和生产过程中所产生的数据的价值,并没有太多的争议。尽管数字化油田运动的最初目的,是将与设备的监测和维护相关的任务实现自动化,以降低成本,但它还带来了很多其它的好处。
很多行业专家认为,最主要的收益在于:向石油天然气生产制造商展示,如果管理恰当的话,如何收集数据才能获得更多有战略意义的数据,而不仅仅是告诉油井运行人员,什么时候需要修理或更换老化的设备。
实际上,行业内有越来越多的人认为,分布在油田、气田各地的传感器和其它自动化装置所产生的数据,应被视为资产,应该像对该公司最昂贵的生产设备或最聪明的工程师一样对待这些数据。
高级数字化油田顾问Philippe Flichy就持有这样的观点。他将在石油和天然气钻探和生产过程中所产生的数据,称为“会说话的资产”,他认为这些数据的价值直接取决于如何管理这些数据。他任职于美国一家为全球石油开发和加工工业提供产品和服务的大型油田技术服务公司Baker Hughes。
在最近提交给美国石油工程师协会的一篇论文中,Flichy提供了证据来支持这种观点。论文的题目为《可信数据作为公司资产》,文中援引一项研究数据表明:如果能够有效的管理数据,石油天然气公司的整体利润可以增厚高达6%。它还在文中提到了壳牌石油公司,指出该公司从多个途径受益于有效的数据管理,包括油井提前投产以及超过预期的生产能力等。
尽管这些数据和分析给人留下了深刻的印象,但是仍然有例外,因为很多石油天然气制造商在有效的数据管理方面,落后于其它行业。随着大量的信息涌入到日常运营中,很多石油天然气制造商,开始意识到之前是被动的应对所谓的“大数据”的,现在,它们需要先进的工具来助其应对这些挑战。
1 有效数据管理的捷径
正如通常所做的,技术供应商已经对这种境况给出了新的解决方案。其中最有希望的是被称之为数据虚拟化的方案,它是一种简化建造基础设施的方法,以便将大数据转化为有用的信息,并根据这些信息做出正确的业务决策。
建造这样的基础设施,需要将整个企业内产生的数据集成起来,使其至少从表面上看起来好像保存在某个中心地点。一旦建造完成,基础设施就可以为用户(不管他们在企业内的职位、或位置如何)提供快捷、便利的数据接入,以便在任何给定的时间,只要工作需要,就可获得这些数据。
据Bloor Research公司的研究总监Phillip Howard介绍,如果需要将多个数据源的数据整合到单一数据平台,历史上公司有4种方案可供选择。
这些选项包括:
●客户集成,包括在需要共享信息的应用之间建立硬编码;
●企业应用集成,需要为应用建造企业服务总线,创建连接器(一般也是使用硬编码),以便将信息通过总线在彼此之间传递;
●数据复制,或创建多个数据备份,并将其布置在便于访问的地点;
●抽取、传输、装载,将在单个应用中产生的数据总结出来的信息,布置在某一集中数据库中,这样就可供大量用户访问。
上面每一个选项,都是一项复杂—因此也就是昂贵和费时—的任务,这就是为什么除了最大的石油天然气公司之外,大多数公司并没有部署实施的原因。最近几年,即使是大型的生产制造商也已经不再迷恋这些选择,因为它们中的任何一个都不能提供一种特别有效的筛选大数据的方法。
Gartner公司的副总裁Douglas Laney于2001年在一篇介绍大数据的概念论文中提出,商业数据的“3个V”——数据量、速度和种类,正在推动公司去寻找一种全新的数据管理方法。Laney指出,“电子商务的爆发、并购活动的增加、协作的扩大、以及将信息作为竞争的催化剂,这一切都在推动着企业的高层思考如何管理数据。”
随着大多数公司产生的数据量正在以指数方式增加,数据管理问题的情况变得更加严峻。石油和天然气公司看到数据的种类已经扩展到包括来自于数字化油田和各种形式的非结构化数据,比如桌面应用产生的文件、电邮、社交媒体帖子以及影音文件等。
情况变化如此巨大,以至于Flichy在2015年发布论文时,改用了“数据的7个V”——增加了可变性、精确性、虚拟化和价值。
2 数据必须是可靠的
在这7个V中,精确是最重要的,因为它涉及到数据的精度。不准确的数据不能被信任,因为从决策制定工具的角度来讲,没有任何意义。“在石油天然气行业,我们遇到的最大问题是,人们并不相信数据源,”Flichy说道。“所以他们倾向于自己做。他们从不同的地方找到数据,然后将其整合在一起自己作分析。我们经常听到人们在讨论,工程师要花去大部分时间来寻找数据;他们实际上是将时间花在匹配数据上面了。”
为了终止这种循环,Flichy说,“你必须创建唯一的真相,你必须经常这么做,只有人们对数据足够相信时,在使用这些数据作决策时才能充满信心。”
数据集成被认为是能够提供可信数据的重要来源。但是,很少有石油天然气公司能够付得起这种时间长、价格高的数据集成工程,尤其是在公司必须管理的数据量急剧增加而石油天然气价格不断下降的时候。这就是为什么诸如数据虚拟化的技术大受欢迎的原因。
“在4年前,我在Baker Hughes公司工作时,就开始了数据虚拟化工程,” Flichy说,“现在看来,效果显著。”
Baker Hughes公司创建了自己的数据虚拟化平台,并将其命名为“Baker Hughes信息库。”最初,该平台主要用于确保所有部门能够访问绝对一样的数据,后来,该平台已经演化为用于提升效率的工具。根据Flichy的介绍,在平台的所有应用中,有一个就是对从分布在同一个油田或运行在相似条件下的不同油井获得的数据进行分析。这些分析所带来的结果就是为提升效益低下的油井产出而开发出来的新策略。“我们是虚拟化的最大支持者。”Flichy说道。“它将我们的业务智能化提升到一个新的水平。”
3 减轻数据集成的难度
Forrester Research公司将数据虚拟化比作为数据建造一个面向服务的架构(SOA)。“传统的SOA方法着力于业务流程,数据虚拟化则将重点放在业务过程所使用的那些数据。”Forrester的分析师Noel Yuhanna说道,“通过把数据从应用中分离开来,并将其存储在中间层,虚拟化很有可能会降低数据集成的困难。”
目前,很多技术供应商可以提供数据虚拟化平台,包括中间层,以及在组织和过滤数据的过程中可以提供帮助的扩展应用。尽管这些平台的机构随着供应商的不同而有所差异,但它们的最终目的是一致的:从多个数据源中提取各种不同的数据,将其集成到虚拟地点,并以一致、便于访问的形式展现给用户。
部署虚拟数据平台,可以消除在管理数据过程中大量复杂的问题,因为该方法可以将数据保留在原始系统中。当用户访问数据时(一般是通过某种形式的仪表盘或门户),它们通过一系列的指令来请求信息,实际上是通过搜索遍布企业不同区域的各个数据库或资源库,来获取数据位并将其组合在一起,形成对客户查询的响应。
Moray Laing,是业务智能软件供应商SAS有限公司能源行业的咨询师,他也认为数据虚拟化大大降低了数据集成相关的费用,但是他同时也提醒,不能简单的将其视为开发和维护单一可信数据数据源所必须的数据管理的替代方案。
“通过主数据管理来维持数据的质量,是保证单一版本数据的现实方法。”Laing说道。“然而,我们意识到某些主数据管理步骤,比如创建数据仓库,可能需要数年才能完成。数据虚拟化则提供了这种能力,可以顺利的将多个数据源和多种形式的数据集成到单一访问点,使数据工程师可以减少很多繁重的工作。”
4 设立数据管理员的必要
如果想要确保流入到虚拟平台的数据都具有较好的质量,Flichy认为所需要执行的策略就是在数据源头对数据进行验证。“一旦在源头完成数据验证,那你就可以确定的告诉用户,‘这些数据和进入到系统的原始数据是一样的。’然后,如果数据以任何形式移动或修改,那就必须在数据源头对其进行重新验证。”
在这种方法中,Flichy建议应该创建一个类似于“数据管理员”的职位。该职位的职责就是负责确保所有的数据,从输入到虚拟平台前保持不变。
Flichy将数据管理员比作博物馆中处理碎片的职员。“他们知道哪些碎片具有最大的价值。”他说到,“对于数据,意识到它的价值,只是第一步。第二步就是花更多的精力发现最有价值的部分。如果最有价值的数据出现退化的迹象,那必须立即采取措施对其进行修复。”
5 数据虚拟化和数字化油田
该表格详细的描述了一个数据虚拟化技术供应商是如何帮助某石油天然气生产商从数字化油田所产生的数据中获取有价值的信息。图片来源:Denodo
根据Flichy的说法,石油天然气工业的特性使其成为最理想的扩展数据虚拟化应用以及尝试设置数据管理员岗位的最佳场所。
他认为,在石油天然气行业也许比其它任何行业,都更依赖于大量广泛分布的数据。石油和天然气公司也经常为其新油田或工厂设施,配置不同供应商的设备和技术,而它们的产品并不总是易于集成。
“虽然行业正在经历着衰退,但这也从一方面推动着企业想要获得更高效率。”Flichy说。“如何获得更高的效率?仅仅求助于分析,但是如果不信任那些数据,那分析也无能为力。”虚拟化则有希望提供一种比传统方法更快、更低成本的路径来获得可信的数据。
作者:Sidney Hill Jr.