星环科技创始人兼CTO孙元浩:后Hadoop时代,分布式计算已成为主流计算方式

数据猿导读

从发展趋势来看,后Hadoop时代又回到了解决大数据的4个V上。另外,分布式计算已经被证明比传统技术更加高效、更具有性价比的方案,逐渐成为了主流的计算方式。

作者 | 孙元浩

本文长度为2500字,建议阅读5分钟

本文为数据猿年关策划活动《大数据的2016,我的2016》系列稿件,感谢本文作者 星环科技创始人兼CTO 孙元浩 先生的投稿。

敬请期待2月16日,由数据猿与中欧商学院、腾讯视频共同举办的高端领袖线下演讲栏目中欧微论坛之《超声波》

一、Hadoop十年发展史

从2006年开始算起, Hadoop已经有十年的发展历史。Hadoop之父Doug Cutting主导的Apache Nutch项目是Hadoop软件的源头。该项目始于2002年,而直到2006年,Hadoop才逐渐形成一套完整而独立的软件。我们简单的梳理了下从Hadoop诞生到如今这十年的重大事件:

2006年:Hadoop诞生;

2008年:Hadoop成为Apache顶级项目;同年Cloudera成立,致力于将Hadoop在互联网之外的企业得到应用;

2009年:Spark出现;Yahoo使用4000节点的集群运行Hadoop;

2011年:Hortonworks作为第一个Hadoop商用版发行,紧接着MapR也发布了发行版;

2013年:Greenplum发布了Hadoop版本,同年星环科技成立;

2014年:星环发布了下一代Hadoop发行版Transwarp Data Hub(TDH)。

二、大数据技术的软件栈

大数据技术发展至今天已经出现了多项新技术,下图基本上涵盖了主要的新技术。我们把这些技术分为五层:

存储引擎层:分布式文件系统、分布式大表、搜索引擎、分布式缓存、消息队列、分布式协作服务;

资源框架层:YARN、Mesos和Kubernetes三者之间类似于演变的关系,YARN和Mesos都借鉴了Google的Borg和Omega;未来基于容器技术的资源管理框架Kubernetes将有可能取代前两者;

通用计算引擎层:其中MapReduce和Tez技术将逐渐退出舞台,Spark将成为主流的通用计算引擎,如星环的引擎已经全面采用Spark技术;

领域级引擎层:SQL批处理、交互式分析、实时数据库、数据挖掘和机器学习、深度学习、图分析引擎、流处理引擎。其中SQL批处理是当前成熟度最高的引擎,具备逐渐取代传统关系型数据库的潜力。各公司都有拿手产品,比如Cloudera Impala、Transwarp Inceptor。

分析管理工具层:ETL数据装载工具、Workfolow工作流开发工具、数据质量管理工具、可视化报表工具、机器学习建模工具、统计挖掘开发工具和资源管理工具。

这五层构成了如今的大数据技术软件栈。和三年前相比,存储引擎层、资源管理框架层和通用计算引擎层逐渐趋于稳定。而领域级引擎和分析管理工具正处于蓬勃发展的势态,不断有大量的新的引擎出现。

三、发展趋势

1. 分布式计算已经逐渐成为主流计算方式

以30TB数据的复杂分析基准测试TPC-DS为例,过去只有像Teradata这样的产品才能够成功跑完如此高数据量的benchmark。而现在星环的TDH这类基于Hadoop的计算引擎也能够在几个小时内成功处理。不仅如此,当数据量增大至100TB或更大时,TDH依旧能够成功完成。

这意味着基于Hadoop的计算引擎能够像传统的数据仓库产品一样完成大量数据的批处理工作,分布式计算已经被证明比传统技术更加高效、更具有性价比的方案。

2. 交互式分析技术日益成熟

过去希望通过批处理改造成适用于交互式分析,在实际应用中这样的技术思路并不能达到预期效果。通过这两年的实践发现,借助Cube技术可以显著提升OLAP性能。通过TPC-H基准测试可以看到,如果预先建好Cube,系统性能可以得到50-500倍的提升。

当然,建造Cube需要花费一定的成本,所以这种技术适用于需要固定报表并提供简单灵活自助分析的应用场景——具备准实时的交互式分析技术。

3. 数据分析算法逐渐丰富,工具普及化

数据分析包括数据预览、预处理、特征工程、模型训练和模型上生产这五个步骤。目前数据分析的算法已经有很多了,但是特征工程和算法选择问题没有得到解决。人们花费大量的时间用于数据清洗和特征选择上,缺乏自动化选择特征指标工具,现在可以用深度学习进行特征选择。

目前有很多创业公司进行算法自动化选择,他们会用各种算法将数据跑一遍,选择最优算法。第三个问题是得到分析结果并完成预测后,缺乏有效的工具进行反馈和调整。

4. 融合事件驱动和批处理引擎

过去流处理技术分为两大流派,一是事件驱动方式,一次处理一个事件,优点是延时低,缺点是开发难度比较高。Spark streaming进行了调整,他设计了微批次模式,一次处理一批数据,缺点是延时长,至少也有几百毫秒。

随着应用需求的复杂化,对低延时和复杂编程模型的需求在不断增加,这就需要有一个融合的引擎,底层是事件驱动引擎, 接口是批处理编程模型,星环花了一年半的时间解决了这个问题,通过对引擎的重构,改造成了事件驱动的计算模型,大幅度降低了延时,同时支持SQL语言批处理编程模型。这样就能够对非常复杂的环境下进行实时处理,例如智能风机的自动监控和运维、金融反欺诈等场景。

四、2016年是Hadoop技术大规模应用的战略转折点

从发展趋势来看,后Hadoop时代又回到了解决大数据的4个V上:Volume、Variety、Velocity和Value这四个方向上面:

数据量(Volume):当前处理的数据中80%以上依旧是结构化数据。随着Hadoop对SQL语言支持的成熟度不断提升,以及对深度学习等新技术的良好支持,传统的数据仓库领域会被新技术取代和颠覆。

数据类型(Variety):过去主要是存储非机构化数据,如今深度学习技术的兴起,可以很好地处理视频、图像、语音等非结构化数据。随着硬件技术的发展,特别是GPU等技术发展,可以采用混合架构提升计算能力,特别是图像处理能力。

速度(Velocity):融合了批处理和流处理的新兴技术,提供了强大易用的低延时实时计算能力,将逐渐取代现有的流处理技术。

价值(Value):数据挖掘、机器学习、图计算等产品和工具的日益普及,降低了使用门槛,使得普通的业务人员能够很快的进行自助式分析建模,从数据中发现价值,真正体现出大数据的意义。

硅谷的VC在2011预测:十年内传统的数据库会被大数据替代,Hadoop及其生态系统将重构数据处理市场。如今大数据产业链日益繁荣,包括大数据平台软件、分析软件模型可视化工具等、大数据应用软件、专业服务及定制化这四大部分。

大数据平台软件有Cloudera、星环科技、Hortonworks等厂家,以上的分析软件、模型可视化工具等这一层的玩家有上百个。至于应用层中每个行业都有其深入的应用,玩家更是数量巨多。

2016年是Hadoop技术大规模应用的战略转折点。前两年,大家更多的是谈论和研究这项技术,或者处于试用阶段。但是在2016年,很多大型客户已经在其核心业务上使用Hadoop技术。例如恒丰银行已经采用Hadoop技术构造其数据仓库,有些银行在基于星环的产品构建全行风险预警系统。这标志着Hadoop技术已经深入到行业中。

Wikibon在2016年初预测,未来十年Hadoop市场将达到900亿美金的规模。未来五年市场将保持30%的增长速度。无论是市场需求还是新技术的发展都将处于飞速发展的阶段。

— 关于作者

孙元浩,星环科技创始人兼CTO。毕业于南京大学计算机系,2003年加入英特尔,曾是英特尔亚太研发有限公司数据中心软件部亚太区CTO,2013年创办星环科技,致力于Hadoop之上的高效计算引擎和数据分析算法的研发。

孙元浩带领团队研发企业级Hadoop发行版,除了对原有组件进行了稳定性改造,Transwarp Data Hub(TDH)更是重新设计了企业数据平台的架构,在实时计算、分布式事物、离线批处理业务、分布式的数据挖掘、企业数据安全等多方面做出重大革新。

注:本文由 孙元浩 投稿数据猿发布。

(0)

相关推荐