云原生数据中台技术与趋势解读

数据中台发展至今,大体经历了 4 个重要阶段:数据库 - 数据仓库 - 大数据平台 - 数据中台。每次新的变革,都是为了解决上一阶段存在的问题。

当前,走向云原生成为数据中台的必然和必须。

云原生从何而来?

云原生是用于指导如何在云上构建和运行应用的方法论。奇点云高级技术专家,奇点云数据智能平台 DataSimba 总负责人地雷谈到,“云原生”并不是一个新的概念。回顾云计算史,从个人端应用到企业级应用,都早已开始“上云”。

起初,这些上云的“非原住民”应用,延续了私有化部署的技术架构,把本地软件不加修改地通过 ECS 迁至云端。而 ECS 的弊端在于只能承载计算,无法实现存储。虽然上云后的应用实现了业务打通,但随着业务扩大,原有的架构“可用性”明显下降。

国内云厂商为了解决数据存储问题,制作了云磁盘,将其挂靠在云主机上,实现数据备份,且无需更改程序。传统软件上云的“高可用”问题得以解决。然而,这种方式引发了另一弊端——成本高。客户把 Hadoop 不加修改直接部署到 ECS 节点上,数据通过 HDFS 存储在云磁盘上,需花费大量成本。因此必须修改 HDFS 底层,把数据存到对象存储上。

随着需求不断丰富,系统必须按照 IaaS、PaaS 的技术特点进行重构,以便跟上业务和数据的爆炸性增长。在私有化部署以及上一代传统技术的软件架构运维方法论的基础上,带着“高可用”、“低成本”等属性,“云原生”升级而出。

云原生数据中台具有哪些技术要素?

“云原生”概念发展至今,我们已并不陌生。而为什么要强调“云原生数据中台才是未来”?分级多域数据治理的刚需、云原生技术降本增效的天然特征、国内基础设施自主可控的要求……都将数据中台推向云原生。

因此,奇点云将云原生数据中台的技术要素归纳为 6 点:CI/CD(持续集成持续交付)、容器化、对象体系、存储计算分离、跨云多域数据治理和元数据管理。这其中,对象体系、跨平台、自主可控是全新迸发出的几个要素——奇点云的云原生数据中台 DataSimba,实现跨云的多 workspace 管理,以帮助客户的数据和应用跨云治理和迁移。

CI/CD(持续集成持续交付)

CI/CD 的本质是提高开发和部署效率。在业务量巨大的情况下,大数据和云的运维人力成本极高。因此需要使用大量的自动化工具和大数据预测算法进行自动化运维。通过版本管理系统和 DevOps 基础设施,实现自动化测试和持续集成。一个典型流程是,程序员提交代码到特定的 tag,触发测试接口自动化测试脚本执行并发送报告。由此实现测试、发布和部署自动化。在此基础上构建特定的数据环境,对重要接口和链路进行自动化检测。

容器化

容器化本质上是一种虚拟化技术,一台主机可虚拟出上千个容器。单个容器的启动时间更快,占用空间更小,而且可以根据实际应用的大小来弹性分配资源,无需额外采购服务器,加快研发速度。使用容器编排基础设施,对服务和作业进行治理,根除版本地狱,大幅度提高运维和集成效率。容器化编排与 CI/CD 是相互结合的。

在数据中台领域,往往几十台机器、上百个进程同时运行,且在这些进程中不仅要运行本身的程序,也要运行客户的程序。因此,底层微服务的进程繁多。基于安全合规要求,客户之间的程序需要保持分隔。因此,数据中台对于容器化的要求高于其他基于云原生的应用。

对象体系

根据现有业务抽象出核心对象,以标准 Restful 风格提供 API 服务,解耦核心对象与业务层服务,以应对不同环境、不同业务场景的需求。这一系列正交的核心对象就构成了平台对象体系,上层业务可在此基础上构建应用,高效演进。

对象体系的 API 应该是优雅且向前兼容的,一旦发布,很难改变。例如,在 WIN32 研发时,出现某个单词错误,几十年后都无法修改。因此,需要把对象体系设计得极为详尽和准确。奇点云云原生数据中台作为开放式平台,其上的 API 提供了一套对象,如:项目、作业、数据、源数据、账号等,具有集中数据接口。

存储计算分离

由于云具有分布式特点,在云上无法天然将数据存储在 ECS 中。因此必须将关键数据、状态型数据存储在对象存储中。大量私有化组件都需要被改写。如果把 Hadoop、Spark 等常规开源大数据引擎直接应用于云主机,海量数据带来的存储成本和吞吐压力,很快会压垮客户。

因此,必须引入中间缓存实现计算存储分离,将数据存储到对象存储上,同时兼容 HDFS 协议,能够根据业务需求进行弹性扩容,就能大幅度降低成本,提高集群性能。

跨云多域数据治理

云原生数据中台的一大优势在于可以实现跨云多域。例如,客户在 AWS 上使用数据中台,一旦需要转移到其他平台,云原生数据中台可实现在不修改代码的基础上直接迁移。对于具有多重业务、庞大数据体量的大型企业来说,为避免数据资产被一个平台所绑定,供应商必须呈现多样化。

因此,在客户与一家供应商合作的同时,也需要使用独立的第三方数据中台提供跨云多域的数据治理能力,从而提高基础设施的可控性和安全性。奇点云云原生数据中台 DataSimba 以「第三方」的角色,为企业解决数据多云并存的跨云多域治理问题。

元数据管理

由于数据量急剧增长,对数据的管理成为一大问题。云原生数据中台的元数据管理功能,对数据的结构、指标、标签、权限、上下游血缘、生产作业等元信息进行规范化管理,建立智能数据治理体系。同时支持数据盘点、安全审计、血缘分析、关键分级等应用,最终实现数据资产化。例如,某顶级品牌商具有 73 个业务系统,各自存储在不同的数据库和存储介质中,需要将 73 个系统全部集中在一个数据中台上进行标签打通。在此需求下,数据治理十分重要,核心就是元数据的管理。因此,云原生数据中台必须具备元数据管理功能。

云原生数据中台能为用户解决什么问题?

具备以上 6 大技术能力的数据中台是走向云原生后的重要升级。基于这些能力,云原生数据中台究竟能为用户解决哪些问题,带来降本增效?

  • 提高研发效率

通过微服务、CI/CD、对象体系、DevOps 等一系列技术,提升迭代速度,增强在云的复杂环境下的控制、自动化运维控制等。提高代码开发、测试、发布效率,降低迭代成本。

  • 降低运维成本

通过上述的技术也可以实现开发及运维高效协同,有效提升对故障的响应速度,实现持续集成和交付。使得快速部署应用成为业务流程和企业竞争力的重要组成部分,降低运维成本。

  • 降低存算成本

大数据基础设施的存储计算成本惊人。存算分离和容器化能够更高效地使用 IaaS 资源,降低存储成本。存储和计算节点分离后,可以在不对存储进行扩容的情况下快速增加计算资源。另一方面,单个容器的启动时间更快,占用空间更小,而且可以根据实际应用的大小来弹性分配资源,无需额外采购服务器。

  • 提高治理效率

治理效率不局限于数据治理,也包括微服务治理、系统治理和 API 治理,需要自动化设计和框架。使用跨云治理、元数据管理等技术,会大幅度提高企业积累数据资产的效率,降低安全风险,提高供应商的多样化。

作者介绍

地雷,奇点云高级技术专家,奇点云数据智能平台 DataSimba 总负责人,阿里大数据底层核心引擎 ODPS 初代产品经理。曾支持蚂蚁金服、菜鸟等算法与应用建设。


你也「在看」吗?👇

(0)

相关推荐

  • 阿里云难『触顶』

    从双十一"出走"的少年,阿里云的"挑战"是什么?高速的增长背后,阿里云会触顶吗?如何抛开过去的故事"去明天"? " 作者 | 王刚 ...

  • “上云”故事之中国飞鹤:一罐奶粉的数字化旅程

    <中国经济周刊>记者 孙冰 | 北京报道 3月18日,"国产奶粉第一股"中国飞鹤(06186.HK)公布2020年度业绩,营收同比增长35.5%.这是飞鹤连续第五年实现 ...

  • 阿里云计算有限公司 黄振:基于云原生和中台技术的电网调度云智能平台的研究

    祝贺<电力信息与通信技术>蝉联中国科技核心期刊! 引文信息 黄振.基于云原生和中台技术的电网调度云智能平台的研究[J].电力信息与通信技术,2021,19(3):98-106. HUANG ...

  • 还原一小段中台“真相”

    中台出现问题是从它被舆论妖魔化开始的,而问题解决的根本办法便是浇一盆冷水,然后重新认识它. " 作者 | 杨丽 编辑 | 王刚 出品 | 雷锋网产业组 时下正值中台为自己"翻案&q ...

  • 数据中台的云原生机会 | 甲子光年

    云原生将给数据中台带来XaaS模式. 作者 | 赵健 编辑 | 火柴Q 从2015年阿里提出中台概念,到2018年阿里升级数据业务双中台战略并对外输出,再到2019年数据中台全面爆发,数据中台一直是一 ...

  • 一文读尽:数据趋势、数据治理、数据架构、数据中台、云数据库、数据安全(附下载链接)

    前言 一 数据趋势篇 ❖ 单模型 => 多模型 => 多模 从最早的层次模型.网状模型,发展到关系模型.后者长期占据数据的模型的主导地位,直到今天仍然如此.关系模型所带来的数据表述方式结合 ...

  • 从数据治理到数据中台

    概述 在我的职业生涯中,做过的数据相关的项目不少,从最早期的数据大集中,到后来的主数据管理(MDM).数据治理及由此延伸出的数据中台建设项目,涉及的细分领域也越来越多,对大数据浪潮下企业数据应用的深度 ...

  • 混合云时代的IBM存储“进化论”

    由数据驱动的数字经济正成为推动社会前进的主要模式,由各种创新技术驱动的数字化转型成为了全球变革的核心.在此过程中,数据成为一种新的生产资料,并由此推动了存储的技术演进.   布莱恩·阿瑟在<技术 ...

  • IBM以现代基础架构,成就技术商业时代

    编辑:阿由 设计:紫菜 现如今,数据中心的大型化趋势实在是吓人.由于业务量的不断加大,数据中心的规模也是节节上升,数万平米的占地面积和数十万台的服务器,在当前已经司空见惯. 不过呢,凡事总有例外. 多 ...

  • 建议收藏备用-2020年个人原创文章导读指引

    今天是新年的第一天,祝大家元旦快乐.从6月下旬自己开始在头条上进行写作,到今天已经半年时间,基本也保持每天一篇文章的节奏.在整个过程中也收获了一些粉丝,认识了一些朋友,参与了一些活动和讨论.在整个过程 ...

  • 面向数据架构的云演变

    现代数据架构的概念在过去的10多年里发生了巨大的变化,具体可以参见公众号"补天遗石"的<从数据仓库到数据湖--浅谈数据架构演进>一文. 把时钟调回来,回想一下那些有许多 ...

  • 2021 有哪些不容错过的后端技术趋势?

    前言 2020 年注定是不平凡的一年,虽疫情肆虐,但我国互联网产业展现出巨大韧性,不仅为精准有效防控疫情发挥了关键作用,还在数字基建.数字经济等方面取得了显著进展,成为我国应对新挑战.建设新经济的重要 ...

  • 2020DDIC数智 行业峰会暨数栈战略发布会顺利召开,各路大咖共话数字化之道

    9月17日,2020DDIC数智+行业峰会暨数栈战略发布会在杭州西溪宾馆召开.大会由袋鼠云.爱分析联合主办,浙江省工业和信息化研究院.长三角数字经济产业联盟.浙江大学智云实验室.杭州数字经济联合会.未 ...

  • 云原生数据中台的What、Why、Who、How和Where | StartDT Tech Lab ...

    WHAT:云原生是什么?  它有啥前世今生? 简单说,云原生(Cloud Native)是在云上构建和运行系统的方法论.最早移植上云的"非原住民"应用程序,往往还沿用私有化部署的技 ...