麦肯锡:面向未来驱动创新的数据架构


无服务数据平台(例如Amazon S3和Google BigQuery)使组织可以无限扩展地构建和运行以数据为中心的应用程序,而无需麻烦地安装和配置解决方案或管理工作负载。此类产品可以降低所需的专业知识,将部署时间从数周缩短至几分钟,并且几乎不需要运营开销。 使用Kubernetes的容器化数据解决方案(可通过云提供商以及开放源代码获得,并且可以快速集成和部署)使公司能够解耦和自动化其他计算能力和数据存储系统的部署。此功能对于确保具有更复杂设置的数据平台(例如,将数据从一个应用程序会话保留到另一个应用程序会话所需的数据平台,以及具有复杂备份和恢复要求的数据平台)可以扩展以满足需求特别有用。
诸如Apache Kafka之类的消息传递平台提供了完全可扩展,持久且具有容错能力的发布/订阅服务,该服务可以每秒处理和存储数百万条消息以供立即使用或以后使用。与传统的企业消息队列相比,这可以支持实时用例,绕过现有的基于批处理的解决方案,并且占用空间(和成本基础)更轻。 流处理和分析解决方案( 例如Apache Kafka流,Apache Flume,Apache Storm和Apache Spark流)允许对消息进行实时直接分析。该分析可以基于规则,也可以包括高级分析,以从数据中提取事件或信号。通常,分析会集成历史数据以比较模式,这在推荐和预测引擎中尤其重要。 诸如Graphite或Splunk之类的警报平台可以向用户触发业务操作,例如通知销售代表如果他们没有达到其日常销售目标,或者将这些操作集成到可能在企业资源计划(ERP)或客户关系中运行的现有流程中管理(CRM)系统。
数据管道和基于API的接口 通过使数据团队免受不同层的复杂性的影响,缩短了上市时间,并减少了在现有应用程序中引起新问题的机会,从而简化了不同工具与平台之间的集成。这些接口还允许随着需求的变化更容易地更换单个组件。 诸如Amazon Sagemaker和Kubeflow之类的分析工作台可在高度模块化的架构中简化端到端解决方案的构建。这样的工具可以与各种各样的基础数据库和服务连接,并允许高度模块化的设计。
API管理平台 (通常称为API网关)对于创建和发布以数据为中心的API,实现使用策略,控制访问以及衡量使用情况和性能是必需的。该平台还允许开发人员和用户搜索现有数据接口并重用它们,而不是构建新的数据接口。API网关通常是 嵌入为数据中心内的单独区域,但也可以将其开发为中心外的独立功能。 通常需要一个数据平台来“缓冲”核心系统之外的事务。这样的缓冲区可以由诸如数据湖之类的中央数据平台或在分布式数据网格中提供,分布式数据网格是由为每个业务域的预期数据创建的最佳平台(包括数据湖,数据仓库等)组成的生态系统。使用情况和工作量。例如,一家银行建立了一个柱状数据库,以直接向在线和移动银行应用程序提供客户信息(例如最近的金融交易),并减少大型机上昂贵的工作量。
数据基础架构作为平台 提供了用于存储和管理的通用工具和功能,以加快实施速度并减轻数据生产者构建自己的数据资产平台的负担。 数据虚拟化技术始于诸如客户数据之类的利基领域,如今已在整个企业中用于组织对分布式数据资产的访问和集成。 数据分类工具 可在无需完全访问或准备的情况下提供企业搜索和数据浏览。该目录通常还提供元数据定义和端到端接口,以简化对数据资产的访问。
诸如数据点建模之类的数据仓库2.0技术可以确保数据模型可扩展,以便将来可以在有限的中断范围内添加或删除数据元素。
Graph数据库是NoSQL数据库的一种,近年来受到关注。通常,NoSQL数据库非常适合需要大量可伸缩性和实时功能的数字应用程序,也非常适合服务于AI应用程序的数据层,这归功于它们能够利用非结构化数据。尤其是图数据库,提供了以强大而灵活的方式对数据中的关系进行建模的功能,许多公司正在使用图数据库来构建主数据存储库,以适应不断变化的信息模型。
诸如Azure Synapse Analytics之类的技术服务允许通过将表结构动态应用于文件来查询类似于关系数据库的基于文件的数据。这使用户可以灵活地在访问文件中存储的数据时继续使用通用接口(例如SQL)。
使用JavaScript对象表示法(JSON) 来存储信息,使组织可以更改数据库结构而不必更改业务信息模型。
将测试和学习的心态应用于架构构建,并尝试使用不同的组件和概念。这种敏捷实践已经在应用程序开发中应用了很长时间,并且最近已经转移到数据空间中。例如,领导者可以参与较小的预算,创建最低限度的预算或创建可行的产品,或将现有的开放源代码整理在一起,而不是参与关于最佳设计,产品和供应商的讨论,以找出“完美”的选择,然后再进行冗长的预算批准。创建临时产品的工具,将其发布到生产环境(使用云来加速),以便它们可以在扩展和发展之前展示其价值。 建立数据“部落”,由数据管理人员,数据工程师和数据建模人员组成的团队与端到端的责任制一起构建数据体系结构。这些部落还致力于建立标准的,可重复的数据和特征工程流程,以支持开发高度可建模的数据集。这些敏捷的数据实践可以帮助加快新数据服务的上市时间。 投资DataOps(用于数据的增强的DevOps),这有助于加快新组件在数据体系结构中的设计,开发和部署,以便团队可以根据反馈快速实施和频繁更新解决方案。 创建一种数据文化,使员工渴望在其角色中使用和应用新的数据服务。实现此目标的一个重要工具是确保数据策略与业务目标相关联,并反映在高级管理人员给组织的消息中,这可以帮助加强这项工作对业务团队的重要性。
赞 (0)