大型金融数据中心运营管理研究与实践
一、数据中心服务能力
数据中心运营管理是一项复杂的综合性系统工程,既有管理层面,也有技术层面,涉及战略发展、IT 治理、运维管理、运行操作等方方面面。国内外针对数据中心运营管理已逐渐形成了一系列较为成熟、系统的理论、方法和标准。
目前业界较为知名的是IT 服务管理(ITSM)、信息安全管理(ISMS)两大体系。近年来,国内不少数据中心相继通过了ISO20000 和ISO27001 认证,部分数据中心还开始引入ISO22301 业务连续性管理体系和ISO14000 健康安全环境管理体系。这些体系集中于数据中心持续运营领域的流程管理,仅仅解决了现阶段“怎么做”的问题,较少涉及数据中心战略发展规划和组织治理领域。面对移动互联网、云计算、大数据等信息技术发展趋势和生产运行新常态,我们应将目光聚焦于提升数据中心整体服务能力,实现全方位精细化运营管理。
数据中心整体服务能力框架由各级服务能力域构成。
如图1 所示
一级能力域包括战略发展、持续运营和组织治理。按照ITIL 理论,各一级能力域可进一步细分为二级能力域,如:持续运营能力可细分为服务支持、服务交付、技术管理、例行管理、关系管理、安全管理和质量管理等;各二级能力域还可再细分为三级能力域,如服务支持和服务交付可细分为变更管理、发布管理、问题管理、可用性管理、连续性管理等。通过分解可以发现,ISO20000 和ISO27001 所涉及的流程只是持续运营的主要内容,尚不能包含数据中心全部工作。这说明数据中心通过标准化认证后,仍有较大的服务提升空间。
众所周知,数据中心服务价值分为基础服务价值、提升服务价值和增值服务价值三个层面,分别满足客户的三种需求,在这里我们定义为必备服务、满意服务和惊喜服务。
如图2 所示
基础服务价值体现为安全生产,即为银行经营管理和业务发展提供基础支撑服务,是客户对数据中心的基本要求,包括两个方面:一方面是稳定运行,提供高可用性,保障IT 服务连续性;另一方面是内部风险防控,在稳定运行的同时,控制和防范风险。提升服务价值体现为优化改善,为客户提供多快好省的满意服务。增值服务价值体现为决策支持,包括科技决策和业务决策。
数据中心的服务能力阐明了工作内容,服务价值明确了发展目标,那么数据中心服务能力提升路径是什么,如何逐步实现其不同层面的服务价值呢?
我们可以在ITSS(Information TechnologyService Standards,信息技术服务标准,简称ITSS)的运维服务能力成熟度模型中找到答案。该模型作为反映运维服务能力管理水平的框架,按照运维服务组织能力建设和管理发展历程,自低向高分为基本级、拓展级、改进(协同)级和提升(量化)级四个等级:
如图3 所示
该模型规定了各级运维服务成熟度在管理、人员、过程、技术和资源方面应满足的要求,体现了不同级别组织内相关要求内容是否有、全、好、精,也体现了运维管理体系是否存在、是否完整、是否做到了相互协同、是否实现了量化管理等。每个成熟度等级表明数据中心的服务能力管理达到一个新台阶。该模型为数据中心持续深化服务能力管理提供了路线和方法。
1. 数据中心发展阶段
国内大型金融数据中心的发展分为不同阶段,这是由相应时期的内外部因素共同推动的。关键的三个因素分别是内外部监管要求越来越严格、银行业务发展规模越来越大、新技术应用越来越迅速。
以农行数据中心为例,分别经过了耦合期、并行期、独立期和融合发展期四个阶段:
如图4 所示
2002 年之前是耦合期。当时开发和运行密不可分,还没有完全意义上的“数据中心”概念,应用系统运维由各开发项目组直接负责。
2002~2005 年进入并行期。2002 年,农行在开发中心下设了运行中心。当时的运行中心已基本实现了作业、系统、网络和环境设备的专业分工,但应用层面与开发依然密不可分,除了变更管理,大量的生产问题依然需要开发人员解决。值得一提的是,农行当时已经尝试对各分行的运行中心进行指导和管理,为日后的一体化运行管理打下了基础。
2006 年随着全国数据大集中工程的完成,独立的数据中心应运而生。当时数据中心的管理范围仅限于全行集中的基础设施、设备、系统、网络和应用的日常运行和应急管理,较少涉及分行运行管理及全行灾备管理。
2010 年农行大力推行生产运行一体化,数据中心发展进入了第四个阶段。总行数据中心开始统一管理全行生产运行、应急管理和灾备管理,这其实是一次运行上的全行大集中,其意义不亚于数据大集中。
至此,数据中心的组织职能和IT 治理架构已日臻完备,运营进入了精细化管理阶段,为将运维服务能力提升至更高成熟度等级提供了必要条件。
2. 数据中心发展措施及成效
作为全国性的大型银行数据中心,农行数据中心始终以安全生产为核心,依托生产运行机制、人才、技术和管理的软实力,不断推进生产运行标准化、自动化、一体化建设。经过多年的发展,逐步建立了相对完备的服务能力体系,保障了全行信息系统的安全稳定运行。在此基础上,农行数据中心依托雄厚的信息基础设施,结合互联网金融、云计算和大数据等新技术,探索面向客户、面向服务为的建设新思路,充分挖掘内在潜力,在提升服务价值和增值服务价值方面也不懈探索,持续提升。
基础服务方面
(1)
重点抓IT治理、运维管理和技术支持三个领域,具体包括组织架构、制度规范、运行管理、应急管理、灾备管理、技术应用等内容。组织架构上,延展生产运行范围,构建“大运行”管理格局;
制度规范上,加强顶层设计,建立健全全行生产运行制度体系,推动总分行ISO20000 标准化建设,分专业发布《生产运维操作指南》;日常运行管理上,统一调度全行生产运行工作,推行《工作指令单》和《风险提示单》机制,建立全行生产运行例会工作机制;
应急管理上,建立“快速响应、快速定位、快速处置”的“三快”应急管理体系,推行全行统一的生产运行案例库,引入业务连续性管理,会同开发部门制定了指纹认证系统、远程授权系统和身份证联网核查系统等业务应急管理办法;
灾备管理上,建立总分行一体化灾备管理体系,不断提升生产系统抵御风险的能力和灾难恢复能力;
技术应用上,构建完整的自动化生产运维管理技术支撑平台,实现全行端到端管理和生产运行各专业领域集成管理,有效提高生产运维管理水平和管理效率。
通过采取以上措施,成效非常明显。首先是保安全,生产运行稳定性显著提升。在生产运行规模增大,在硬件设备逐渐进入老化期的情况下,生产运行各项指标稳步提升,信息系统连续运行服务能力持续保持在99.9% 以上。同时,面对互联网金融的冲击,农行数据中心多次成功应对“双十一”促销、微信春节红包派发等引发的交易量瞬间爆发的考验,有力保障了全行信息系统安全平稳运行。其次是强内控,运维管理精细化程度不断加强。构建了“纵向到底、横向到边”的一体化管理体系,内部管理和外部协作能力显著。
纵向层面,建立了准军事化的高效管理机制,实现了全行生产运行领域的五个统一,即统一生产调度、统一响应支持、统一布置维检、统一质量管控、统一生产培训。横向层面,建立了顺畅的工作协作机制,将研发、业务、资源保障等行内部门和供应商、运营商、基础保障单位、合作伙伴等外部单位纳入一体化体系,实行分级联动,跨部门协作,在日常生产运行和突发事件应急处置中发挥了实效。此外,还强化了供应商管理力度,重要供应服务商在全国按分区建立产品备件库和技术专家服务团队,应急响应和处置效率不断提升。
提升服务方面
(2)
一是提升客户服务。针对新农合新农保、代缴水电煤、违章罚款等中间业务委托单位信息化基础薄弱的情况,农行利用信息技术资源优势,构建了独立的“公有云”服务平台,向合作单位提供IT 基础设施和运维服务,满足双方共同客户需求。该平台既提升了合作单位信息化服务水平,也维护了银行声誉,助力业务营销。
二是创新运维模式。为应对银行卡业务日益增长、交易环节多、问题定位困难、同业竞争压力大的现状,农行借助生产运行一体化体系,建立了包括总分联动、开发联动、业务联动和同业联动的“四项联动、立体运维”的运维新模式。特别是在同业联动方面,农行数据中心积极协商发卡组织,提出银行卡运维监控对接项目的设想和需求,实现双方停机计划、卡运行状态监控信息、异常事件协查需求等信息共享。这是对现有运维模式的一次改进,该模式可逐步复制、推广至各合作伙伴,为同业运维协作提供借鉴和参考。
三是加强系统架构优化和研究。近期,农行数据中心完成了新一代网络架构落地、主机系统升级、开放平台改造等工程。架构优化后,生产事件数量明显减少,处理时间也大为缩短。同时,结合新技术发展趋势,引导员工主动掌握新技术,进一步加强架构前瞻性规划,加快技术转型,不断提高信息系统运行的稳定性。
增值服务方面
(3)
创新服务,积极引入数据治理和分析技术,从科技视角挖掘分析数据,为科技和业务决策提供参考依据。一方面,联合财会部,实行内部计价管理,解决大量睡眠户、未激活银行卡消耗运行资源的问题。每季度提供分析报表给财会部门,据此对分行进行收费,推动业务部门及时消减无效账户数量。另一方面,对现有上线的系统从交易量、资金规模、客户群体、资源占用等角度进行综合分析,评价产品性价比,提出系统下线、资源整合建议,将分析结果提供给高层,做为该产品下线的决策依据。
经过近10 年的持续发展,数据中心的运营管理已经跃上了一个新台阶。当前经济发展进入新常态,银行业已逐渐步入Bank3.0 时代,数据中心下一步的发展目标是什么,如何达到更高的成熟度等级,是管理层必须思索的问题。
一方面国际形势错综复杂,国家安全上升到更高的战略层面,另一方面以移动互联网、云计算和大数据为代表的新技术发展突飞猛进,数据中心的运行工作已逐渐进入新的运行常态。
首先,国家安全战略要求金融业加强应用安全可控信息技术。银监会、科技部和工信部已联合发文,要求银行业完善科技治理机制、优化信息系统架构、优先应用安全可控信息技术、积极推动信息技术自主创新、积极参与安全可控信息技术研发、加强知识产权保护与标准规范建设。数据中心必须从战略规划、制度体系、职能设置、人才培养、技术架构等方面进行相应的调整,以适应国家战略。
其次,互联网金融飞速发展,形成新的交易特点。它不仅导致电子渠道的交易占比迅速增加,交易时间的不断延长,而且会带来突发的瞬间激增交易。面对这种新形势,数据中心必须更加重视网银和移动支付等渠道的运维工作,必须从运行调度、性能提升、现场特护和业务联动等方面采取相应的保障措施,节假日和特殊时点更是重点关注时段。
第三,云计算将成为未来应用的主流形式。数据中心必须加快研究并付诸实践,提供高可用性基础架构和部署环境。国内部分同业已开始了这方面工作,ITSS 工作组也正在研究制定云计算数据中心参考架构标准。该标准将架构划分为5 个组成部分,分别为:场地及场地设施、资源池、能效、安全和运维,并对各组成部分提出了明确要求,未来很可能成为云计算实施的重要参考依据。
第四,大数据技术日益成熟,应用日益广泛。数据中心在引进相关支撑设备和应用软件的基础上,重点是建立分析模型,对数据进行统计、分类、评估、分群、关联、预测。数据中心的数据基本上分为两类,业务数据和运行数据,优势应该是在运行数据的分析方面。运行数据包括运行基础数据、业务运行数据、容量数据和运行管理数据。通过整合各专业,乃至各分行对运行数据积累的分析经验,将会为日常的运行调度、趋势预测、资源配置、成本分摊、产品下线等工作提供强有力的参考依据,这是科技工作精细化管理的要求,有助于加快科技工作向定量管理转化,也是数据中心达到更高能力成熟度等级的必要条件。
最后,自动化运维成为今后的一个发展趋势。一方面数据中心能力成熟度模型中对运维工具有比较明确的要求,另一方面这也是实现智能化运维的重要手段,是建设未来智慧数据中心的一项基础工作。要实现自动化运维,就需要关注银行产品的非功能性需求,比如采用负载均衡集群方案满足系统的高可用性,利用虚拟化技术提高系统的可扩展性,利用完善的日志设计、参数化配置、健康状态检测、流量控制和自动分发工具提升系统的可维护性。这些与运维紧密相关的非功能性需求必须纳入信息化项目建设的总体需求来通盘考虑。
数据中心在不断发展,运营管理的理论和实践也在不断丰富和完善,它既是前期发展阶段的总结,也是未来发展阶段的指引。面对运行新常态,随着运行一体化体系的不断深化,生产运行部门还需进一步加强运行体系评价指标研究,推进安全可控技术和新技术应用,加快自动化工具建设,加强内外部协作及同业生产运行交流,在保障信息系统安全稳定高效运行的同时,充分发掘运行服务的潜在价值,提升数据中心的整体服务能力和服务水平。
End