【导读】本文从需求分析、架构设计、实施到运维方案，全面介绍了大型医院容灾备份平台建设中的重点并分享了经验，供广大同行参考。

【作者】czhe（社区ID）, 目前在医疗行业从事IT基础架构设计及运维工作，擅长服务器、存储、网络、安全等相关领域。

1、医疗行业业务系统特点与存在的痛点

随着医疗行业信息化的进程的加深，对医疗数据进行高效地存储和管理，以便提供安全有效地数据与信息的快速访问和利用成为医疗行业数据存储的主要发展趋势，在医院众多的信息化系统中，HIS作为最重要的医院信息系统，贯穿了业务流程的各个环节，起着核心支撑作用，包含财务、人事、住院、门诊、挂号、医技、收费、分诊、药品管理等多个子系统，是医疗服务和医院管理的核心。

现在医院对信息系统的依赖性越来越大，除了HIS系统，医院其他关键业务还包括PACS、EMR、LIS和CIS等应用系统。这些业务系统包含了大量的医疗影像信息、病人电子病历信息、临床信息和检验信息等。但随着医院的不断发展，庞大的数据量和后台服务器的软硬件保护成为医院信息化建设面临的一大难题。任何的系统停机或数据丢失轻则降低患者的满意度，重则损害医院信誉。如何避免数据丢失，当遇到数据灾难时如何快速地恢复数据，保障医院业务开展的连续性，已成为影响医院业务发展的关键因素。经过多次对医院的相关技术人员的访谈，总结出以下急需解决的问题：

1、HIS、PACS、EMR、LIS和CIS等应用系统虽然实现了本地的数据级备份通过备份软件定期把数据备份到磁盘阵列或是带库上，但无法应对设备的硬件故障，生产机房火灾、漏水等突发情况，存在数据安全的隐患，需要建立同城容灾中心保障数据安全提升业务连续性。

2、建设同城容灾中心后有条件需要建设异地容灾中心，可以避免水灾、地震等其它的大范围的自然灾害，使得数据和应用的安全等级得到进一步的提升。

3、现有的备份系统没有建立相应的运维方案和管理制度，没有相应的备份恢复演练计划，备份后的数据是否可用无法得到保障。

2、医疗行业业务系统容灾备份需求分析

在确定医院关于业务系统容灾备份需求之前先明确几个后文会经常用到的关键词：容灾备份系统，也称灾难备份系统，就是通过建立和维护与原系统完全相同或相似的一个或多个冗余系统，利用地理上分散性或数据系统的冗余性来保证数据抵御灾难的能力。它保证数据完整性和安全性，并且，当面临大范围的突发性灾难，如地震、火灾、水灾时，能迅速恢复应用系统的数据和服务。

RTO恢复时间目标（recovery time objective)：指灾难发生后，信息系统或业务功能从停顿到必须恢复的时间要求。

RPO恢复点目标（recovery point objective)：指灾难发生后，系统和数据必须恢复到的时间点要求。

随着医院各个信息系统的建设，相关的数据量不断增加，当遇到灾难时使用传统的备份、恢复会导致耗时过长，严重影响业务的开展，已经不能满足医院的需求。医院HIS核心系统有超过一次非计划停机，其中服务器硬件故障是核心系统非计划停机主要原因，非计划停机排在前三位的是服务器硬件故障、网络故障和数据库故障。

硬件故障、软件故障、人为错误，自然灾害等很多主观和客观的原因都会影响到医院业务系统数据的安全，为了保障数据的安全和业务的连续性，经过多次对医院的相关技术人员、操作人员和管理人员的访谈，结合医院业务系统存在的痛点与业务系统的关键程度形成的医院容灾备份需求如下：医院的HIS信息管理系统实现应用级备份，其他关键业务系统PACS、EMR、LIS和CIS等系统实现数据级备份。

3、医疗行业容灾备份系统架构设计

根据医院当前业务系统的特点和实际的灾备建设需求，实现业务系统容灾备份架构设计主要包括以下几个方面的内容：

1、重要信息系统灾难恢复指南

根据上级主管部门的相关文件要求，医院业务系统的容灾备份按照五级标准进行建设，容灾备份恢复能力达到五级标准指国务院信息化工作办公室发布的《重要信息系统灾难恢复指南》中的第五级，该标准要求如下：

2、容灾备份系统设计标准

医院业务系统容灾备份系统建设需要遵循以下标准：

1. 《中华人民共和国网络安全法》

2. 《重要信息系统灾难恢复规划指南》国信办　

3. 《信息系统灾难恢复规范》（GB/T 20988-2007)

4. 信息技术设备的安全（GB4943-2011）

5. 电子计算机机房设计规范（2018）

6. 遵循电子与电气工程师协会制定的计算机和电子工业参考标准

7. 遵循国际参考标准化组织制定的各种国际技术参考标准

3、容灾备份系统设计方案

医院建设容灾备份系统方案时，依据技术先进性、可扩充性、高可靠性、高可用性、成熟性、可管理性等原则进行建设。

按照容灾系统对应用系统的保护程度可以分为数据级容灾和应用级容灾，　　数据级容灾系统只保证数据的完整性、可靠性和安全性，但提供实时服务的请求在灾难中会中断。应用级容灾系统能够提供不间断的应用服务，让服务请求能够透明(在灾难发生时毫无觉察)地继续运行，保证数据中心提供的服务完整、可靠、安全。因此对服务中断不太敏感的部分可以选择数据级容灾，以便节省成本，在数据级容灾的基础上构建应用级容灾系统，保证实时服务不间断运行，为用户提供更好的服务。下表是几种灾备技术的对比：

数据级容灾实现的方式，Oracle GoldenGate是基于日志实时更改数据库捕获和交付，它抽取在线日志中的数据变化，转换为GGS自定义的数据格式存放在本地队列或远端队列中。两端数据库是活动的，备份端可以提供实时的数据查询及报表业务等，从而提高系统整体的业务处理能力，充分利用备份端的计算能力，提升系统整体业务处理性能。

数据备份软件可以选择TSM或是NBU，他们都是成熟的备份软件，在市场上有很高的占有率，支持Windows、Linux、Unix等操作系统和Oracle、SQL Server、DB2、Informix、Sybase等数据库，可以采用LAN 备份或是 LAN-Free 备份，能够为医院提供企业级的存储数据管理解决方案，包括备份、归档、空间管理以及灾难恢复管理等功能实现同城数据级容灾。还可以选用其它的商用灾备软件，云灾备软件或是备份一体机实现同城应用级容灾，相对来讲比在同城灾备中心部署一套与生产中心相同的硬件设备投入的成本能少一些。

采用存储同步镜像的方式实现同城应用级容灾，采用存储异步镜像的方式实现异地数据级容灾，容灾备份系统架构图如下：

对于HIS系统要实现应用级容灾，需要在同城灾备中心增加一套与生产中心相同的服务器和存储设备，两台服务器做集群，分别连接两台存储设备，两台存储之间做同步镜像，当任何一台存储故障时，另一台存储上的镜像数据能保证业务起来，一点建议：异地容灾的配置可以参考同城灾备中心或可适当的降低配置。

存储同步镜像的方式，可以做到生产（主）和容灾（备）中心磁盘阵列同步地进行数据更新，应用系统的I/O写入主磁盘阵列后(写入Cache中)，主磁盘阵列将利用自身的机制（如Metro Mirror或SRDF/S）同时将写I/O写入后备磁盘阵列，后备磁盘阵列确认后，主中心磁盘阵列才返回应用的写操作完成信息。

存储异步镜像的方式，是在应用系统的I/O写入主磁盘阵列后(写入Cache中)，主磁盘阵列立即返回给主机应用系统“写完成”信息，主机应用可以继续进行读、写I/O操作。同时，主中心磁盘阵列将利用自身的机制（如Global Mirror或SRDF/A）将写I/O写入后备磁盘阵列，实现数据保护。

采用存储同步镜像的方式实现同城应用级容灾的优势是同城范围镜像数据不会丢失；异地镜像数据根据灾难情形，可以采用Flashcopy技术尽可能降低数数据丢失机率；镜像网络中断恢复正常后，任意两地之间可以通过增量方式实现数据同步，无需全部数据重传；建设同城灾备中心后可以应对设备的硬件故障，生产机房火灾、漏水等突发情况，建设异地容灾中心，可以避免水灾、地震等其它的大范围的自然灾害，使得数据和应用的安全等级得到进一步的提升，保障了数据安全提升业务连续性。下面是容灾备份建设需要关注的几个点：

线路的选择：生产中心到同城备份中心的数据传输采用祼光纤，同城备份中心到异地备份中心采用专线方式，生产中心到异地备份中心采用专线方式，该线路做为备用线路使用，正常情况下数据通过同城灾备中心采用异步传输方式复制到异地灾备中心，当同城到异地的专线中断后启用生产中心到异地的线路，从而保障数据的正常备份。

应用的切换：当生产中心服务器出现故障后，生产中心的集群功能将应用切换到同城灾备服务器上，同时灾备中心的数据库服务器接管灾备中心的存储，进而恢复数据的访问及业务的连续性。

实现应用切换的前条件是：

1）数据已经从生产中心同步到灾备中心，如果数据复制采用的是异步的方式，在网络故障的情况下，就有可能造成数据不一致的问题，导致数据不可用或无法访问。

2）灾备中心配置与生产中心对应的应用服务器、数据库服务器和中间件服务器等,且运行正常。

3）灾备中心网络运行正常或能够实现正常切换。

数据级容灾：PACS、EMR、LIS和CIS等应用系统做数据级容灾，当生产中心数据损坏后，同城和异地生产中心还有一份可用数据的副本，同城的存储与生产中心的存储采用数据同步复制技术，与异地灾备中心的存储采用数据异步复制技术。

4、医疗行业容灾备份系统实施经验

医院采用存储同步镜像的方式实现同城应用级容灾，如果生产中心存储发生意外故障，灾备中心存储上的应用与数据是否能够正常启动，数据是否一致是摆在施工人员面前的一个问题同时也是检验项目是否成功的一个依据。按以下步骤进行测试：

1，通过Metro Mirror将存储1上的数据复制到存储2，在存储1不断添加新的数据。

2，断开两台存储之间FCSW的光纤，此时在主机端在存储1存放新数据。

3，接通两台存储之间FCSW的光纤，手工启动一致性群组可以看到很快一致性群组又回到同步状态。

4，此时将存储2重新映射给主机，发现数据与存储1映射卷上的数据一致。

测试结果说明主备站点的链路中断不影响主站点数据的应用；链路恢复后，重新同步采用增量方式，可以快速达到重新同步。

切换演练在容灾建设工作中必不可少，通过演练可以帮助管理人员提高操作水平，提高应急恢复速度；演练工作同时需要控制风险，降低对生产系统的影响。演练实现方式有两种，一是定期或随时利用容灾中心所提供的多点快照，加载快照到容灾主机，同时启动容灾数据库和应用进行演练和验证；二是切断复制链路，直接提取容灾中心的数据盘，启动容灾中心应用，业务演练验证后既可以将生产端数据同步灾备端数据，消除灾备端由于演练产生的垃圾数据，又可以将灾备端数据同步生产端数据，保留由于演练产生的真实数据。通过切换演练，模拟真实故障恢复场景，制定应急恢复预案，检验容灾方案的适用性、有效性。当真实故障发生时，通过预案快速恢复，提高业务连续性。

切换演练参考步骤：

1，停止业务

2，操作系统删盘,varyoff、rmdev

3，通过暂挂H1-H2之间的MM关系

cmdsess -quiet -action suspend Test_ZB_MM

4，H2 接管，可以看到这个H2 变成target available

cmdsess -quiet -action recover Test_ZB_MM

5，主存储移除hostconnect关系

chvolgrp -dev 75SK65 -action remove -volume 3E01,3E02,3EBB V147

chvolgrp -dev 75SK65 -action remove -volume 3E01,3E02,3EBB V148

6，备存储添加hostconnect关系

chvolgrp -dev 75NK36 -action add -volume 3E01,3E02,3EBB V147

chvolgrp -dev 75NK36 -action add -volume 3E01,3E02,3EBB V148

7，操作系统认盘，varyon

8，启动本业务

此时业务已经在备存储上运行，运行一段时间后，主存储恢复，我们可以选择将增加的数据“冲回”主存储。

9，反转MM关系（只有enable_copy_to_site_1后，才能start H2->H1）

cmdsess -quiet -action enable_copy_to_site_1 Test_ZB_MM

10，启动反向MM

cmdsess -quiet -action start_h2:h1 Test_ZB_MM

完成切换演练。

5、医疗行业容灾备份系统日常运维方案

为确保容灾系统稳定、可靠的运行，达到项目建设预期的效果，需要建立容灾备份系统配套的运维管理制度。具体如下：

(1) 建立运维管理的组织架构，统一负责实施、运营维护、应急响应和恢复的管理和决策工作。

(2) 制定一套完整的容灾日常运维管理制度,进行人员岗位设置和职责划分，制订变更管理、问题管理、事件管理、供应商管理、介质管理、灾难恢复中心资源管理等管理制度规范；制订系统日常巡检、系统与维护、系统紧急上下电等技术规范模板。

(3) 建立一个完整、易用、明确、有效、兼容的灾难恢复预案。

a.完整性：灾难恢复预案（以下称预案）应包含灾难恢复的整个过程，以及灾难恢复所需的尽可能全面的数据和资料；

b.易用性：预案应运用易于理解语言和图表，并适合在紧急情况下使用；

c.明确性：预案应采用清晰的结构，对资源进行清楚的描述，工作内容和步骤应具体，每项工作应有明确的责任人；

d.有效性：预案应尽可能满足灾难发生时进行恢复的实际需要，并保持与实际系统和人员组织的同步更新；

e.兼容性：灾难恢复预案应与其它应急预案体系有机结合。

制定信息系统灾难恢复过程中所需的任务、行动、数据和资源文件，以备不时之需，一旦系统出现重大故障即可采用应急预案恢复系统，确保容灾系统能够发挥作用。建立一个完整的灾难恢复预案是一个周而复始、持续改进的过程。

(4) 为使相关人员了解信息系统灾难恢复的目标和流程、熟悉灾难恢复的操作规程，应组织灾难恢复预案的教育、培训和演练，不定期的做好容灾应急演练。只有通过反复的容灾切换演练，才能发现并处理灾难恢复预案中潜在的问题，以保证灾难来临时，系统能顺利切换至容灾系统，保证业务的连续性。

在运维过程中不容易被发现的问题：

1) 通常存储之间的镜像会自动同步数据，但是在一个存储出现问题断开链接关系的时候，一般系统没有在前面板告警，没有亮黄灯。所以需要管理员经常检查系统的状态才能及时发现问题。

2) 存储替换升级需要考虑系统之间的兼容性，比如存储微码升级工作，要关注连接存储的所有主机，确认与操作系统、主机存储驱动程序、主机HBA卡微码，存储虚拟化设备等等的兼容性，关于兼容性风险不注意检查会留下隐患。

3) 规避迁移相关的风险，迁移方案的不合理或者升级替换过程中触发了其他的风险隐患，从而出现了风险叠加，迁移前的健康检查做的越细致，风险也会越小。

6、医疗行业容灾备份系统实现难点与处理方案

灾备中心故障处理方法

7、总结

医院的同城灾备中心建成后可以应对设备的硬件故障（包括逻辑故障和物理故障），生产机房火灾、漏水等突发情况，不会造成数据的损失，业务数据能够定时备份，可以在灾难来临时从备份点恢复，故障发生时容灾系统能够接管应用对外提供服务。医院建设同城灾备中心后实现了以下方面的业务提升：

1) 由于生产中心及同城灾备中心数据的一致性，因此灾备中心在平时可将这些数据用于业务系统或应用的测试、开发及培训等，即实现了数据资源的有效利用同时可以保障数据安全提升业务连续性。

2) 同城灾备中心建成后服务器和存储等资源的处理能力再利用，数据处理系统可供测试机和开发机使用，运行数据仓库和数据挖掘等应用系统。

3) 对于医院的非关键业务可以部署在同城灾备中心，这样可以节约生产中心紧张的机房资源和电力资源，同时充分的利用灾备中心的资源，避免资源的闲置。

4) 建立了灾备系统相应的运维方案，故障处理办法和备份恢复演练计划，备份后的数据可用性得到保障，提高了医院的应急响应能力和抗风险的能力。

医院同城灾备中心项目虽然已经建设完成了，但是后续的相关制度和运维工作一定要跟上，并且一年至少进行一到两次容灾切换演练，以保障同城灾备中心的硬件设备和应用数据是可用的能用的，并且工作人员熟悉演练的流程，这样才能真正的做到了“有备无患”。

干货：大型医院容灾备份平台建设与应用实践