医院核心数据库容灾体系建设实践

(整期优先)网络出版时间:2024-04-08
/ 3

医院核心数据库容灾体系建设实践

沈剑欢赵巍(通讯作者)

(江苏 连云港市第一人民医院 222000)

[摘要]目的:医院信息系统数量众多而复杂,无时无刻不在面临宕机停顿的风险,为有效地将信息系统及数据库从故障造成的灾难或瘫痪状态恢复到可正常运行状态,灾难恢复应运而生,方法:本文介绍了基于数据实时同步的数据库容灾系统建设并利用灾备(涵盖容灾和备份术、管理手段以及相关资源,结论:形成完整有效的数据库容灾备份系统,确保已有的关键数据在灾难发生后在确定的时间内可以恢复和继续运行的过程。

关键字 数据库容灾;备份恢复;数据同步;连续数据保护

Practice of Building Disaster Recovery System for Hospital Core Database

AbstractPurpose: Hospital information systems are numerous and complex, constantly facing the risk of downtime. In order to effectively restore information systems and databases from disaster or paralysis caused by failures to normal operating conditions, disaster recovery has emerged. Method: This article introduces the construction of a database disaster recovery system based on real-time data synchronization, and utilizes disaster recovery (including disaster recovery and backup) technology, management methods, and related resources, Conclusion: The process of ensuring that existing critical data can be restored and continue to operate within a determined time frame after a disaster occurs.

Key words Database disaster recovery; Backup recovery; Data synchronization; CDP

1现状描述

连云港市第一人民医院于2017年形成一院三区的格局,在新院区建有新数据中心机房,原主机房转变为异地容灾机房,院区之间选用多运营商裸光纤相连,使得主机房与容灾机房网络运行在万兆网速上,主业务数据库服务器升级为Power8系列小型机,HIS/EMR/HRP核心业务系统数据库运行于两台小型机与两台SAN存储组成的双节点Oracle RAC集群中,形成数据库双活架构运行,版本为Oracle 12.2.0.1.0,容灾备份方式有三种,分别为本机RMAN备份,同平台小型机配合ADG技术对数据进行异地实时同步及备份恢复一体机进行定时备份。

随着医院业务量的快速增加和业务的持续发展,IT系统在企业运营中起着越来重要的作用。相应的,业务部门对IT系统的要求也越来越高,随之而来的是IT系统结构越来越复杂,管理越来越困难。如何保障IT系统安全、高效、稳定的运行,成为了摆在医院系统运维人员和管理人员面前的难题。而数据库作为整个IT系统的核心和基石,更是需要极高的稳定性、安全性、可用性和持续性来支撑整个业务的发展,迫切需要对数据库的连续性和安全性做必要性的提升,目前数据库存在的问题是缺少数据连续保护和容灾同步快速切换系统,以解决数据丢失恢复和主备快速切换的问题[1]

2总体方案设计

根据现有数据库容灾备份短板,搭建数据连续保护环境,增加EMC RecoverPoint端对端的数据复制设备,采用的存储为EMC Unity 500,该环境系统对生产数据库进行实时数据同步,并做到秒级的快照备份,根据分配的存储空间大小,对主生产数据库实现24小时的数据连续保护。当生产数据库发生数据丢失、数据损坏或者其他数据异常时,使用RP连续保护系统回到数据异常前一时刻,即可对丢失损坏数据进行恢复。

升级异地容灾机房Oracle ADG环境,主机采用与生产环境相同型号与配置的Power8小型机,配合EMC Unity 500存储,改用DPS技术实时对主生产数据进行同步,部署容灾切换软件,形成一套容灾快速切换环境;在高新院区的本地生产机房部署了一套数据库的容灾环境,也采用DPS技术,做到了数据实时同步备份,这套本地备份环境起到容灾作用的同时,也用于第三方应用的数据连接和数据抽取,发挥减少主生产库压力的作用。

通过DPS容灾管理平台,将生产数据实时同步至两院区机房容灾备库中,通过DPS Agent将生产库和容灾备库的数据库状态、数据差异、操作系统CPU、IO、磁盘容量等信息汇总至DPS Server端的DPS资料库。DPS Server端通过DPS Agent获取的主备库信息,通过校验主备库的SCN号、归档序列号等信息,并将主库的数据变化通过DPS Agent投递至备库,实现数据实时同步。DPS Server上开启WEB进程,将数据库切换、数据校验、数据同步状态、数据恢复、桌面演练、CPU/IO/内存/磁盘空间等信息展现在WEB上,可以鼠标点击完成数据库切换等操作,能一览无余的实时监控数据同步状态和操作系统资源使用情况[2]

D:\Backup\Documents\WeChat Files\wxid_5614rqnbbfib11\FileStorage\Temp\1660873331173.png

3关键实现技术

3.1DPS系统架构

经过调研容灾产品和实践经验,选用结合Oracle ADG技术的DPS方案,这是一款以灾难完整性和容灾可用性为基准点,以数据库为视角单元的容灾软件,可以最大限度地满足容灾恢复的RPO、RTO需求[3]。主要目标即成为灾难恢复的可靠技术保障,主要体现在以下两步骤:实现数据库数据同步,同时确保数据一致性和系统可用性;当发生故障时,能够在10分钟内一键应急切换到灾备中心,进行快速灾难恢复,保障整个业务系统持续运行。

DPS数据级容灾系统以灾难恢复、保障业务连续性为根本目标,解决在容灾运维的整个阶段过程中所面临的诸如灵活性、简便性、可用性、可靠性和扩展性等问题,创新地将资源编排、一键切换、桌面演练、误操作恢复、活动站点等核心功能深度融入其中。DPS容灾系统支持灾难应急恢复切换和计划维护切换两类场景,整体系统架构如下图所示:

图形用户界面

DPS数据级容灾系统采用模块化设计的理念,并将切换管理模组与产品底层各模块解耦,并可通过接口纳管第三方灾备系统。整个产品架构体系可分为“六层一模组”,以下为各层和各模块的作用描述:

物理层:通过Agent和网络链路,面向各类容灾对象所在的物理层环境,支持范围广泛:涵盖从各类小型机环境

资源层:将容灾对象资源化管理,实现生产站点和容灾站点之间的应用、文件、数据库等数据的同步,保持两个站点之前的数据一致性;实现多种资源按业务应用进行编排管理。

服务层:提供监控、分析、统计和信息去重等状态监测类服务以及初始化、重传、断点续传、压缩加密及异常控制等过程保障类服务模块。

管理层:主要提供资源配置、用户管理、系统管理、日志管理、告警管理、链路管理等管理类服务模块。

功能层:提供桌面演练、误操作恢复和活动站点等核心功能模块,以及通过结合切换管理模块支持计划内和灾难切换两类场景。

接口服务层:提供切换管理模块与基础模块之间的交互接口,以及切换管理模块纳管第三方灾备系统的接口,同时也是二次开发预留接口层。

切换管理模块:将于一键切换、一键演练、切换检查甚至是指挥大屏等切换相关的各类功能模块从产品底层解耦,让切换过程更简单、更可靠。

3.2DPS关键能力

DPS数据级容灾系统具备以下四大关键能力:

数据库为视角以数据库为视角单元进行建设的容灾产品,颠覆了容灾建设重数据轻业务的理念,并与灾难管理预案保持高度一致,既能从根本上保证数据的一致性,又能降低灾难发生时的业务停滞时间。

高度数据一致性保障以数据库日志传输、断点续传等技术,多重保障生产站点与容灾站点的数据一致性,最大程度还原业务数据,降低业务中断风险。

灵活的自定义策略设置针对应急切换和计划内维护,支持。

简便的一键式操作对于常见的灾难恢复,包括IP切换、数据级切换都具有了一键式操作能力,使灾难恢复操作简单、可靠、快速,有效降低RTO消耗。

灾难恢复是DPS数据级容灾系统的主要目标,DPS容灾系统应用场景支持非常丰富,不仅支持基础的容灾功能,还能够用作业务系统迁移或业务读写分离等等场景,同机房的本地灾备,主要针对数据中心系统级故障,快速在本地数据中心内实现业务恢复;异地机房灾备主要针对数据中心整站级故障,实现异地恢复业务,提高抗风险能力[4];除了基本的灾备场景外,DPS容灾系统还能够充分利用自身的特性,应用到一些增值的场景中,比如:

双活数据中心:实现应用数据和数据库数据的实时同步,为双活数据中心的构建提供基础环境,结合负载均衡等机制,可实现故障自动转移功能;

业务系统迁移:可在生产系统需要升级时,让容灾系统临时成为生产系统,提供业务系统平滑升级能力;或在业务系统迁云时,通过使用容灾系统完成数据上云,提供业务系统平滑上云能力;

业务读写分离:主动将生产系统中只读的业务流量以及非生产型作业分流至容灾系统,释放生产系统负载,减少业务高峰期时出现生产业务瓶颈。

4DPS容灾切换

4.1计划切换和灾难切换

计划切换即计划内的有预见的数据库切换,例如主库操作系统补丁升级、扩展资源、硬件检修等需要重启数据库服务器,为了缩短业务停机时间,此时需要进行计划切换,将备库临时切换成主库承载业务,提升业务连续性,当原主库服务器重启完成后,在进行数据库回切

[5]

4.1.1计划切换步骤

主库和备库的角色对调,切换过程中,先将主库的角色由primary切换成standby,并将数据库状态由read write状态切换为mount或read onlywith apply状态;主库切换完成后,备库的角色由standby切换成primary,并将数据库状态由mount或read only with apply状态切换为read write状态,供承载业务。由于当前客户环境是域名方式访问数据库,因此数据库计划切换中,无需切换主备库IP,数据库切换完成后,只需将域名指向备库IP即可,整个切换过程对前端业务透明[6]

4.1.2灾难切换步骤

灾难切换即计划外的不可预见的数据库切换,例如主库服务器故障无法启动切恢复时间未知、机房断电、自然灾害等导致主库无法恢复时,此时需要进行灾难切换,将备库拉起成主库承载业务,提升业务连续性。

灾难切换过程中,由于主库状态为止,因此不存在主库切为备库的步骤,我们需要直接将备库角色由standby切换为primary,并将数据库由mount或read only with apply状态切换为read write状态供业务使用,缩短业务停机时间,即使后续原主库恢复,由于经历过灾难切换,原主库和新主库已经不存在数据同步关系,数据同步需要重新部署搭建。由于当前客户环境是域名方式访问数据库,因此数据库计划切换中,无需切换主备库IP,数据库切换完成后,只需将域名指向备库IP即可,整个切换过程对前端业务透明。

当发生生产环境数据库异常,主机无法启动或数据库无法启动等场景时,导致临床业务系统无法正常提供服务,且短时间(30分钟内)无法恢复,采用容灾快速切换环境实现业务的应急切换和启动,此时可以快速启用容灾环境,使用DPS容灾软件中的灾难切换按钮进行切换,这种方式切换后,需要重建容灾环境,恢复时间在10分钟以内。

总结

经过此次容灾平台的搭建,进行了数据库同步备份的智能化统一管理,实时监测同步情况,必要时进行主备一键切换;除了核心数据库,也对重要数据库如LIS、PACS、手术麻醉、重症、急诊等数据库进行了DPS容灾同步备份,增加数据安全性。采用的EMC RecoverPoint设备配合数据库服务器、EMC存储搭建了连续保护平台,基于秒级的快照保存技术,对主业务数据进行连续保护,做到24小时内任意时间点的恢复,使得RTO时间小于10分钟,RPO时间小于1分钟。

通过容灾体系建设,数据库容灾同步技术也应对了医院业务量增加后核心数据库压力的增加,部署的数据库同步服务器,在做到数据的冗余保护的同时也降低了生产库的运行压力;基于ADG技术的DPS容灾系统将数据同步至本地和异地容灾平台后,在各种原因生产库不可用导致业务停机或宕机时在灾难发生时,可以通过容灾切换让备端快速升级成主库承载业务,进而保障业务连续性。

参考文献

[1]董慧星."小成本,大保障"——记我院信息系统容灾的建设探索[J].科技创新与应用, 2016(33): 97-97.

[2]洪怀江,马晟杰.医院信息系统应用级容灾体系的建设与实施[J].中国医疗设备, 2016(4): 100-102.

[3]孔明军,李芹,王瑜.医院信息系统双活容灾备份体系的实现探讨[J].科技创新导报, 2017, 14(7):129-135.

[4]许建宝.医院信息系统数据中心容灾建设[J].硅谷, 2015, 8(4): 145-158.

[5]宋阳,邹健,周昕.医院信息系统容灾体系研究[J].通信与信息技术, 2023(4): 13-16.

[6]王辉,吕培栋.基于数据安全的医院系统容灾建设[J].信息技术与信息化, 2023(2): 51-54.