众所周知,金融业作为一个国家的重要支撑行业,其对业务连续性的要求以及对各种IT风险的应对能力的要求非常高;尤其在近年来,金融机构的数字化转型逐渐进入深水区,核心业务系统已成为其生产运行的“神经中枢”,如何保证其持续运行成为关键。
对于金融机构来说,数据就是其赖以生存的“生命线”,确保数据的安全性,不仅可以确保核心业务系统安全可靠,还能进一步实现数据价值的挖掘。尤其在金融行业基本完成数据中心建设、实现数据大集中的今天,提升数据中心的容灾能力正变得尤为突出。
近年来,湖北省农村信用社联合社(以下简称“湖北农信”)作为湖北省内规模最大的金融机构,一直在积极推进“三大银行”(责任银行、合规银行、智慧银行)发展战略。2017年,湖北农信与华为公司签署战略合作协议,积极开展智慧银行建设和数字化转型。
湖北农信通过光谷同城双活数据中心的建设,实现了技术架构上的大幅优化,并在存储层面建立起本地双活加异地灾备数据保护体系,不仅对业务发展提供了强有力支撑,也为金融行业数据中心灾备建设和数据基础设施创新提供了重要参考。
湖北农信数据中心核心室经理 付毅
业务发展呼唤容灾系统建设和存储升级
湖北农信是湖北省内资产规模最大、营业网点最多、服务范围最广的地方金融机构,承担对全省农村信用社的管理、指导、协调和服务职能。
近年来,随着湖北农信业务的持续扩张,新建异地灾备数据中心的监管要求越来越强烈。尤其对于银行Core-banking核心系统来说,它承载着产品与服务、业务流程、财务核算与管理、风险管控、客户关系管理及辅助管理与决策等金融机构业务的核心功能,是确保金融业务正常运转的核心。
为此,湖北农信在2017年确定了建设同城双活数据中心的部署,并根据湖北农信双活数据中心项目总体设计原则,对核心存储系统进行全面升级改造,新增光谷数据中心核心存储系统,以提升业务连续性、数据安全性、灾难承受能力、降低访问时延、提高性能等。
比如,在业务连续性上,银行Core-banking核心系统要求7*24小时不中断,需要实现应用级双活容灾;在极致性能上,传统存储阵列已经无法满足业务对性能提出的要求,需采用高端全闪存作为核心存储设备;在数据保护上,同城灾备中心的建设,可以在生产中心存储出现故障时,将业务切换至灾备中心,最大限度缩短业务中断的时间。
为此,湖北农信通过与华为合作,借助其“存储本地双活+同城灾备”解决方案,分别在茶港数据中心和光谷数据中心部署了高端全闪存设备,不仅提升了存储设备性能,还通过将存储设备的双活部署,通过基于阵列的远程复制实现了同城灾备。
针对不同业务诉求,打造差异化容灾方案
对于容灾系统的建设来说,不同银行对于自身容灾级别的评价方式不尽相同,因此每家银行都会结合自身实际情况,制定一个评价标准,湖北农信也不例外。
在容灾系统中,如果没有数据复制技术,容灾也就无从谈起。尤其在面临系统故障时,数据复制的效率和效果直接决定了RPO(数据恢复点目标)能否得到保障,RPO即业务系统所能容忍的数据丢失量;同时也决定了RTO(复原时间目标)是否可以落地,RPO就是在容灾系统在面临站点级故障时,多长时间能够恢复业务。
湖北农信在开展容灾系统建设中,就根据不同承载业务级别和评价标准制订了不同的RTO和RPO,分别是A+级,A级,A-级和B/C级,并针对不同的系统采用不同的容灾方式。其中,核心系统承载着银行90%以上的业务,其标准为A+级;而存储双活的标准则是A+级和A级兼有。
比如,湖北农信的核心系统采用了三层保护机制,不仅在存储上做了跨中心、异地的远程复制,还通过高性能的共享并行文件系统进一步提升数据的安全可靠。不过,数据恢复所使用的技术越多,成本也就越高,为此,湖北农信根据系统的重要级别选择了不同的数据保护和复制策略。
而在存储系统上,通过在茶港数据中心部署两套Dorado 18000 V3高端全闪存设备,单套配置四个控制,任意坏三个控制业务不中断,两套阵列之间采用双活部署方式,任意一套阵列出现故障核心业务系统连续性不中断、数据不丢失。在光谷数据中心部署一套相同配置的Dorado 18000 V3 作为灾备存储,当茶港数据中心出现灾难时,通过容灾切换软件在30分钟内实现湖北农信整个核心业务切换至光谷数据中心运行并对外提供服务。
同时,Dorado 18000 V3作为华为最高端的全闪存设备,最高达700万IOPS,微秒级稳定响应,可以满足业务未来发展的需要。目前,湖北农信已经将生产上的A类、A+类系统全部提华为全闪存产品,大大提升了数据中心性能,将核心系统平均交易响应时间由65毫秒下降至20毫秒,夜间跑批时间从6小时缩短到了3.25小时。
切换演练将容灾落到实处,树立容灾建设新标杆
对于金融机构来说,数据中心容灾系统的建设不仅要做到“防患于未然”,还要真正做到在故障发生后能够迅速响应,保障业务连续性、安全性。
为了做到这一点,湖北农信借助华为“存储本地双活+同城灾备”解决方案,实现同城双活数据中心正式投产的同时,还在业务上线时制定相应的系统切换演练方案和策略,以确保在灾难发生时,容灾中心可以接管大部分业务,将“有备无患”落到实处。
对于银行生产系统来说,这样的切换演练风险很大,湖北农信为了最大限度减少由此产生的业务风险,采用了先易后难、先外围后核心的原则,从单系统的跨中心切换入手,进而实现多系统的联动切换,最后完成整体系统的跨中心切换。
在湖北农信数据中心核心室经理付毅看来,湖北农信数据中心容灾系统的成功建设,得益于以下四大因素:首先是领导的支持,因为数据中心容灾建设涉及项目多、资源多,领导的支持确保了项目的顺畅开展;其次是要选择优质的服务商,这样不仅可以确保技术的先进性,还能将一些特殊的业务设计落到实处,并提供完善的售后服务;第三是要做到选型科学,根据自身业务实际情况选择最合适的产品,而不是盲目追求最新最好的技术和产品;第四是要做到良好的项目管理,只有对所涉及的各参与方进行统一管理,才能保障项目顺利落地。
今年年初,中国银保监会正式发布了《中国银保监会监管数据安全管理办法(试行)》,对金融行业监管数据的存储期限、存储介质管理以及传输、加工处理、转移交换等不同环节均提出了明确要求。
在这一背景下,金融行业作为数字技术应用最为深入、数字化最为迫切的领域之一,亟需加强对于关键数据、敏感数据的安全性、业务连续性以及容灾备份等的建设。湖北农信的数据中心容灾建设,作为金融行业的新标杆,无疑可以为更多的金融机构提供参考借鉴,为金融行业的数字化转型保驾护航。