作者:SmartX 金融团队方案工程师 徐鑫

在数字化时代,数据是财务公司的生命线。随着行业的发展,财务公司对数据安全的需求也从单数据中心备份演进到多数据中心容灾。传统容灾方案使用传统虚拟化和集中式存储在双数据中心之间复制数据,配置复杂、颗粒度大,难以满足多元化的业务需求和国产自主可控的发展趋势。

近期,SmartX 与某中央企业财务公司展开合作,基于超融合信创平台实现了同城跨数据中心的容灾建设。相比于传统集中式存储+虚拟化的容灾资源池架构,SmartX 提供了更为简便和灵活的解决方案——SmartX 超融合支持以虚拟机为颗粒度进行复制,搭配编排策略,能够更精确、灵活地保护整套应用程序中的离散组件,更充分、合理地利用了物理资源,有效保障了数据的可用性和业务的连续性。

下载《超融合容灾备份解决方案》,了解超融合灾备解决方案与更多金融用户实践。

实践背景

该财务公司基于业务升级计划上线了新的数据治理等系统,为了保障集团业务的正常开展和数据的安全性,需要确保这些新业务系统具有跨数据中心级别的容灾能力。由于业务应用自身不具备容灾机制,需要通过底层基础架构实现容灾功能。目前公司已在两个数据中心间架设了裸纤,具有良好的网络条件;接下来,根据公司先前的建设经验,需要分别部署两套 VMware 虚拟化集群和对应的集中式存储,通过存储 LUN 复制或架设存储网关来保障数据的可靠性,并通过虚拟机高可用或容灾产品来保障应用的连续性。然而,进一步调研后,用户发现该方案存在多项挑战:

  • 方案成本高:传统存储的复制和恢复通常以 LUN 级别运行,对其内部存储的数据几乎不了解。这种方式会导致同时复制数十到数百个虚拟机,而每个虚拟机的保护策略和存储增长速度各不相同,运维人员需要承担大量的虚拟机存储规划工作,为不同保护计划的虚拟机创建不同的 LUN 并配置恢复策略,从而直接延长了业务的交付周期,增加了企业的拥有成本和运维的复杂性。
  • 国产自主可控: 由于国外技术起步早,国内早期数据中心大多采用国际商业软件和硬件。作为承载业务的基础,IaaS 层需实现从硬件到软件的自主可控。因此,新的数据中心建设方案不仅需要提供稳定的虚拟化和存储,还需具备容灾能力,并可实现 VMware 工作负载的顺利迁移,以满足业务逐步国产化改造的需求。

基于 SmartX 超融合信创基础设施构建同城容灾集群

在探索更多建设方案的过程中,用户了解到超融合架构具备快速上线、运维简单、复制灵活等特点,开始考虑基于超融合构建同城两中心的容灾方案。随后,用户引入了多家超融合厂商进行 POC 测试,不仅对可靠性、稳定性、基础性能、业务迁移等方面进行了严格的验证,还重点考察了各产品的同城故障切换能力,确认其能满足业务系统的容灾要求。

由于本次上线的业务系统属于非交易类,不需要数据实时同步,无需采用 RPO=0 级别的数据保护,因此用户希望降低数据复制频率以降低资源开销。基于这种需求,异步复制成为该场景的最佳选择。

经过全面的测试和评估,用户最终选择基于 SmartX 超融合信创基础设施进行同城容灾建设——用户同城双数据中心共部署两套基于海光架构服务器的 SmartX 超融合集群,承载新的业务系统及相关组件,包含国产数据库、中间件等。用户的两个自有数据中心建设在同城不同区域,相距 25 KM,通过 10GB 裸纤进行二层互联,共享应用业务和数据复制流量,两个数据中心间通过 SMTX 备份与容灾产品的复制与恢复功能,进行业务应用的复制和故障转移编排,实现“RPO>=15 分钟,RTO=分钟级”的同城容灾效果。

此次项目具备以下关键特点与优势:

信创生产就绪

信创建设是一个持续探索的过程。本项目是用户进行基础架构信创转型的首次实践,得益于海光 C86 架构在信创生态和兼容性方面的优势,用户在一期建设中选择了海光平台来承载新业务系统和部分原有 x86 架构上的业务系统。而后续信创建设会根据业务最佳实践来选择芯片构架,所以基础架构软件对不同信创芯片的支持能力和产品功能的一致性成为考察的重要环节。

SmartX 超融合核心分布式存储为自主研发,相关功能可实现自主可控,确保数据的高可靠性、高性能和可扩展性。SmartX 超融合也允许用户基于统一的管理平台同时管理不同芯片架构的超融合集群,无论使用 Intel、海光还是鲲鹏等芯片,都可以在同一个界面上查看和配置集群,并保证产品功能的一致性,帮助用户更高效地管理资源和监控性能,无需为不同芯片而学习不同的运维方法。

通过 SmartX 复制与恢复功能进行跨集群复制和灾难恢复

SMTX 备份与容灾产品整合了原有的 SMTX 备份与恢复和复制与恢复(异步复制)功能,可为运行在 SMTX OS(ELF)集群的虚拟机提供全面的数据保护和灾难恢复解决方案。其中,复制与恢复功能无需专用硬件即可快速地将指定虚拟机从源集群复制到一个或多个目标集群。通过复制与恢复,企业可以创建一个互为主从且可灵活切换的超融合环境,无需额外部署第三方异步复制软件即可在多个数据中心间相互复制、恢复,实现异步容灾,确保业务的连续性。目前,SMTX 备份与容灾产品复制的最小保护时间(RPO)为 15 分钟,故障切换(RTO)可在数分钟内完成。

欲深入了解,请阅读:一文了解 SmartX 超融合容灾备份解决方案

基于快照的复制数据量优化

在本次建设中,虽然数据中心距离较近且网络条件优秀,但用户已经着手于其他城市的数据中心建设。考虑到距离较远的站点之间带宽通常较小,带宽消耗也成为本次建设选型的重要考量。

在 SmartX 复制与恢复机制中,为了尽可能充分地利用带宽,减少传输时间,如果源集群和目标集群曾经完成过一次复制任务,后续任务执行时,都会采用增量复制的方式来降低传输的数据量。在数据同步期间,目标端复制服务会对复制数据分块计算指纹,指纹将作为元数据存储在目标端复制服务中。进行增量复制时,目标端复制服务会查询之前复制链中所有的指纹数据,并将上一次复制时数据块的指纹与数据块当前计算出的指纹进行比较。若数据块的指纹相同,说明该数据块实际没有发生更新,复制时将跳过这些数据块。这一机制确保了复制任务执行时只传输和保存实际发生变化的增量数据,从而提高复制效率。

当存储卷使用精简置备的存储策略时,复制服务会通过查询 SmartX 分布式存储 ZBS 的存储卷元数据信息确认是否存在未分配的数据块,并在复制时跳过所有未实际分配的数据块,以减小复制文件的大小。

以虚拟机为单位的灵活保护策略

不同于集中式存储需要对整个 LUN 进行复制的方式,在为源目 SmartX 超融合集群部署复制服务后,便可批量地对虚拟机按照指定的时间间隔(RPO)将虚拟机的恢复点复制到目标集群。当源集群发生服务中断(例如自然灾害或计划维护)时,可在目标站点进行单一或批量虚拟机故障转换,确保应用系统的高可用性。

同时 SmartX 超融合也支持更为灵活的复制周期,用户可以按需以分钟、小时、天、星期为单位设置 RPO,并设置每日的复制窗口时间,以确保复制服务仅在期望的时段内执行。

恢复计划编排

在传统三层架构下进行跨数据中心的容灾切换演练,其复杂且繁琐的过程,相信每一个经历过的团队都会印象深刻。

基于复制与恢复能力,SmartX 超融合支持用户通过统一的管理界面来配置完善的保护策略和恢复计划,提前编排计划内迁移和计划外故障转移,并提供应对不同容灾场景的多项恢复策略来实现应用系统在不同集群间快速的迁移或容灾。

例如,在该项目中,用户当前两个数据中心的网络处于同一二层,无需过多关注网络配置;而业务系统由数据库、应用和中间件构成,属于典型的业务应用架构,启动存在先后顺序。SmartX 的故障转移功能可以批量恢复所有指定的虚拟机,并指定启动序列和间隔延迟,按照设置的顺序恢复应用系统(一键异地拉起)。

另外,基于快照的复制仅允许在目标站点以线性的方式保留最多 16 个恢复点,若应用系统出现损坏或受到攻击,损坏的数据同样会复制到目标端,此时单一复制是无法实现业务还原的;而 SmartX 的故障转移功能允许用户通过应用系统异常的恢复点进行还原,实现有效恢复。

在用户跨城市数据中心的规划中,网络环境也会出现变化,SmartX 还可提供基于 IP 地址映射的故障转移编排,复制服务会尝试通过原虚拟机的 IP 和子网掩码查找匹配的 IP 映射规则,并根据规则设置副本虚拟机的 IP 地址、子网掩码和网关,确保副本虚拟机在启动后能够使用正确的网络配置。

实施效果

通过 SmartX 超融合信创与灾备解决方案,该财务公司同时实现了新业务系统的跨数据中心容灾与 IT 基础设施信创转型。具体成果包括:

  • 提升数据可用性和业务连续性: 利用复制与恢复功能和快照优化技术,确保在任意数据中心故障的情况下,能够迅速恢复数据和业务,最小化业务中断时间。
  • 降低运维复杂性和成本: SmartX 以虚拟机为单位的灵活保护策略和恢复计划编排,运维人员无需进行复杂的虚拟机存储规划和 LUN 配置,也无需额外部署第三方异步复制软件,即可在多个数据中心间相互复制、恢复,实现异步容灾,简化运维流程的同时降低了总拥有成本。
  • 国产自主可控:SmartX 超融合广泛兼容国产信创服务器,不仅满足了财务公司自主可控方面的需求,还提供了稳定可靠的国产虚拟化和存储方案,保障了公司在数据和业务安全上的自主权。

更多金融用户容灾备份实践,欢迎下载《超融合容灾备份解决方案》电子书!

推荐阅读:

 

继续阅读