内容导读

根据 Grand View Research, Inc. 的一项研究结果显示,到 2025 年,全球容灾解决方案市场规模预计将达到 262.3 亿美元,预测期内复合年增长率为 36.5%;市场需求显著提升的原因在于与基础设施故障、网络攻击、自然灾害以及其他内部和外部威胁相关的实例不断增加,影响到企业业务的连续运营,并带来巨大的损失。

本文为读者对市场常见的虚拟化层容灾在架构、产品特性、运维及成本等方面进行分析对比,并提供了一种基于超融合架构的新型容灾资源池搭建方案,在达到用户需要的 RPO 和 RTO 指标的同时,提升容灾资源池的敏捷性,降低方案的整体拥有成本。

阅读时间约 10 分钟。

方案适用客户

客户特征

适合此方案的客户具有如下几点特征与需求:

特征
  • 可接受容灾基础架构为 VMware 虚拟平台;
  • 生产核心系统性能要求高且兼顾容灾环境构建成本;
  • 生产环境为 VMware (ESXi)、Microsoft (Hyper-V) 等虚拟平台。
需求
  • 需构建容灾数据中心;
  • 大规模生产虚拟机容灾需求;
  • 不需极致 RPO 及 RTO 需求,例如 RPO / RTO = 0;
  • 不需要传统备份、归档或带库保存数据等需求。

适合支撑的业务应用与场景

此方案推荐支持的应用系统具备如下特性:生产环境为 VMware (ESXi)、Microsoft (Hyper-V) 等虚拟平台,且可接受容灾环境为 VMware (ESXi) 虚拟化平台。

生产系统
  • 虚拟平台。
生产环境架构
  • VMware ESXi 虚拟平台;
  • Microsoft Hyper-V 虚拟平台。
典型生产应用系统
  • VM 单机;
  • VM Cluster (Shared VMDK);
  • VM Fault-tolerance。
容灾需求
  • RPO = 秒级 ~ 分钟级;
  • RTO = 分钟级;
  • 不需备份专用存储。
容灾方式
  • 超融合容灾平台 + CDP 软件。

市场常见虚拟机容灾方案

虚拟化平台的高可用方案

典型架构

通过搭建虚拟平台的高可用架构(HA / Cluster),达成虚拟机服务与虚拟机的冗余架构。

新型容灾解决方案

实现原理

利用虚拟平台自身的高可用方案形成集群架构,虚拟机于该架构上运行,且能够在集群节点之间进行自动或手动切换;此架构需要搭配至少一座共享存储(Shared Storage)运行于同一个数据机房。

另外,也可通过两座存储系统的实时数据复制功能,实现(共享)存储的拉伸集群架构,搭配虚拟平台的高可用集群架构,可实现虚拟平台在同城的两个数据机房之间的冗余架构。

服务器虚拟化与新型容灾解决方案

方案优点

虚拟平台层的高可用方案可实现虚拟机服务自动或手动容灾切换,RPO 最短可为 0、而 RTO 为秒级 ~ 分钟级(虚拟机服务在线迁移或虚拟机重新启动的时间)的效果。

搭配拉伸集群架构的共享存储,可实现同城的两个数据机房之间的冗余架构,且维持RPO 最短可为 0、RTO 为秒级 ~ 分钟级的效果。

方案限制及挑战
  1. 若仅是虚拟平台的高可用集群架构方案,通常仅能在同一个数据机房内实现冗余;
  2. 实现同城数据机房之间的冗余架构,需要搭配两套规格及配置相同的存储系统,并且都需要具备实时数据复制功能,构建成本高;对数据传输网络带宽及质量的要求都相当高,网络时延需控制在 10 ms 或更低,是达成数据实时同步的必要条件;
  3. 整体方案的架构复杂性高,IT 团队除了具备虚拟平台专业人员外,还需要具备存储系统的专业人员;另外,由于存储系统与虚拟平台之间通常缺乏统一管理平台,需要分别制定管理计划;综观前述条件,对后期总体维护及管理成本高。

整体虚拟机的高可用方案 – VMware SRM

VMware vCenter Site Recovery Manager (SRM) 是 VMware vCenter 的扩展,提供一个能够被计划、测试 和执行 VMware 虚拟机在灾难场景下恢复的业务连续性和容灾解决方案。SRM 可以发现和管理复制的数据,并自动 将容灾切换清单中的受保护虚拟机从一个 VMware vCenter 站点迁移到另一个 VMware vCenter 站点,从而恢复虚拟机服务。

典型架构

通过 VMware SRM(Site Recovery Manager)方案实现虚拟机在不同数据中心之间的冗余架构。

虚拟化容灾方案

实现原理

通过 VMware SRM 容灾功能模块实现冗余架构,其底层架构分区为如下两种实现方式:

  1. 搭配存储系统的数据复制实现 – Array-based Replication (ABR):VMware SRM 提供跨数据中心级别的 VMware 虚拟机容灾管理,以部署在两个数据中心的 VMware SRM 进行虚拟机容灾配置信息同步,并搭配两套相同型号或相近型号的存储系统在两个数据中心之间进行虚拟机数据同步或异步复制。当容灾需求发生时,手动执行容灾站点 VMware SRM 预先定义的容灾恢复程序,则系统会将容灾站点存储系统内的虚拟机数据加载于虚拟平台,并启动虚拟机、恢复应用服务。
  2. 搭配 vSphere Replication 的数据复制实现 – vSphere Replication (VR):以 VMware vSphere Replication 取代存储系统在两个数据中心之间进行虚拟机数据复制;当容灾需求发生时,手动执行容灾站点 VMware SRM 预先定义的容灾恢复程序,则系统会启动容灾站点的虚拟机、恢复应用服务。

虚拟化容灾方案与新型容灾资源池方案分析汇总

方案优点

该方案为 VMware 原生虚拟机容灾解决方案,操作及管理介面与 vCenter 整合、体验较好,另外 VMware SRM 提供容灾测试、演练等功能,可于任意时间进行,保证容灾架构的可用性。

VMware SRM 其虚拟机容灾可达到 RPO 最短为 0、RTO 为分钟级的效果;而搭配 vSphere Replication 进行数据复制的 SRM 环境,其 RPO 最短可达到 5 分钟。

  • VMware SRM 数据同步模式若选择 ABR (Array-based replication),则 RPO 设定最低值可为 0(根据存储系统自身能力而定);
  • VMware SRM 数据同步模式若选择 VR (vSphere Replication),则 RPO 设定最低值为 15 分钟;此时,若两端存储使用 vSAN 6.0(或以上)作为 VR 的数据源存储与目标存储,且 ESXi 为 v6.5(或以上),则 SRM RPO 设定最低值可为 5 分钟。
方案限制及挑战
  1. VMware SRM 架构固定,源端与容灾端皆为 VMware 虚拟平台,且 VMware SRM 为独立的授权产品,需额外购买;
  2. 两个数据中心的 VMware SRM 架构需要相同,为了确保虚拟机在容灾切换后得以运作顺畅,其硬件配置通常也会要求一致;搭配存储系统进行数据复制,则需要在两个数据中心配置两套相同型号或相近型号的存储系统,并具备数据复制功能,整体构建成本高;
  3. 搭配 vSphere Replication 进行数据复制,由于调用 ESXi 快照功能进行内存数据下刷,对生产端虚拟机及虚拟平台性能产生较大的影响;
  4. 要能达到 RPO = 0 或近乎为 0 的效果,存储系统的功能与性能与数据中心之间的网络带宽规格需要相对较优,从而带来较高的构建成本。

虚拟机层的容灾方案(虚拟平台 + CDP 软件)

典型架构

源端生产环境在虚拟化平台的基础上,通过 CDP 软件对虚拟机进行容灾保护,实现虚拟机层的冗余架构。

虚拟化容灾方案与新型容灾资源池方案分析汇总

实现原理

在源端和容灾端数据机房部署 CDP 软件服务(部署于物理机或虚拟机),通过 CDP 软件对源端虚拟机进行数据备份,并将备份数据同步至容灾端保存;当容灾需求发生时,则通过 CDP 软件将被保护的虚拟机还原于容灾端虚拟平台,恢复应用服务。

方案优点

架构上,负责虚拟机备份的软件系统和虚拟平台是解耦的,所以源端和目标端虚拟平台可以是不同品牌或配置,由 CDP 软件负责虚拟机在不同虚拟平台间的(驱动)转换;而虚拟平台通常仅需要基础版本即可实现。

构建成本上,由于虚拟平台与容灾软件系统可以分开采购,其搭配灵活性较大、可选择的厂牌也相对更为丰富,在成本控制上较为容易。

容灾效果上,因为容效果非常倚靠 CDP 软件的能力,所以效果差异较大;此方案 RPO 通常为为秒级 ~ 小时级,而 RTO 通常为分钟级(容灾端虚拟机开机及应用服务恢复所需时间)。

方案限制及挑战
  1. 源端与容灾端的虚拟平台必须是 CDP 软件所支持的品牌;
  2. 容灾架构的可用性与 CDP 软件系统相关,当CDP 软件系统发生故障,则容灾切换可能面临失效的风险;
  3. CDP 软件系统运作时会对虚拟平台产生额外的性能消耗,需将此消耗纳入估虚拟平台性能的评估中;
  4. 此方案的容灾效果会因为源端虚拟机数据异动较大且频繁、网络带宽及容灾端 CDP 软件系统对备份数据保存(写入)的性能等因素而有所差异,评估时须纳入考量。

基于超融合架构的虚拟机容灾资源池方案

对于依旧希望使用传统架构运行核心生产业务的用户,SmartX 超融合解决方案作为容灾资源池对虚拟化环境提供如下整体虚拟机容灾方案:

虚拟机级别的容灾方案(SmartX 超融合 + CDP 软件)

方案架构及说明

以 SmartX 超融合作为容灾基础架构,通过 CDP 软件对源端虚拟机进行保护并同步数据至容灾端,形成容灾架构。

虚拟化容灾方案与新型容灾资源池方案分析汇总

方案优势
  1. 优异的 RPO 与 RTO:通过 CDP 软件对生产端虚拟机进行保护,RPO 能达到最短为秒级、RTO 为分钟级的容灾效果;
  2. 快速构建容灾基础架构:SmartX 超融合系统以分布式块存储为基础,融合虚拟化平台构建的一体化架构,以 x86、ARM 等通用服务器搭配以太网设备的精简架构即可构建支撑虚拟平台的基础架构;
  3. 按需扩容:SmartX 超融合容灾基础架构,可由最小三节点起步可实现按需扩容优势,降低容灾基础架构的起始构建成本;对应更多生产环境的容灾需求时,也可通过按需扩容优势,逐步扩展容灾基础架构资源,持续维持较高的资源利用率与更低总体拥有成本;
  4. 虚拟机整体保护:通过 CDP 软件对生产虚拟机进行整体保护,其标准操作步骤不会随着虚拟机应用的不同而产生对应独立的操作程序;
  5. 几乎不影响生产环境性能:此方案建议的 CDP 软件能有效控制虚拟机保护时对生产环境的资源消耗,一般的资源消耗被控制在 5 % 以内;

与常见虚拟机容灾方案的对比和价值

虚拟平台的高可用方案

  • 若无搭配拉伸集群共享存储,通常仅能在同一数据机房内实现冗余;
  • 拉伸集群共享存储的购置成本高。

虚拟机级别容灾方案(SmartX 超融合 + CDP 软件)

  • 生产与容灾环境异构架构支持,弹性大;
  • 存储与计算融合部署,架构简单、运维容易。

整体虚拟机的高可用方案 (VMware SRM)

  • 平台架构固定,维护不易;
  • 需购买两套存储系统,成本高。

虚拟机级别容灾方案(SmartX 超融合 + CDP 软件)

  • 生产与容灾环境异构架构支持,弹性大;
  • 架构简单、管理运维容易,构建成本低。

虚拟机层的容灾方案 (虚拟平台 + CDP 软件)

  • 传统架构部署、扩容不易;
  • 架构运维较困难、总体拥有成本高。

虚拟机级别容灾方案(SmartX 超融合 + CDP 软件)

  • 超融合架构简单、部署容易,弹性扩容;
  • 通用硬件设备、运维容易,成本控制容易。

SmartX 超融合容灾资源池方案的进阶应用

基于软件定义存储的 SmartX 超融合解决方案,可快速适配市面上更高速及更具竞争力的硬件部件,面对巨大的容灾需求场景,更能在性能及总体拥有成本上取得优势;基于傲腾持久内存的 SmartX 新型超融合系统具有如下两种容灾资源池方案的进阶应用:

基于傲腾持久内存(内存模式)的高性价比容灾资源池方案

在面对虚拟机数量较多的容灾场景,性能与价格的平衡成为构建容灾资源池的首要考量因素,希望以有限的成本构建与生产环境性能差距不大的容灾基础架构,此时占据构建金额较多的硬件的成本就成为可优化的重点项目。

在容灾基础架构性能指标固定时,其 CPU 性能、内存容量、数据盘容量及缓存性能与容量等都无法再优化的情况,且必须遵循 HCL 的规范前提下,在 “内存” 成本优化尚存在空间 — 通过英特尔傲腾持久内存的内存模式,能在内存购置成本取得至少 25% 的节约优势(以持久内存单模块 128 GB 与相同容量的 DDR4 DRAM 进行对比,并且 DRAM 与持久内存的配置比为 1:4),并且性能差距亦在可接受的范围,甚至部分应用场景对于性能差距是没有实质影响的(根据 SmartX 测试结果显示,性能差距最小可控制在 10% 以内)。

基于傲腾持久内存(用于存储缓存 App Direct 模式)的高性能容灾资源池方案

企业在面对(极为)重要的生产业务核心系统的容灾规划上,通常会把容灾切换后的性能表现作为考量要点;与生产性能匹配的结果带来高昂的容灾构建成本,相反地,成本管控后的结果,其性能表现往往产生差距,难以在性能需求与成本优化上取得平衡。

通过基于英特尔傲腾持久内存(App Direct 模式)的 SmartX 新型超融合系统所构建的容灾基础架构,可以在相同的硬件架构下(超融合节点数量不变,升级数据、缓存盘与数据网络带宽)取得最多 10 倍的性能提升(根据 Intel Lab 的测试结果),能大幅提升容灾基础架构的性能表现或更高密度的应用系统支撑。

基于 SMTX OS 与傲腾持久内存相关文档:

天津信托案例分享

  • 被保护的系统

生产核心应用虚拟机 (VMware ESXi Cluster)。

  • 容灾端平台

SmartX 超融合基础架构 。

  • 容灾方式

Zerto 将源端 VMware 虚拟机异动数据同步到容灾端 VMware 平台。

  • 实际容灾效果

达成虚拟机容灾 RPO < 10 s,RTO < 10 mins (虚拟机开机到服务恢复时间)。

服务器虚拟化与新型容灾解决方案

案例详情

天津信托:基于超融合构建信托“双态” IT 云化与容灾架构转型最佳实践