作者:SmartX 金融团队 宫澍

如何基于超融合及相应的 CDP 软件建设一个高可用、高稳定、高处理能力、低成本的灾备中心,进而满足监管要求,同时降低 IT 部门的 TCO?

2012 年监管单位发出 《关于加强基金管理公司信息系统备份能力建设工作》 的通知,通知里面明确了公募基金公司需要按照《证券期货经营机构信息系统备份能力标准》执行落实各业务系统备份能力建设目标和等级。2018 年底,监管单位发布的《证券基金经营机构信息技术管理办法》再次提到备份系统建设要求,即证券基金经营机构应当确保备份系统与生产系统具备同等的处理能力。

公募基金容灾方案面临的挑战

今年来,建设同城或者异地灾备机房,为核心生产系统建设同等处理能力的备份系统成为基金公司较为普遍的需求,但传统方案给 IT 部门带来较大的压力和挑战:

1.高昂的采购成本。传统架构需要购置大量服务器、同等性能的磁盘阵列并且对应的存储需要通过复制技术(例如 EMC VPLEX )保证数据冗余,应用系统层面需要通过负载均衡保证应用的高可用,才能构建同等处理能力灾备环境,这样的架构无疑需要高昂的预算才能满足。

2.复杂的运维工作。由于存储属于专业硬件设备,使用存储双活架构更是加大了存储运维复杂度,用户无法快速掌握产品运维能力,长期需要依赖原厂服务支持。

3.灾备演练流程繁琐。采用传统 SAN 架构建设灾备环境,无法高效完成灾备切换演练,需要多部门、多人员配合完成。

超融合架构配合基于虚拟化的CDP为容灾方案成本与效率带来重要突破

近些年随着虚拟化普及度不断提升,越来越多的生产应用都在虚拟化平台(例如 VMware )上部署,甚至包括 Oracle 、 SQL 等数据库应用也开始向虚拟化平台转移。在此基础上,进一步产生了基于超融合虚拟化架构(HCI)以及专门配合虚拟化的持续数据保护(CDP)产品。

超融合架构以融合部署方式在单个节点内提供了虚拟化和分布式块存储,除了继承虚拟化的优势以外,还通过分布式块存储带来如下好处

1.软件定义的架构基于 x86 服务器,配合融合部署模式,大大降低运维难度,同时减少了机架空间;

2.副本和自动恢复技术解决了硬件单点故障问题并进一步降低故障带来的人工运维成本和风险;

3.分布式的架构带来良好的可扩展性和并发性能,用户可真正做到按需投资并获得远高于传统架构的存储性能。

另一方面,新一代基于虚拟化的持续数据保护产品通过 VM 的复制(同步/异步)保证备份虚拟机里的配置和生产集群虚拟机一致,并带来了如下优势

1.自动化回滚;

2.分钟级故障切换;

3.可在几分钟内完成回滚;

4.可进行无中断灾难恢复测试。

以下是 SmartX 超融合和 Zerto CDP 容灾产品的架构图示意

one-disaster preparedness.png

国内某基金公司基于超融合+虚拟机CDP技术建设同城灾备机房实践

一、前期需求要点:

1.生产集群数据存储在一台中端存储,设备使用近 3 年,存储系统存在单点故障,需要解决存储单点故障问题;

2.考虑建设基于数据中心故障级别容灾中心,但预算有限,希望性价比最高的解决方案;

3.由于 IT 部门人员有限,因此希望数据中心的容灾切换足够简单,可以实现一键式切换演练;

4.现阶段 Oracle RAC 还部署在 IBM 小型机上,设备陈旧,考虑设备风险问题及运维复杂问题,希望尽快淘汰 IBM 小机;

5.生产和灾备中心基础架构性能方面须支撑核心数据库系统的日常业务压力,且需要拥有同等业务处理能力;

6.灾备机房计划租用 IDC 机房,空间有限,希望设备越少越好,同时要保证后续扩展便捷。


图片2.png

原生产中心基础架构(变革前)

二、方案建议:

1.结合本次机房改造+灾备中心建设需求,推荐采用两套 SmartX 超融合集群+ CDP 灾备软件 (第三方软件) ,建设数据中心故障级别容灾中心;

2.通过 P2V 、 V2V 方法将小型机上 Oracle 数据库及核心生产应用迁移到超融合平台,淘汰老旧设备,通过超融合冗余技术(副本技术、机架感知技术等)解决集群硬件单点故障;

3.硬件均为标准 x86 服务器及以太网交换机;

4.通过超融合架构, 构建统一的存储池,提升整体系统性能,提升扩展能力,降低难度;

5.通过 CDP 灾备软件实现秒级的 RPO 和分钟级的切换。

三、方案成效

基于上述方案建设思路,方案实现后的架构和效果如下:

图片3.png

1.核心业务全支撑。完成两个数据中心的建设,全部生产系统均迁移至超融合平台,包括 O32 系统、估值系统、TA 系统、直销系统、各类 Oracle 数据库 (投资、TA、估值、风控、数据中心)、行情、报盘等;

2.多套机制保障业务连续性和数据可靠性。核心生产数据由 1 份数据增加到存放 3 份,即生产集群数据 + 灾备集群数据 + 利旧服务器搭建的 Oracle 服务器集群数据。其中,Oracle 服务器集群使用数据库 DG 功能进行复制,生产集群和灾备集群都采用双副本技术进一步保障;

3.统一为 x86 架构软件数据中心。生产集群由小型机 + x86 服务器 + 集中存储变为分布式 x86 服务器加软件构建的双超融合集群,并通过超融合管理界面,轻松管理生产、灾备集群,大幅降低运维工作量;

4.实现持续容灾保护。打通生产集群及灾备集群网络二层架构,通过 CDP 工具实现 RPO 秒级、RTO 分钟级容灾能力,两个集群上虚拟机互相备份,一键切换,极大的降低灾切演练复杂度;

5.首次投入成本大幅节省,未来实现真正的按需投资。两个集群均可水平扩展,按需投资,基础资源投入可满足 1-2 年需求即可。不使用专业硬件,首次采购成本下降明显;

6.机柜空间缩减 83% , IDC 租赁费用大幅降低。 IDC 使用超融合高密一体机,将此前生产基础架构所有硬件设备使用的 12 个机柜缩减到 2 个机柜,降低了 IDC 租赁费用;

图片1.png

 

 

7. 网络架构大幅简化。以太网+ SAN 网络的复杂网络架构转变为简单的以太网络架构;

升级之前


图片4.png

升级之后


图片5.png

8.性能大幅提升。超融合极大提升了存储 IO 性能,通过测试验证投资管理平台订单处理效率提升明显,其中委托下单含成交回报可达 130笔/s ; TA 系统完成跑批执行时间相比此前缩短超过 5 倍。

总结

通过超融合基础架构以及基于虚拟化的 CDP 容灾技术构建的新一代 IT 基础架构,较为快速的完成了数据中心级容灾方案的建设,符合 “稳态+敏态” IT 建设规划,同时简化基础架构运维工作,极大的提升了运维效率,降低了采购成本,使得信息技术部门可将更多的精力投入到公司业务发展层面上,希望以上方案和实践可以为业内带来有价值的参考。