摘要

超融合正以其优异的架构和产品特性,被越来越多的用户用于各类场景,以更优化的总拥有成本,提升IT基础架构综合能力。本文详细介绍了黄河财险评估并引入超融合架构形成新型的容灾加固解决方案的思考过程,以及详细的方案配置架构和最终的应用效果。

一、建设背景

近年来,随着保险行业数字化转型不断深入,业务系统对IT基础架构的要求越来越高,如何以更优的总拥有成本提升IT基础架构的稳定性、性能与扩展性是IT部门面临的重要挑战,通过将传统架构进行分布式和软件定义甚至融合化的转型,为IT部门应对挑战提供了重要的解决方案。

黄河财险在 2017 年筹备时开始关注超融合架构,并对技术架构、方案和产品进行考察,了解到超融合产品能够在保证数据可靠性、架构可用性的前提下减少总体建设投入,同时计算和存储资源可以根据实际需要灵活按需扩展。但充分考虑超融合架构的成熟度和行业成功案例调研情况,结合开业对稳定性以及可靠性的要求,最终决定使用传统架构来满足公司开业的需要。

2019年在筹划核心系统容灾架构建设时,再次对超融合架构的行业内案例展开大量且充分细致的调研工作(与行业内超融合架构产品头部供应商进行方案交流、产品基准测试、以及与第三方 IT 专业社区 twt 交流沟通等)。经过与传统架构的详细对比分析,考虑到传统容灾的高成本投入,以及容灾加固对可用性的要求,最终选择使用超融合架构来支撑核心系统容灾项目需求并实现核心系统加固目标。

二、方案选型

(一)硬件层面

在项目初期,首先考虑方案是成熟稳定的传统存储架构,但经过对 IBM、EMC 等传统存储架构进行深入调研分析,特别是存储间数据同步的容灾架构和金融行业案例分析,传统架构的风险过于集中,对核心设备的处理性能以及稳定性要求较高,从而带来运维人员技术水平要求以及采购升级成本较高的问题,公司尚处于初创阶段,人力较少而且专业程度不高,传统方案不太适应公司现阶段的需要,于是信息团队决定在行业内及市场中尝试寻找更优方案。

在调研中发现超融合建设方案经过多年的升级优化,已经逐渐趋于成熟,拥有很多传统架构所没有的特点(分布式架构、按需横向扩容等),虽然在调研过程中产生了一些疑点和顾虑(使用场景),但通过与相关 IT 厂家的技术架构分析交流,以及同业调研,相关顾虑基本得到解决。

超融合的需求满足情况:

1.超融合架构经过多年的客户实践,现阶段属于成熟技术方案;

2.超融合架构能够满足黄河财险现阶段对系统压力和可用性的各项要求;

3.超融合架构与传统生产架构同时作为生产环境提供生产服务能力,预防传统架构出现计划外宕机或损坏带来的业务可用性和数据可靠性风险,同时整体降低资本投入及维护成本,并对新技术进行方案的可行性验证,作为未来建设思路的参考依据。

作为核心生产架构的加固,超融合架构体现了技术的优越性,以及成本的合理性,最终黄河财险选择了SmartX作为的超融合平台提供商,同时将超融合架构作为未来架构演进的基础。

(二)数据层面

黄河财险目前使用若干套核心数据库系统,运行在传统计算存储架构平台之上,数据备份使用Commvault + 带库方案实现,通过对当前业务系统数据库进行容灾备份并同时集中数据库的业务数据进行实时分析。

考虑到容灾的高成本,以及容灾的实际使用概率,一期计划在同一机房内的不同区域采用异构平台进行新的资源池部署,通过在不同资源池内对业务系统进行本地应用级高可用并行建设,实现同一机房内的系统加固,二期将结合金融云方案,实现数据在混合云架构下的可用性和容灾保障。

三、容灾方案详细设计

超融合架构特点结合数据库复制技术可以为关键业务数据库数据提供一套完整的数据容灾保护解决方案,该方案易维护、总投入成本低(相较与目前传统方案)、架构弹性按需扩展,在异构场景下设计数据容灾架构提供了更多的灵活选择空间。

下图中说明了 Oracle 结合超融合实现异构基础架构数据容灾保护的方案架构。系统上层数据库采用 ADG (Oracle Advance Data Guard 物理复制)和 OGG(Oracle GlodenGate 逻辑复制)组合的方式保障数据高可靠性,底层利用基于 x86 的超融合架构(融合计算、存储、网络)替代传统架构下的服务器及中高端光纤共享存储的垂直架构,使整体架构扁平化,易于日常运维,并有效降低硬件投入成本,根据业务处理要求,按需灵活水平扩展,线性提高架构处理能力和存储容量,为黄河财险提供了一种新型的保障业务连续性的方案思路。
hci-data-base2.png

四、项目实施方案及效果

黄河财险一期超融合环境由若干台 SmartX Halo 一体机组成,并采用SmartX分布式块存储超融合部署模式。每台节点安装虚拟化操作系统,并在每个节点上部署 SmartX SCVM 虚拟机,用于将各节点的本地磁盘组成分布式存储池,节点之间通过万兆网络进行存储数据交换同步。业务系统的数据多副本存储,为上层虚拟化计算提供可靠的大容量分布式存储。

原有生产环境集群和安全管理集群业务系统,通过厂商专业虚拟化迁移工具迁移至新建集群,涉及 100+ 应用实例。系统成功迁移完,需要通过网络切换,将用户对原业务系统的访问迁移到超融合环境下(迁移业务系统配置保持一致),原业务虚拟机下线,对迁移后的业务系统进行业务验证(网络连通性、系统功能、业务功能),建立回退方案机制,当验证不能通过并在短时间内不能定位解决问题,回切原业务系统。项目仅用时2天即完成超融合基础架构部署验证工作。

SmartX 超融合架构图如下:
hci-data-base3.png

本次新建超融合集群主要目的是建立生产应用第二集群以及核心生产备用数据库实例,提供本地机房整体应用的容灾加固。通过在超融合集群新建备份数据库并与主库实时数据同步(ADG),实现在主库故障发生时,切换业务到备库的容灾方案。同时,通过 Oracle GoldenGate(OGG)逻辑同步功能,将若干套生产数据实时业务数据同步到超融合集群,为业务关联数据分析提供支撑。

项目实施后的 Oracle 容灾逻辑拓朴如下:
hci-data-base4.png

五、实施中的难点

(一)存储容量的预估

超融合架构并未采用传统的RAID模式进行数据保护,而是采用分布式存储在不同的物理机之间采用数据副本的机制来满足数据保护的需要,整体存储配置需求将由实际存储容量需求以及数据副本的份数决定,如何把控存储实际需要和数据副本数量之间的关系,如何确定最终单块硬盘容量以及硬盘的数量就成为一个较为重要的问题。

(二)超分能力的预估

为充分利用硬件设备的资源,体现超融合的优越性,就必然会设置存储为精简置备模式,将CPU和内存按照一定比例进行超分设置。比例设置太低会造成硬件资源浪费,设置太高会导致资源争抢降低稳定性的隐患,这个问题一度给团队带来一定的困惑。

六、使用体会

(一)降低 IT 基础架构的日常运维复杂度,让管理员将运维重心更多的放在上层业务应用层面,利用简化的底层计算、存储融合架构,为用户带来简单、高效的底层架构。

(二)降低核心设备的风险集中度以及总体投入成本,通过使用基于普通x86架构虚拟化及分布式存储超融合解决方案,替代传统以高端服务器结合集中存储的底层架构。

(三)缩短基础平台的部署实施周期,有效提升向业务层提供计算、存储资源池的交付速度。

(四)在原有各类型传统设备的利旧方案上仍需进一步的探索实践,充分提高现有资源的利用率。

七、总结

超融合架构具备高可靠、扩展易、成本低等特点,与传统架构协同相互集成,发挥各自的优势和价值,为黄河财险关键业务系统加固提供了一种全新的信息化基础支撑架构。经过近一年的使用,不断摸索厂商推荐最佳实践如何与公司实际系统需求如何进行融合,充分体现快速交付、性能稳定以及简单运维的特性,为黄河财险提供异构灵活的混合架构解决方案,特别是2020年疫情期间快速交付临时开发运维资源,充分保障生产环境的稳定运营以及灾备项目的顺利交付,并为未来的 IT 架构演进提供有力支撑。

本文转载自TWT社区:某保险企业基于超融合构建关键业务系统容灾加固方案中的实践

继续阅读