文章导读

SmartX 某保险行业客户基于超融合构建了私有云 IaaS 平台,在近四年的时间中分阶段实现基础架构云化转型,陆续将应用场景从外围生产拓展到核心应用,进而扩展到 MySQL 数据库、Oracle 数据库。

(全文约四千字,阅读大概 7 分钟)

作者:某人寿信息技术部 存储工程师刘健

自 2002 年成立以来, 我司目前已在全国开设了 23 家省级分公司,业务范围覆盖全国 80% 的人口区域。随着业务扩张与互联网时代的到来,支撑业务发展的 IT 基础架构在稳定可靠的同时,也需要不断适应业务敏捷性的需求。

在此背景下, 我司自 2018 年起开始探索基于超融合的私有云 IaaS 资源池,在部署了开发测试、生产业务之后,在业内率先将重要生产业务的 Oracle 数据库(含 RAC)迁移至该平台,实现了一套架构对敏态、稳态业务的支撑。

建设背景

我司原有 IT 基础架构以物理服务器加中高端存储架为主,面临架构复杂、项目建设成本高、运行维护复杂、系统故障率高、系统扩展性不足等诸多问题。通过对同行业机构 IT 基础架构情况的多方面了解,可以看到越来越多的保险公司选择进行 IT 基础架构的分布式、云化转型,进一步适应当前的市场环境和需求,提供更加弹性、敏捷且强健的基础架构;而传统集中式架构的使用空间和场景正在逐步减少。

在此背景下,基于我司的业务发展需要和行业技术发展趋势,我们明确了 IT 基础架构的转型方向:

  • 软件定义:打破传统 IT 基础架构构建方式,即服务器+存储+网络的三层集中式构建方式,IT 基础架构以软件定义为中心,摆脱硬件限制。
  • 弹性敏捷:性能和容量可按需投资、灵活扩展,资源可根据业务需求快速上线。
  • 稳定可控:新型架构的性能与稳定性需要能够支撑关键业务系统(如数据库应用),且厂商应是掌握核心技术的中国厂商,为后期的国产化替代打下基础。
  • 轻量开放:小规模起步,降低运维管理的复杂性;同时,在硬件、虚拟化、第三方管理平台上有更多选择。

根据以上原则,结合 IT 技术发展趋势与行业应用情况,我们最终确认基于超融合架构建设企业级私有云 IaaS 平台的转型思路。

评估选型

作为一种基于软件定义且融合部署的创新型 IT 架构, 我们关注的超融合架构的主要特点包括 :

  • 通过软件定义的方式,围绕 x86 标准服务器构建, 同时分布式技术具备架构高性能、易扩展、易维护的特点 ;
  • 内嵌了计算虚拟化(基于KVM), 部分厂商同时也可以支持其它虚拟化产品(VMware、XenServer),具备良好的互集成性 ;
  • 将分布式存储和计算虚拟化整合到同一台物理服务器,数据 IO 路径实现最大优化,提供更好的性能表现 ;
  • 超融合集群 3 节点起步,节点扩容可以线性增加集群整体性能输出 ;
  • 基于标准硬件,相较专有设备,降低运维复杂度 。

在充分的前期技术调研后,我们认为超融合架构满足基础架构转型的目标要求,同时,能够与集团云管平台对接,实现资源流程自动化生命周期管理,提高运维效率

同时,我们发现市场上的超融合产品非常多,既有传统老牌硬件厂商、云服务提供厂商、国际知名厂商,也同时不乏一些专注于超融合领域的专业厂商。

对于一款超融合产品来讲,计算虚拟化层的变化相对较少,主流的计算虚拟化技术就是 VMware、KVM、Xen,而除了 VMware 提供的虚拟化产品之外,其他厂商提供的计算虚拟化产品基本都是使用 KVM 进行商业化开发。

但是,对于超融合的核心—存储虚拟化(分布式块存储)层,各家厂商的差别就比较明显了。经过研究,我们发现市场上超融合厂商的分布式存储模块可以分为两个发展方向,如下:

  • 自主研发类(如 VMware、Nutanix 、 SmartX )
  • 基于 Ceph、Gluster 等开源产品进行二次封装类

基于开源产品进行二次开发的产品的后续迭代能力不足,不掌握核心技术,面对中等以上规模公司复杂的架构设计和软硬件兼容性需求,应用系统特异化存储读写需求等,只能采取规避方案和替代方案,无法从技术底层解决适配性问题 。因此,拥有自主研发能力、核心代码自主可控的产品和技术是我们所需要的。

另外,对于我司来讲,还有两个重要的考量指标,第一是原厂售后服务质量,即是否可以提供原厂的售后服务支持?核心问题是否可以得到研发级别的快速响应?第二是是否可以支持多种虚拟化平台,因为在后续的持续转型过程中,虚拟化平台转型的并不是一蹴而就的,在不同阶段仍然会保留一些系统运行在 VMware 虚拟化平台上。

综合以上考虑及实际 POC 情况 (通过综合对比主流的 Nutanix 、 VMware 、 SmartX 、华为的超融合产品) ,我们在基于技术自主研发深度 、性能稳定可靠性、各虚拟化平台兼容性、硬件选型配置灵活性、软件规划配置简洁性、软件系统管理易用性、以及成本等多维度对比优势。最终选定基于 SmartX 超融合构建私有云 IaaS 平台,分阶段实现基础架构云化转型。

应用场景演进

具体到技术落地的路 地,本着大胆设想小心求证的思路 , 我们 2018 年开发测试环境部署若干节点并优先使用超融合内置的 KVM 平台,开发测试环境包含了我司所有的业务的样本环境,包括各种操作系统版本, MySQL 、 Oracle 、 SQL Server 等数据库平台,在使用一年后充分验证了从 VMware 到 KVM 数据迁移的可行性和稳定性,验证产品自身的可靠性、性能等技术指标,与厂商现场服务人员、二线技术人员多次充分的技术交流,确认产品、服务、价格以及公司的未来发展,完全满足在我公司生产业务中大规模部署推广的要求。从 2019 年到 2021 年经过 3 年持续推进使用多场景应用,从外围生产应用、核心应用的路线。我司在此基础之上,在行业内率先将应用场景扩展到 MySQL 数据库、Oracle 数据库。应用演进过程如下:

一期:构建开发测试集群(混闪架构)

二期:构建生产系统集群-1(混闪架构)

三期:扩容生产系统集群-1(混闪架构),构建生产系统集群-2(混闪架构)

四期:扩容生产系统集群-2(混闪架构),同时构建了数据库资源池集群支撑 MySQL DB(全闪架构)

五期:构建数据库资源池集群支撑 Oracle DB 包含 RAC(全闪架构)

截止目前,我司超融合系统平台共搭建 5 套超融合集群,运行上千台虚拟机服务器 。

从支撑开发测试到支撑生产系统演进

在 2018 年第一次使用 SmartX 超融合集群承载开发测试环境后,集群一直稳定运行至今,平均每个节点承载开发测试虚机数量可达 60+,实现了建设之初定下的对开发测试环境进行整合重建的目的。

除了运行稳定之外,通过 2018 年针对“团险销管”系统的容器化改造契机,我们发现,同样的系统运行在超融合搭建的测试环境中可以获得数十倍于传统架构的数据库查询性能,进而对实际的系统使用者来讲,可以明显提升使用感受。通过与我司 DBA、SmartX 技术专家的共同研究探讨发现,超融合架构的 IO 本地化以及使用 SSD 作为缓存层等技术特性对于数据库查询类应用增益明显。这个发现进一步增强了我们将超融合架构应用于生产系统的信心。

不过,对于将一项新的基础架构推广到生产系统,我们还是采取了稳健的方式。首先将生产应用进行拆分,将一部分虚机迁移到超融合搭建的生产系统集群-1,另外一部分仍然保留在传统架构之上,前端通过负载均衡进行分流。这样,既能进一步检验超融合架构运行生产应用的实际效果,又能保证在极端情况下生产系统的稳定可靠。

保险私有云1.jpg

在经过半年多的实际验证后,我们对于超融合架构的信心进一步增强,团队成员对于新架构的熟悉度也进一步增强,于是在 2019 年中,我们着手部署第二个生产集群,开始逐步接替原有的传统架构,将生产系统在两个超融合集群间进行负责均衡,整体架构依然是稳定可靠的

保险私有云2.jpg

截止目前,我们已经将几乎全部的生产系统(应用)部署在两套超融合集群上,包括个险核心、团险核心、个险个则引擎、团险规则引擎等。

从支撑生产系统到支撑核心业务数据库演进

通过近 3 年的实际使用感受以及在“团险销管”系统改造过程中的测试表现,我们对于超融合平台支撑数据库是很有信心的,尤其是 MySQL。但是公司内部仍然有很多重要系统、核心系统使用 Oracle 数据库,对于超融合平台支撑 Oracle,我们秉承了一贯的谨慎处理方式,一是沿用当前的 VMware 虚拟化平台,二是进行了非常充分的性能及稳定性测试。

我们使用的测试工具是Swingbench。在长时间(8小时)压力测试中,无论是单库还是 RAC,性能、延时均可保持稳定,通过 SmartX 自带的监控平台观察,在整个压测过程中,CPU、内存负载平稳,存储性能输入平稳,符合预期。

在性能测试环节,分别测试 200-500 并发用户情况下的性能表现,无论单库还是 RAC,TPS 均可保持在 19000+~22000+ 范围,延时会随着并发用户数增加略有增长,整体性能表现符合预期。

基于以上的测试结果,我们也有理由相信,超融合平台可以支撑 Oracle 数据库的运行。目前拥有两套数据专属集群如下:

  • 数据库资源池集群支撑 MySQL DB(全闪架构)。
  • 数据库资源池集群支撑 Oracle DB 包含 RAC(全闪架构)。

我司的相关的数据库迁移过程还在持续进行中,未来可以分享更多的使用经验和感受。

建设收益

基于超融合架构的企业级私有云 IaaS 平台通过整合计算、存储、网络资源,有效降低了我司信息系统基础架构建设总体成本与系统故障率,并进一步提高了系统敏捷性和可靠性。在三余年的持续转型下, 我们总结了超融合架构带来的如下收益 :

第一,从总体拥有成本来看,基于超融合的分布式架构具有显著的成本优势。该架构对原有的 VMware 虚拟化平台进行了优化整合替代,使用以太网交换机替换了 FC 交换机,一台服务器节点 既提供存储能力,也同时提供计算能力,不仅减少空间占用超过 50%,同时提升服务能源效率超过 30%,实现节能降碳的目标

第二,从运维人力成本来看,该项目使用统一的平台进行管理,操作简单,售后保障及时。我司仅需要配置 1-2 名运维人员即可完成日常运维工作。可以将更多的人力投入到其他创新型项目中去。

第三,该架构具备更好的弹性和敏捷性,实现按需投资和资源按需快速上线,从而更好提升机构对客户需求的响应速度,进而提升用户满意度

第四,使用国产自主研发的分布式存储方案进行企业私有云 IaaS 资源池搭建,将为我司的国产化替代之路打下坚实的基础。

第五,相比于服务器+集中存储的传统架构,超融合架构的 IO 本地化、SSD 缓存等技术特性带了更多的性能提升;全分布式的部署模式,使得集群 IO 性能再增加节点后可以获得线性增长

第六,解决了长期困扰我公司基础架构面对的存储高可用难题,传统存储高可用保护建设需要大量的成本支出,需要大量的专业技术人员维护数据同步保护系统,以及定期验证演练等。使用超融合架构多集群分布式管理,只需要多部署 1-2 个节点即能解决存储高可用难题

第七,管理便捷,与 VMware 平台面向资源管理开发不同, SmartX 的虚拟化平台在兼顾资源管理的同时,大幅增加面向用户的易用性设计, 使用超融合系统的统一管理平台,实现多套集群统一监控、统一调度资源,在线滚动升级、硬件即插即用等,秒级快照创建,秒级数据恢复极大提升数据保护能力,提高系统整体可用性,释放人力成本。

总结

超融合架构同时实现了企业基础设施的分布式云化转型和虚拟化以及存储的国产化替代,并且基于稳定的核心和全栈性能优化开创性的将数据库(包括 MySQL 、Oracle)迁移到基于超融合构建的云化资源池运行。通过实践探索,该项目也验证了基于超融合的轻量分布式云化 IT 基础设施具备支撑核心数据库的能力,为企业更加全面的分布式云化转型提供了重要参考价值。超融合系统作为下一代基础架构的基石技术,顺应技术更敏捷、更高效的发展趋势,未来 3-5 年,配合业务系统容器化改造转型,完成容器云平台建设,以及分布式数据库技术日趋成熟稳定,我公司所有核心业务将全部过渡到超融合平台。

点击下载金融行业用户超融合转型实战合集。该合集收集了 TWT 等技术社区中,来自银行、保险、证券等金融行业客户技术专家亲自撰写的超融合转型实战文章。内容涵盖不同场景中评估超融合技术路线、部署产品、评估超融厂商等多个方面。