摘要:
泰康自 2017 年跟进超融合技术,在其稳定性和可靠性上积累了一些生产运维经验和心得体会。本文通过对超融合技术的调研分析和应用实践梳理, 希望 为保险行业对超融合选型和场景应用提供一些观点和思考。

一、引入超融合技术背景及原因分析

泰康作为业内大型保险集团公司和金融科技领先者,在多年前即开始了新一代 IT 基础架构的评估和探索。其原因一方面来自于集团业务数字化、互联网化转型对 IT 基础架构的敏捷性、易维护性和总拥有成本提出了更高的要求,例如快速增长的互联网资源池,以及大量的开发测试需求;另一方面,传统的 SAN 存储架构也在这样的需求压力下暴露出诸多弊端:

1 )资源交付效率低,周期长。不能满足业务快速敏捷交付的要求;
2 )不能通过横向扩展来增加性能;
3 )各品牌设备差异较大,软硬件紧耦合,管理接口不统一,增加运维难度;
4 )灾备场景下,存储异构难度较大;
5 ) TCO 整体成本较高。

针对公司的需求和新型 IT 技术发展, IT 部门一直在不断探索将小型机、传统存储等基于专用硬件、开放性敏捷性比较差的传统架构向基于 x86 服务器结合虚拟化和分布式存储,甚至容器和云管的新一代软件定义数据中心演进。 2014 年将 Hadoop 平台运行在本地虚拟化平台上, 5 年来该平台运行稳定,并未出现性能相关问题。 2017 年了解到超融合灵活扩展、开箱即用的特点,其优势有效规避了传统 SAN 存储的某些弊端,但是超融合不稳定和不可靠的声音也不绝于耳。但是通过 分析保险应用特点,传统大型应用经历了 U2L 的历程,以及微服务化和容器化,单机的高负载已逐步被弱化,同时搭配其他保障业务连续性的软件(如 Zerto 、 V eeam ),核心生产跑到超融合产品上,已不是多么可怕的一件事情。

传统的保险公司也都在业务形态上悄然发生着转型,泰康已不只是“保险 + 服务 ”的商业模式,正在用“保险 + 科技 ”打造科技型、服务型的新型互联网保险公司,利用科技驱动业务。互联网保险应用已成为新一代年轻人的首选。互联网应用灵活多变的特性,以及保险行业常有的业务节点,如开门红等,对开发和上线的速度,以及资源交付的时效,如何用最短的时间搭建一套可靠稳健的基础平台成为了关键,以及对投入产出比的分析,所以在认真评估后,泰康在 2018 年就开始在互联网核心生产环境中引入超融合架构,目前系统已经经过了两年的稳定运行,其架构优势也在内部得到发挥。

二、超融合在保险生产环境可行性调研和方案选择

因为超融合本身没有延续传统的计算、存储、网络,所以很多 IT 人对这种架构有诸多疑问和顾虑,市场上概念也比较混乱,这里介绍一些我们调研和评估的心得。

1 、分布式存储是超融合架构最核心的价值的体现,也是变化最大的部分,因此也是评估该架构性能和可靠性的关键。

超融合架构的名字可能掩饰了存储的重要性,导致一些用户不知道评估的重点,但通过对比传统架构我们能看出来,如果虚拟化继续使用 VMware ,真正的变化就是用 x86 服务器加分布式存储软件代替了传统的存储,而做 IT 的人都知道存储对于整个 IT 基础架构可靠性和性能的重要性,所以软件定义存储作为超融合架构的最核心的价值体现和关键指标,也应该作为架构评估和产品评估的重点。另外,因为虚拟化本身已经在企业内非常普遍和成熟,所以超融合架构很多优势也都是由分布式存储带来的。

关于底层存储,一些关键指标需要重点关注,
1 ) 路径优化,支持数据访问路径优化
2 ) 数据分层,软件自动将经常访问的热点数据放在 SSD 磁盘上,而将不常用的数据放在 HDD 磁盘上
3 ) 数据快照,存储底层具有数据快照技术(非虚拟化软件的快照),可实现对数据进行快照保护及快速恢复
4 )数据保护,具有完善的硬盘和节点数据保护机制,当发生硬盘乃至节点失效时不会影响数据正常访问。

当然,作为超融合架构,毕竟也不同于服务器和分布式存储分离部署模式,如何将虚拟化和分布式存储统一部署,并且保持高可用,甚至更优的性能和资源消耗,也应该作为这一类架构评估的重点。

2 、超融合 的 架构和特性都已满足生产环境的需求,但 也 要关注具体厂商的实现和成熟度。

业内对于超融合可靠性以及超融合的应用场景也有很多声音,其实从我们内部调研和使用的情况来看这些认知都非常过时了。上一个章节也分析了,超融合的稳定性有很大一部分都来自于分布式存储,可以看一下目前主流超融合产品在分布式存储架构和特性上的可靠性的保障。

1 )最核心的副本技术已经比较成熟,三副本的情况下允许两个节点同时全部坏掉,这个冗余度可以满足生产环境需求,而且比双控制器的冗余度更高;
2 )分布式存储的自动数据恢复比传统存储方式更高效智能,能减少故障出现后的运维压力;
3 )磁盘数据校验,拓扑感知,甚至双活等企业级存储功能一线超融合厂商都已经具备,但目前采用超融合内置双活的案例还比较少,相对而言,配合第三方成熟的虚拟化灾备产品例如 Veeam 、 Zerto 等方案的案例普及度更高;
4 )作为超融合的架构,除了存储本身的高可用性,还有存储和虚拟化整合的部分的高可用性也需要关注,目前采用的分布式存储控制虚拟机的方式都有对应的高可用机制,保证单个存储控制虚拟机出现问题的情况下,本机上的虚拟机的 IO 访问路径可以切换到其他节点。

在虚拟机化软件部分,大部分超融合厂商都在支持 VMware 虚拟化的同时提供了内置的基于 KVM 的免费虚拟化平台,目前在主要功能上都能满足需求,不过 VMware 的内存超分能力目前确实比 KVM 的内存管理技术要好很多,内置的虚拟化软件虽然大部分提供了 VMware 向其平台一键迁移的功能,但是用户自身的习惯,以及对现有平台的综合考虑,大多数用户还是用脚投票给了 VMware 。但考虑未来的成本降低和新技术的引入,以及国产化的需求,内置的虚拟化也可以重点评估和储备。

3、软硬件方案的选择和实施等也有关乎可靠性和性能

虽然超融合对于通用 x86 服务器都可以满足,甚至可以利旧已有服务器,但是要想有一个稳定的环境,首先,底层硬件的最好要统一一致,其次,超融合架构还有对 SSD 、万兆等要求,并不是随便几台 x86 服务器 就能搭建一个超融合集群,在方案选择和配置 时 也需要额外关注。

三、超融合在生产环境中的应用实践

经过评估,我 们 几年前已开始逐步引入超融合产品,并将其首先应用于互联网应用的核心生产环境中,并且同时也在开发测试环境、桌面虚拟化环境中进行部署。以下是一些我们应用的心得体会:

1 )目前一线专业的超融合产品的稳定性完全可以满足保险业务生产环境需求,例如在互联网应用中已部署了 16 节点国产超融合产品,稳定运行两年,实现资源快速搭建和交付,满足业务系统对资源池的需求;其中,有 8 个节点我们还使用了其内置的基于 KVM 的虚拟化,目前也运行情况良好。
2 )另外我们在开发测试也应用了大量的超融合节点。有些客户认为开发测试平台对性能和可靠性要求不高,可以用来尝试超融合架构,其实我们内部的开发测试环境运行压力非常大,每个物理节点有几十个虚拟机运行,负载远高于生产环境,而且开发测试环境经常会涉及配置调整、变更,相对生产环境来说更为复杂。作为一名运维人员,谁敢说开发测试环境不是生产环境,测试环境发生任何故障,同样会受到领导的“亲切关怀”和灵魂拷问“影响范围是什么”“什么时间恢复”,运维压力同样亚历山大。
3 )超融合整体的优势在各个环境中都体现的比较充分,包括:
A. 降低 IT 架构整体复杂度;
B. 架构横向的弹性扩展伸缩能力和快速交付;
C. 各超融合厂家都支持通用标准 x 86 服务器硬件,综合成本比传统架构要低;
D. 运维时面向一家超融合服务商,不用多家扯皮,运维简单;
E. 软件升级管理简单。

最后,对于厂商的选择方面, Nutanix 作为标杆产品,稳定性和可靠性等方面经常让大家忘记它的存在,当然,价格也比较奢侈。国内超融合厂商近年也如雨后春笋般涌现出来,整体性价比较高,本地服务也很及时,例如 SmartX 作为国产头部超融合产品供应商商也是业内使用较广的厂商之一。

四、超融合的未来和其他方面的思考

超融合和私有云之间的关系:超融合解决的是基础架构资源层面的整合问题,云计算是解决用户交付的问题,目前各大公司都在自研云管平台,云管平台搭配超融合,超融合架构为云计算提供基础设施服务在我们看来是未来企业搭建私有云的不错选择。

从职业发展角度,传统的存储管理员也应该考虑往云计算方向发展了,否则已经跟不上时代的发展潮流,就像当年的去 IOE 浪潮中,小机管理员也在探索新的技术方向, x 86 / 虚拟化 / 云计算等都是不错的方向, DBA 也在学习 MySQL 等开源数据库。

如今产品众多,每家的技术实现细节不一样,任何产品都有其局限性,如何把资源用到正确的场景,把控风险,是考验运维人员的经验和能力。

请扫描下方二维码,关注 SmartX 微信公众号“ SmartX 超融合”,获取最新新闻和洞察。

weixin1.png