本文转载至TWT社区:《超融合架构的存储重要性分析与招商证券超融合转型实践》

作者简介:

匡岳林 招商证券信息技术中心高级经理,数据库&存储工程师

长期致力于数据库运维,存储规划等工作,对数据库优化,存储分级管理等有丰富经验,近年来紧跟分布式数据库,分布式存储等新兴技术,对分布式数据库和分布式存储的落地使用有独到的心得。

摘要:

本文通过分析招商证券为何在数字化和智能化时代变革下选择超融合架构、产品选型的评估过程,并分享超融合架构运维的心得体会,如实地讲述了超融合架构在招商证券落地并取得良好的效益及超融合架构中分布式存储模块的关键作用,希望对未来计划落地超融合架构的同行有借鉴的意义。

1. 背景分析

1.1招商证劵原有IT架构概述

招商证券近年来一直非常关注如何通过金融科技提升公司各项业务指标以及整体竞争力,并从开发、运营到决策进行了大量数字化和智能化转型的工作,自然对IT基础架构部门也提出了更高的要求。基础架构的虚拟化、云化已是如火如荼地改造进行中。

IT基础资源存在三种类型的虚拟机:1.VMware、Hyper-V、KVM等虚拟化工具生成的虚拟机;2.超融合生成的虚拟机;3.私有云生成的虚拟机。不同的虚拟机类型,都有其具体的使用场景:

virtual-machine.png

1.2为何评估超融合架构

考虑引入超融合架构主要有两个方面的原因,一方面是超融合我们很早就在关注,通过和主流厂商的交流,看到近几年相关产品从功能到案例已经比较成熟。另一方面,原有的架构尤其在存储方面暴露的问题较多:

1)传统的存储上线比较慢,而且随着数量和品牌越来越多,运维也比较复杂;

2)扩展性不好,不同的存储池之间的资源使用也不均衡,所以每次需求都要做较长远资源规划和相应预算;

3)从采购、使用到后期维保的成本偏高。

在2017年,我司某些业务需要扩容新的IT资源,系统初期设计的方案为10台PC Server+2台磁盘阵列+2台光纤交换机,各专家一致认为其成本较高,项目的成本收益比较低,而且采购上线需要的周期较长,所以借此机会,公司内部系统评估了超融合产品,相对于传统部署架构,超融合具有资源弹性、敏捷部署、资源利用率高、扩展简单方便等优点。据测算,如果部署超融合架构,我们可以在不影响用户使用体验的前提下多部署3-5倍的系统,故最终选择超融合方案。

2. 超融合架构中存储的重要性分析与评估

2.1传统存储架构和超融合存储架构对比

相对于传统的架构,由于超融合的架构包含了存储、虚拟化、网络甚至服务器(一体机模式)等诸多模块,可能会无法找到评估的要点。但通过下图的架构对比可以看到,超融合架构影响最大的还是存储的部分。

hci-vs-vmware-fc-san2.png

相对于传统架构,超融合架构有以下几个大的区别:

  1. 存储从集中的控制器架构演变为分布式架构,相当于每个服务器都成为一个控制器,另外,每个节点都会配置SSD盘作为缓存;
  2. 使用标准和易于维护的x86服务器与万兆以太网交换机替代专有的存储硬件和网络;
  3. 存储不再是由 RAID 构成的不同存储空间,而是一个统一的可弹性扩展的存储池,并且具备更强的扩展能力;
  4. 计算虚拟化和存储部署于同一服务器节点。

以上对比可以看出,存储的架构,存储软硬件构成和存储部署模式都发生巨大的变化,而作为 IT 人员,我们非常清楚,存储在整个系统中的地位,不仅关乎业务连续性和数据可靠性,还直接影响到系统运行效率。另一方面,超融合带来的价值,例如弹性扩展,高并发性能等,其实都是分布式存储带来的。基于此,分布式存储成为对各超融合厂商的产品评估的重点。

2.2超融合架构的分布式块存储评估的要点

对于超融合架构的分布式存储评估,我们主要从架构、实现、功能、实际的POC、案例情况进行了评估。

2.2.1 商业产品还是基于开源

目前国内超融合的玩家比较多,但如果从核心的存储来分的话就比较清晰,基本上国外的Nutanix、VMware等都是清一色的商业产品,国内除了SmartX,其他大部分厂商都是基于Ceph,GlusterFS等开源产品。我们内部的选择是商业的产品,原因如下:一方面是该架构计划在生产系统使用,我们希望原厂有真正的掌控和开发能力,而不是被动跟随开源社区。另一方面,类Ceph架构数据管理机制比较擅长海量的对象,对于IOPS和时延要求较高的场景并不适合,相对于而言,Nutanix、SmartX的架构基于主要是围绕结构化存储专门设计的,相关场景下效率更高。

2.2.2 可靠性验证

虽然目前分布式存储的副本技术已经非常成熟,但我们还是针对具体的产品进行了比较多的可靠性相关验证,包括磁盘、整个节点等层面的故障模拟,另外,针对超融合特殊的部署方式,我们对分布式存储所在的控制器虚拟机的高可用也进行了故障模式,并从虚拟机角度评测业务的恢复时间,相关测试结果都达到了生产系统的要求。

2.2.3 性能

超融合架构下的性能优势主要来自于以下方面:

1.分布式的架构提升聚合性能;

2.每个节点的SSD缓存目前容量已经可以比较大,大部分情况应用都可以获得SSD的访问性能;

3.因为采用了超融合部署的模式,VM可以直接访问本地的存储,减少访问网络的延迟,这是超融合独有的优势,并不是所有的分布式存储都具备这样的特性,例如Ceph采用哈希算法分布数据,没有办法实现数据的精准放置,目前Nutanix和SmartX都支持这样的特性。

通过以上架构和实现的优化,例如SmartX超融合单节点实测4K随机读性能当时已经可以超过4万IOPS,而目前如果将SSD换成NVM E接口,单节点的4K随机读可以超过 9 万IOPS,对于最小系统的三个节点的话,已经可以接近目前中端的全闪的产品,如果扩展的话还可以做到更高。

关于超融合架构的性能,还需要关注的一个点就是分布式存储对资源的消耗是否合理,例如Ceph的资源消耗就比较高,也是不适合超融合架构的一个原因。

2.3 结论

除了以上重点指标,我们还针对可扩展性,运维便利性进行了充分的评估,整体的结论是目前一线的专业超融合产品已经可以满足生产环境的需求,并最终选择了5节点 SmartX超融合用于满足新业务需求,而这一部分,在内部我们也是归属到分布式块存储池的部分。

3. 超融合架构实践效果和心得体会

在引入超融合架构的两年中,SmartX集群已被扩容至8个节点,一直以来都运行稳定。有约半年的时间整个集群存储使用率超过90%,甚至最高峰的时候达到了99%。该集群仍然能够稳定运行,没发生过故障及数据丢失。除了运行稳定的优点外,产品体现了以下几个优势:

1.系统的可扩展性确实非常好,招商证券在两年内先进行了一次 SSD 和硬盘的扩容,然后进行了一次3个节点扩容,并且这次扩容采用了不一样的服务器品牌,CPU、内存、SSD都不一样,但SmartX超融合也可以很好的支持统一管理(这个是很多产品不能支持的);

2.故障窗口小,可靠性高,发生硬盘或者节点故障后,恢复时间仅为传统架构的 30% ;

3.运维更简单,只需运维标准x86 服务器+万兆交换机+SmartX超融合软件,运维压力减少了很多,IT人员可以把精力放在新技术的评估和使用上;

4.相比传统架构,采购成本降低30%,有效降低采购成本。

5.超融合存储使用率必须低于100%-1/N*100% (N是节点数),使用率超过这个阈值,当节点宕机并不可修复的时候,会出现数据丢失。

请扫描下方二维码,关注 SmartX 微信公众号“ SmartX 超融合”,第一时间了解更多超融合选型、评估、迁移等专业知识,以及最新产品动态、行业实施方案与案例。

weixin1.png