作者

申万宏源证券信息技术保障总部副总经理 李朝晖

申万宏源证券基础平台运维主管 杨爽

在全面数字化转型的背景下,申万宏源证券在金融科技层面重点推动云计算、大数据、人工智能、移动互联网等创新技术在客户服务、证券投资、量化交易、资管理财、投资顾问、风险管理等领域的创新与应用;在 IT 基础架构层面基于自动化、自服务、可视化、弹性敏捷、服务可计量等转型指导原则,以及在产品选型上未来将面临的信创转型政策监管需求,依托各生产中心、各区域中心,结合运营商 IDC、公有云、私有云资源,构建集中与分布式协调发展、物理资源与虚拟资源相结合的云计算平台。

本文将以申万宏源证券某生产中心的多个超融合项目为例,分享超融合技术在支撑业务系统方面的经验,总结分析超融合的优势,探讨未来业务创新和 IT 发展中广泛使用超融合技术的可行性。具体内容包括:

  • 生产中心从虚拟化到超融合的转型历程
  • 超融合转型落地的演进过程
  • 超融合架构适用性总结和应用场景展望

一、生产中心从虚拟化到超融合的转型历程

1.虚拟化历程及面临的问题

从 2014 年开始,该生产中心已经通过“服务器+双活存储”的方式构建虚拟化资源池,承担了 90% 以上的生产业务系统,承载了大量虚拟机。2021 年,该平台已运行超过 6 年,从硬件到软件的各方面都已经不再适应公司业务发展的要求。

在存储方面,平台的共享存储为 2 套集中存储,并采用 2 套存储双活设备,面临的问题有:设备使用年限较长,故障率及维护成本逐渐升高;随着业务不断发展,各系统对存储资源需求持续增加,需要定期扩容,扩容采购周期长、实施时间长、费用成本也比较高;只能通过购买硬盘或盘柜对集中存储进行扩容,但存储整体性能取决于存储控制器的处理能力,单纯增加存储后端设备并不能促使存储性能提升。

在服务器方面,平台中的服务器已经使用多年,存在如下问题:服务器使用年限较长,故障率不断提升,影响平台稳定性;服务器购买批次不一致,机器型号不一致,不支持在既有集群内部进行扩充,不利于统一管理;初期购买的服务器计算资源配置偏低,随着虚拟机数量的增加,资源使用率持续增加。如果继续在这批服务器内部通过增加配件的方式进行扩容,则存在老型号配件采购难、新型号配件从规格到性价比都不高的问题。

在网络方面,与这批服务器同时上线的物理网络设备,承载着虚拟化平台的管理和业务流量。面临的问题是:全部为千兆网络,随着业务的不断发展,IT 技术不断革新,很难适应今后五年业务系统对网络带宽吞吐的需要;交换机端口全部为电口,新增服务器或其他设备时线缆部署量大、部署时间长;虚拟化平台中网络交换机端口使用率接近饱和;设备老化,故障率随之提升,维护成本升高。

在软件方面,虚拟化平台的版本为 vSphere 6.0,该版本官方即将不再进行版本及补丁更新,如发生软件故障,VMware 原厂也将不再提供现场服务支持。

在 IT 管理方面,根据公司 IT 规划,今后新网络全部为万兆网,现有千兆网络架构不能满足今后 IT 建设的需要;新网络启用全新的 IP 规划,不再复用现有生产网段;根据公司《电脑管理办法》,对于核心生产的硬件设备有使用年限的要求;日常运维管理、补丁、升级、扩容等工作需要考虑到服务器、存储、虚拟化等不同的硬件和虚拟化软件之间的兼容性和协调,操作复杂,割接时间长。

2.技术路线选择

针对生产中心面临的以上问题、技术发展需求以及业务特点,申万宏源证券信息技术保障总部组织人员广泛调研,将新型资源池构建技术——超融合纳入了考察范围。

在与市场主流的超融合厂商进行了深入的技术交流,并进行了一系列验证测试后,对于超融合技术的特点有了深入的了解:

  • 架构层次精简,与计算-存储分离架构相比,层次更少、费效比更高,特别体现在 IDC 机房环境部署时,更少的硬件就意味着更少的机房费用,也节省电力的消耗。
  • 网络简单,超融合服务器之间通过万兆以太网互联,无需专用的 SAN 网络设备。
  • 起步规模小,扩展能力强,三个节点可以构建最小规模的集群,根据需求可以随需通过扩展节点来增加容量和性能。
  • 易于使用和维护,超融合的管理系统可以同时管理虚拟机和存储资源,界面统一,使用和维护都很方便。

在综合考察了市场上超融合产品在产品成熟度、行业部署规模、软件稳定性、功能完整性、技术支持能力、商业口碑等方面的情况后,信息技术保障总部选取了 SmartX(国产,在国内金融行业超融合软件市场份额排名靠前)、DELL VxRail 和 Nutanix(路坦力)三款超融合产品进行对比。他们各有优势和不足,最终确定方案主要考虑了以下关键因素:

  • SmartX 支持以纯软件方式交付,不绑定任何硬件品牌和型号,可以充分利用现有服务器资源,仅需增购部分硬盘和其他部件,性价比高。
  • DELL VxRail 对 VMware 兼容性好,但只能以一体机形式交付。
  • Nutanix(路坦力)近年来刚转型支持以软件方式,对硬件兼容性要求较高。

除了以上关键因素外,SmartX 是自主研发的超融合软件系统,同时具备以下优势:

  • 国内金融行业市场占有率靠前的超融合软件,案例丰富。
  • 国内企业,本地研发,符合自主可控要求,贴近用户,对产品需求的响应速度快。
  • 支持异构服务器集群(同一 CPU 体系内不同 CPU 型号),便于今后对集群的按需扩容。
  • 完善的本地化交付和售后支持体系。

因此,我们最终选择 SmartX 和 DELL VxRail,并承载部分业务系统进行小范围试用。

二、转型落地的逐步演进过程

1.通过资管业务集群的建设初步体会超融合架构优势

基于这些调研和测试结果,我们部署了两个超融合集群,分别使用 SmartX 软件(浪潮服务器硬件)和 DELL(VxRail软硬件一体机)的超融合产品承载资管业务。“资产管理”是部门级应用,仅仅需要少量服务器节点,但同时要求高可靠、高可用、高安全,也希望与其他应用系统之间保持相对隔离。利用超融合灵活、开放的优势,我们以最小成本为资管业务搭建了符合要求的专属硬件集群,满足了业务当时所需的计算和存储资源。这种模式得到了资管业务部门的高度认可,他们的业务需求得到了满足,同时,一次硬件投入富余资源可以满足其他项目的运行,单位成本大幅降低。

纯软件交付的 SmartX 超融合系统支持软硬件开放兼容、支持异构,还可以在同一集群中使用不同硬件,比如不同代次、不同主频的 CPU。同时,超融合集群可以从 3 个节点起步,按需扩展,并最终扩展至几十、上百个节点。此外,给超融合集群添加节点是一个完全动态的过程,无需停机,并可在线完成,这样我们就无需为了预留容量而一次性大规模采购,完全可以随着业务的增长按需添加新节点,以达到扩充计算及存储资源的目的。今后可以考虑将这种模式复制到类似业务系统,比如托管、FICC。

在资管业务超融合集群的日常使用和运维过程中,我们进一步认识并总结了基于分布式技术和软件定义存储的超融合技术的优点:

  • 成本节约,超融合架构与传统存储的三层架构相比,硬件数量减少,所需机房空间、线缆、电力消耗、维护工作量也相应减少,因此超融合方案的总拥有成本(TCO)具有很大优势。
  • 快速交付,从上机架开始几十分钟内即可交付使用,部署快速。
  • 稳定性和高性能,超融合软件将虚拟化技术和分布式存储进行深度融合优化,运行更稳定,虚拟机存储性能更好。
  • 简化管理,单一界面,统一管理计算、存储等资源,监控、变更、升级等运维操作简单化。
  • 弹性扩展,分布式架构,线性扩展,无单点故障。
  • 兼容性,超融合软件已经进行了硬件兼容性测试,并提供可以兼容的硬件列表,无需单独考虑服务器、虚拟化、存储相关的各种软硬件兼容性问题。
  • 支持界面清晰,单一厂商保障计算虚拟化和存储虚拟化的支持,不存在互相推诿扯皮的情况。

2.超融合架构对信创转型的优势体验

超融合的兼容性、开放性也体现在对信创产品的支持上。自主研发的 SmartX 超融合方案可以支持信创体系的硬件产品。

在 SmartX 方案中,无论是信创 CPU、服务器还是操作系统,都可以纳入超融合体系。考虑到信创软硬件在单点性能和可靠性方面仍在不断改善,版本也在不断迭代,超融合技术支持的异构集群模式正是最佳使用方式。现在我们的信创服务器(海光、鲲鹏)已经通过 SmartX 超融合软件分别组成了集群,用于信创相关的测试。规划中的另一个信创资源池,也将采用超融合技术建设,并与其他集群实现集中纳管,以达成资源池统一管理的目标。

3.通过构建核心灾备系统获得超融合架构全面价值

2021 年,我们决定建设异地灾备系统。在筹备期,我们结合灾备项目的特点,明确提出两个要求:必须能充分利用原有服务器,以降低建设成本;灾备集群性能必须达到主生产交易环境的 50% 以上。

(1)技术路线和产品选择

在选择灾备系统的技术路线时,我们重点关注以下几点:

  • 符合公司整体 IT 战略和基础架构转型路线。
  • 灾备系统必须配置足够的资源来满足主生产系统的容灾要求,但需要充分利用既有服务器,避免硬件的重复投入。
  • 部署运维简单,降低当前运维团队的运维压力和投入。
  • 扩展能力强,未来可根据需求进行按需投资和在线扩容,实现系统容量和性能的同步增长。

基于我们在超融合技术和方案的使用经验,SmartX 超融合成为异地灾备系统建设的主要候选方案。我们设想通过在既有服务器中增加硬盘和内存来满足灾备系统的资源需求,而不必重新购置服务器和集中式存储设备。

(2)项目完成效果

在这个用于异地灾备的集群中,通过利用既有服务器,仅增加了硬盘和少量其他部件,就完成了灾备集群的建设,集群的网络采用万兆以太网,没有新购专用的 SAN 存储交换机。最终的交易系统性能测试结果显示,这个超融合集群上的异地灾备系统达到了主生产环境的 58%。集群和承载业务情况如图 1 所示。

申万宏源1.jpg

图 1 集群和承载业务情况

在灾备项目的测试过程中,我们发现集群中不同应用对 CPU 的要求不同:比如 KCBP 在具有更高主频 CPU 的服务器可以表现出更高性能。超融合技术支持异构集群,同一集群中可以使用不同主频的  CPU、不同 I/O 性能的硬盘等。同时我们也发现,如果在超融合集群上需要支持多种应用类型,或者需要更高的性能,完全可以通过“小步快跑”的模式分批次扩容,满足不同的需要,达到硬件投入规模与性能的最佳匹配。这种模式不仅大大缩短了如硬件采购周期、新硬件上线、集群扩容步骤和业务迁移等工作的周期,同时在生产环境方面也能够实现“按需购买”,降低硬件设施上的一次性投入,大幅减少资源的预留和闲置。

上述灾备系统建好后,不仅作为静止的备份系统,也陆续增加了在超融合集群上承载的业务种类,现在还同时承担着日常查询任务和生产系统通关之前的测试工作,集群的资源被充分利用起来了。这也很好地体现了超融合集群可以被不同业务灵活复用的特点。

三、超融合架构适用性总结和应用场景展望

申万宏源证券将自身和同行业真实的系统建设实践经验,与自身的业务发展战略、科技发展战略相结合,走出了一条独具特色的发展之路。在实践过程中,我们总结了以下几点经验供同业参考。

1.业务创新需要基础架构层提供强力支撑

申万宏源证券科技战略将重点推动云计算、大数据、人工智能、移动互联网等创新技术在客户服务、证券投资、量化交易、资管理财、投资顾问、风险管理等领域的创新与应用,这将引入更多新业务在IT基础设施上落地,既包括为新业务提供支持的应用,也包括对这些新应用的开发、部署和运维支撑。要考虑如何在规划中的区域中心、运营商 IDC 和公有云上实现新的业务和应用落地,如何将业务访问合理分布到这些平台上,并能够统一管理。

既然是创新业务,对基础架构的需求就主要存在两个不确定性:一是资源类型和数量不确定,二是使用时间和存续时间不确定。因此,按照成熟业务的模式,预估应用所需资源并为每一种创新业务采用专用基础设施的模式,就存在着一定的盲目性和风险,如资源快速耗尽或资源闲置浪费等。

以“可复制、可推广”原则搭建混合云平台,是一种随应用需求而不断扩容的技术思路,这样的平台将是未来承载生产应用的主体。

2.业务创新战略与超融合架构的结合展望

我们的生产实践表明,超融合的特点与我们“可复制、可推广的混合云”这一技术要求匹配度很高,在很多业务系统中都适用。以下是一些典型场景设想:

(1)边缘计算集群

边缘计算的出发点是利用下沉节点的计算能力,将应用扩展到贴近客户端的位置,通过“分布式”提高整体的处理能力和容灾能力。

申万宏源证券的科技战略是建设区域中心,同时缩减分支机构的本地信息化部署。在对现有分支机构的信息化设备进行统一清理后,可以考虑利用这些分支机构站点进行适度规模的“边缘计算”试点。一是探索这种新型的、可规模复制的、标准化轻量的基础设施构建、管理和使用方法;二是探索应用的下沉与集中管理之间的平衡;三是探索金融业务在分布式计算模式下的各种创新可能性。

超融合规模从 3 节点起步,架构灵活、扩缩容便利、支持基于 API 接口集中管理,这些特点决定了这是最适合边缘计算的基础架构模式。

(2)高性能应用集群

应用技术日新月异,对算力和存储 I/O 能力的需求也水涨船高,永无止境。除了在生产系统中规模部署的那些成熟稳定的应用系统,我们也要为人工智能、机器学习、大数据、数据仓库、数据挖掘、区块链等新技术提供具有不同计算能力、不同 I/O 能力和不同容量的基础设施。特别是基于高性能计算的新应用,其对 CPU、内存、存储和网络性能的要求往往要比通用基础设施高出 1~2 个数量级。

超融合技术使我们在选择服务器组件时具有更高灵活性,这也是我们在灾备项目中考察超融合能力时的一个重要关注点。基于持久化内存的加速技术、高性能 SSD、25G/100G 速率的 RDMA 网络,这些组件可以被选配、增加到超融合集群,满足应用创新对算力和网络性能的要求。

将不同性能的超融合集群进行云平台级别的统一纳管,对于公司业务创新中可能出现的交易量爆发也具备实际意义——高并发量的应用可以平滑扩展、迁移到具备高性能组件的集群上,业务对性能的要求可以得到即时响应。

(3)云原生和容器平台

随着业务对应用开发、部署敏捷性要求的提高,容器越来越多地被作为应用的载体采用,有时候也被认为是“虚拟机的轻量级版本”。以容器、Kubernetes 为基础的新应用平台日益成为主流。我们虽然还没有全面转到这种平台,但应对此保持高度关注和实时跟踪,一旦有创新业务需要基于容器进行开发和部署,能否为容器、Kubernetes 快速提供符合要求的资源池就成为新业务能否按期就绪的关键。结合我们已经积累的平台管理和运维经验,超融合由于其弹性容量、高冗余度、高可靠性和存算网一体化管理的特点,将成为一个理想的生产级容器应用承载平台。

3.“可复制混合云”战略目标的战术解读

我们的科技战略目标是通过建设“可复制混合云”,为金融业务创新提供坚实的支撑。

这里提到的“可复制”,是要求在不同位置、基于不同硬件可以建设不同规模的资源池,支持同样的应用软件在不同云上的灵活调度(扩容、缩容、分布和迁移),打造支持“应用可复制和可迁移”的混合云。

“可复制”要求混合云基础架构要能够实现以下功能:

  • 纳管不同硬件的效果一致(对新旧硬件型号)
  • 构建和维护各个资源池的方法一致
  • 集群规模灵活可控
  • 应用可跨集群、跨硬件平滑迁移而无需重构
  • 集中、统一、丰富的云平台管理功能

以上“可复制”的特性将大大缩短应用跨云部署和迁移过程中的业务中断时间,降低应用重构的成本,减少运维管理不同架构所需的人员。这些特性在灾备系统的建设过程中得到了很好的验证。

要建设“可复制混合云”,市场上有两种可行的技术路线:一是从传统的数据中心架构升级为私有云,再扩展到多个位置、多个云,成为“混合云”;二是将公有云技术和产品复制到私有云内部,打造“缩小版”公有云,并与公有云上的部分形成“混合云”。这两种技术路线的特点和适用场景不同。

目前我们在各生产中心的技术架构更偏向于传统数据中心,一部分近期建设的系统(以灾备系统、资管和测试集群为代表)具有了“私有云资源池”的特征。我们的建设和运维经验也主要从私有云的部署实践中积累得来。

采用公有云现成的技术栈,将其缩小化、私有化,是我们“可复制混合云”战略中正在考虑的另一种技术路线。因此,我们也对这个技术路线进行了调研和学习,并将其主要优势总结如下:

(1)技术栈全面

各大公有云的技术来源于丰富的实践积累,在建设计算、存储、网络全栈资源池过程中,更加能体现整体性的优势,提高 Day 0(规划)和 Day 1(建设)阶段的效率。公有云技术不仅支持 IaaS 层资源池的搭建,还可以提供资源池对外服务所需的安全、IP 地址管理和翻译、负载均衡等一系列功能;用户对资源使用权限的统一管理和统计。这一整套方法可以在不同中心的建设中重复使用,搭建出的多个资源池也可以实现统一管理。

(2)成熟的应用平台

在业务创新和应用开发方面,公有云可以提供多种 PaaS 和 SaaS 服务,面向公众的应用可以直接调用这些服务,加速业务的落地。这些服务的部署、调优和运维工作,也依托于公有云成熟的方法,为我们节省了时间。对于我们的私有应用,则可能需要根据公有云的平台条件如数据库、中间件、容器平台等进行改造,以便能够部署到公有云的本地集群和公有云上。

从以上分析可以看出,超融合技术的方案可以与“公有云私有化”模式互相形成有益的补充,二者的优势对比见表 1。

申万宏源2.png

表 1 “公有云私有化”模式与超融合技术方案优势对比

可以看出,“公有云私有化”模式的优势在于大规模基础架构部署的自动化和统一管理,以及多种成熟的 PaaS 和 SaaS 服务,可以迅速为我所用,并在同一技术栈内部快速横向扩展。其不足在于面向中小规模、有特定硬件要求的应用,以及有数据隔离和保密要求的业务时,不够灵活,投入与产出不成比例。在这些场景下,超融合方案的软、硬件广泛兼容,规模灵活,可按需建设、扩容和迁移的特点可以得到充分发挥。二者结合,将共同为我们的金融科技信息化战略服务。

四、总结

在申万宏源证券生产中心,多个业务系统已经建立在超融合技术集群上,并且长时间稳定运行。我们的实践经验,特别是几十个节点的灾备集群的建设、业务部署和日常运维经验表明,超融合是一种成熟的、适合金融行业生产部署的技术模式。结合对科技战略中业务创新和信息化基础设施规划的理解,我们认为,超融合产品和方案更轻量,且能够将“可复制混合云”理念切实落地,适合在多种场景下承载生产业务。

点击下载金融行业用户超融合转型实战合集。该合集收集了 TWT 等技术社区中,来自银行、保险、证券等金融行业客户技术专家亲自撰写的超融合转型实战文章。内容涵盖不同场景中评估超融合技术路线、部署产品、评估超融厂商等多个方面。

继续阅读