在 IT 基础架构日常运维中,升级是最头疼的任务之一。这里的升级既包括硬件的固件升级,也包括软件的版本升级,还有补丁的升级。这类工作通常伴随着一些潜在停机或者故障的风险,甚至升级操作本身就要求停机执行,这给企业的关键业务带来了不少的麻烦。因此,运维管理员对于升级操作可以说是慎之又慎,能免则免。

但现实中却存在一些难以避免的升级需求,例如:

  • 当前使用的软件版本发现明显的漏洞时,企业需按照监管要求自行整改升级
  • 企业使用的硬件设备达到退役年龄,性能、稳定性明显下降
  • 企业使用的基础架构在应对特殊场景时性能不佳

因此,企业需要在进行基础架构必要升级的同时,尽量降低升级停机对企业业务连续性带来的影响。在传统虚拟化架构下,一种可行的不会造成业务中断的升级策略是利用 VMware vSphere 的热迁移功能,将虚拟机在开机状态下从原有存储位置迁移至新的存储位置,在这个过程中升级软件或直接完成硬件升级。但这一策略在具体执行时依旧存在以下问题:

  • 运维投入大

传统虚拟化架构下,虚拟机的迁移需要一台一台手动完成,每次操作又包含 5-6 个步骤,对于一些有着两三百台虚拟机的大型企业来说,IT 人员需要消耗相当多的时间精力。同时,对于集中式存储架构,升级操作对于运维人员的技术能力要求较高。由于此类升级需要在命令行里面操作,管理员需要足够了解存储的命令行是如何使用的。况且,即使能够做到在不停机的情况下完成基础架构软硬件升级,多数企业——尤其是金融行业——依旧会准备停机升级的应急方案,以保障业务不会中断。这就要求运维人员花费大量时间做升级计划、等待评审会通过方案,使得每一次升级都变成运维人员的“攻坚战”。

同时,对于企业来说,基于 VMware 热迁移升级基础架构的方案会带来额外的资源投入。由于迁移过程中需要用到更多的交换机端口,企业原有的交换机可能无法支持整个迁移工作,需要进行额外采购。而这些设备一般只作临时使用,升级结束后使用机会较少,易造成 IT 资源浪费。

  • 业务中断可能性

通过 VMware 热迁移升级基础架构依旧存在一定的业务中断可能性。由于迁移过程涉及较多手动操作,出现人为失误的可能性也大大增加,并最终导致整个升级的失败。

  • 难以弹性投资

在进行硬件升级时,企业常常一次性更新整套新设备,对于资源紧张的企业来说,无法做到按需投资、弹性升级。

那么,如何才能在不停机的前提下简单、高效、灵活地实现 IT 基础架构软硬件平滑升级?这项很多运维人员认为不可能完成的任务,SmartX 已经在诸多客户生产环境中实现。与传统虚拟化架构不同,SmartX 超融合架构支持软件一键升级功能,并可通过异构扩容和数据迁移实现硬件平滑升级,有效降低软硬件升级带来的停机风险,减轻运维人员压力,让企业 IT 技术轻松迭代,助力企业业务持续升级。

软件一键升级

案例 1

应监管通告要求,某期货公司需要进行 IT 基础架构软件升级。在传统虚拟化架构下,为了不影响业务运行,期货公司需要在深夜或业务外的时间停机并手动完成升级。而 SmartX 超融合软件升级能做到业务“0”中断,支持该期货公司在下午 3 点期货交易结束后的半个小时内开始升级。整个升级过程仅花费 2.5 小时,平均一个节点升级仅需 20 分钟,顺利在下午 6 点下班前完成升级。同时,由于软件升级不需要停机,运维团队仅需内部通过升级方案即可开始升级,免除了复杂的停机审批流程。

这一案例中,客户使用了 SmartX 超融合核心软件 SMTX OS,利用一键升级功能在不停机的情况下完成了集群升级。这一操作的实现有赖于软件升级功能的以下特点:

  • 自动化升级:整个升级过程可在线进行,并预先进行环境检查。能够自动对软件逐一进行升级、重启等操作,减少人工操作带来的差错。
  • 无中断升级:采用滚动升级方式,通过升级控制组件对节点升级进行控制,保证滚动升级正确性且业务无中断。
  • 兼容性保障:SMTX OS 各个版本保证了软件的向后兼容,在升级过程中允许节点间版本不一致,并保证不会对集群已有业务产生影响。
  • 升级期间数据恢复最小化:在保证数据安全性的同时降低数据恢复量,避免集群出现大量数据恢复而造成升级时间过长。

软硬件平滑升级1.jpg

SmartX 超融合支持软件一键升级(点击了解特性详情)

硬件平滑升级

案例 2

五矿期货有限公司(以下简称“五矿期货”)是国内注册资本最大的期货公司之一。随着业务的快速发展,五矿期货基于 SmartX 超融合软件先后三次扩容、利旧并升级硬件设备。2018 年,五矿期货利用 SmartX 超融合软件在超微四子星上部署 4 个节点,构建原始集群;2019 年第 1 次扩容,基于 PowerEdge R740xd 部署 2 个节点,实现了不同服务器之间的异构扩容;2020 年基于老旧服务器硬件 PowerEdge R730 部署 4 个节点完成第 2 次扩容;2021 年,通过继续扩容 Dell R740xd,然后利用 SmartX 超融合数据迁移的机制,逐一替换超微四子星。在整个过程中,五矿期货在保障业务“0”中断的情况下,完成硬件升级替换。

软硬件平滑升级2.jpg

五矿期货硬件平滑升级流程(点击阅读案例)

这一案例中,企业利用 SmartX 超融合支持集群异构和数据迁移,对节点进行在线扩容并在线替换老旧服务器,实现了基础架构硬件随企业业务发展持续动态升级。这一硬件升级过程包含如下特点:

  • 弹性扩展:3 节点起步,可基于部件或者节点进行扩容,并可整合不同品牌服务器进行异构扩容,整个扩展过程“0”中断。
  • 无中断升级:利用数据迁移的机制,虚拟机及其副本可快速迁移至其他节点,在全部迁移完成后下线老旧硬件,并在集群中接入新硬件,完成硬件平滑升级。整个过程不停机,且仅在节点迁移及老旧硬件下线时涉及少量手动操作,大幅缩短升级时间,减轻运维压力。
  • 数据自动均衡:新增节点或迁移虚拟机后,动态平衡集群内数据分布,快速恢复分布均衡。

点击下载《SmartX 超融合基础设施及 SMTX Halo 一体机产品介绍》,了解更多详情。