作者:深耕行业的金融团队 刘慧敏

在企业 IT 基础架构运维中,经常会遇到以下问题,从而需要对服务器硬件进行更换或升级:

  • 服务器达到维护期限:通常在金融行业中,生产环境的服务器维护期限在 5 年左右,超过这一期限,服务器需进行下架。
  • 服务器维护成本上升:服务器使用时间较长,硬件故障或老化会导致性能和稳定性下降,从而增加了企业在人力、物力等方面的运维成本。
  • 服务器难以满足业务需求:随着业务的发展和需求的变化,早期购置的服务器配置无法满足当前的业务需求,升级服务器硬件便需提上日程。

问题是,在硬件升级的同时,运维人员应如何保障关键业务正常开展、性能和稳定性不受到升级影响?针对这一需求,SmartX 为运维人员提供了“新建集群”和“滚动升级”两种方案,帮助企业平稳实现基于超融合架构的服务器硬件替换与升级。下面我们将对两种方案进行详细对比,并通过 2 例实践案例,为用户提供方案选择和落地参考。

超融合服务器平滑升级方案

方案1:新建集群

01server-hardware-update.png

利用新服务器组建一个新集群,将原集群的虚拟机通过跨集群迁移的方式迁移至新集群,从而完成服务器的平滑升级。

方案2:滚动升级

02server-hardware-update.png
03server-hardware-update.png

通过在原有集群中依次对服务器进行替换的方式,实现服务器平滑升级。滚动升级步骤如下:

  1. 迁移虚拟机:将原服务器节点上的虚拟机迁移至集群中其他服务器节点。
  2. 迁移数据:将原服务器节点上的存储数据迁移至集群中其他服务器节点。
  3. 移除节点:将原服务器节点从集群中移除。
  4. 下架服务器*:将原服务器节点关机下架。
  5. 上架新服务器:将新服务器节点加电、连线和上架。
  6. 添加节点:新服务器节点加入至原集群中。
  7. 回迁虚拟机:将虚拟机回迁至新服务器节点上。

*在机柜空间有限的情况下,需要先下架旧服务器,空出位置后上架新服务器;机柜有富余空间时,依旧建议“先下后上”,避免IP冲突。

欲深入了解服务器硬件滚动升级特性与用户实践,请阅读:如何做到 IT 基础架构软硬件升级简单又不停机?

平滑升级方案对比

以上提到的两种方案皆可实现服务器硬件平滑升级。而两者分别适合什么样的升级环境?企业应如何选择合适的升级方案?我们可以从以下维度进行对比和评估。


业务连续性

04server-hardware-update.png

在进行服务器硬件平滑升级时,需保障升级期间集群中的虚拟机业务不受影响。

这两种升级方案都涉及了虚拟机迁移操作。在滚动升级方案中,虚拟机迁移仅涉及计算资源迁移;在新建集群的方案中,虚拟机迁移包含了计算资源迁移和存储资源迁移。虽然这两种方案都可做到不影响虚拟机业务,但因新建集群涉及了存储迁移操作,当集群中存在对业务连续性和 I/O 低延迟要求较高的业务时,滚动升级方案会优于新建集群的方式。


服务器数量

05server-hardware-update.png

滚动升级方案对新服务器数量并无限制,而新建集群方案中,需确保新服务器数量不低于 3 台。因此,当计划对集群中低于 3 台服务器进行升级时,仅能选择滚动升级方案。


虚拟机 CPU 兼容性

06server-hardware-update.png

无论是新建集群方案还是滚动升级方案,都需要确保虚拟机可以顺利完成迁移操作。SmartX 集群部署完成后默认会开启虚拟机 CPU 兼容性功能,根据当前宿主机的 CPU 类型和特性,为虚拟机选择一个最接近 的 CPU 模型,同时可以让集群中的虚拟机都继承此 CPU 特性。这一功能可以让虚拟机在不同代数(Generation)的 CPU 中进行平滑迁移。此外,虚拟机也可自定义选择 CPU 兼容性,比如物理透传或者其他 CPU 的兼容性。

因此,为了确保虚拟机可以顺利完成迁移操作,目标主机或者集群的 CPU model 中必须包含待迁移虚拟机的 CPU model 指令集,并且虚拟机迁移到新集群或者目标主机后,此虚拟机依旧继承迁移前的 CPU model。

如果目标主机或者集群不满足平滑迁移条件,则需要将虚拟机进行关机后再进行迁移。


网络资源

07server-hardware-update.png

在网络资源方面,滚动升级方案可复用原有配置,而新建集群方案需进行重新配置。这个维度主要考虑,当前集群是否具备新建集群的条件。新建集群需同时满足以下 3 个条件:

  • 机房机柜预留了可放置新服务器的空间。
  • 交换机预留了管理、存储以及业务网络的端口。
  • 新集群有足够的地址为管理、存储以及业务等 IP 地址进行规划。

如果满足,则可以选择新建集群和滚动升级这 2 种方案;如不满足,则选择滚动升级的方式。


集群调整

08server-hardware-update.png

在进行服务器硬件升级前,用户可能计划对以下方面进行调整,如:

  1. 业务网络调整:计划将集群中的业务网络和管理网络进行物理层面的隔离。
  2. 机房机柜更改:计划将服务器放置到 IDC 进行统一管理。
  3. 虚拟化平台变更:计划将基于 VMware 虚拟化的 SmartX 超融合集群,变更为基于 SmartX 原生虚拟化 ELF 的集群。
  4. CPU 供应商变更:计划将部分业务迁移至信创集群。

如本次集群调整涉及虚拟化平台和 CPU 供应商的变更,因同一个集群中不能同时存在 2 种虚拟化和 2 种 CPU 供应商,所以需要通过新建集群的方式进行服务器硬件升级。如不涉及这两个方面的变更,那么新建集群和滚动升级方式皆可供选择。


适用场景

以上提到的两种服务器平滑升级方案并不存在对立的关系,相反,它们在适用场景上存在较多的重合部分。根据以上分析,我们对这两种升级方案在适用场景上的区别进行了以下总结:

09server-hardware-update.png

用户案例:方案选择与落地实践

案例 一:采用滚动升级方案实现服务器平滑升级

升级背景

  1. 10 节点 SmartX 超融合(基于原生虚拟化 ELF)集群,单节点存储使用容量为 15TB – 20TB。
  2. 1 周内需要完成其中 4 台服务器升级。
  3. 集群存在业务连续性要求较高且要求 I/O 低延迟的业务,升级期间需尽量保障虚拟机业务不受影响。
  4. 机房无多余机柜空间以及交换机端口,IP 地址段无多余 IP 地址可供分配。

方案选择与实践

用户当前环境无多余网络资源,同时由于仅升级集群中的部分硬件服务器,应选择滚动升级的方式。采用此方案,一方面可以使新服务器复用原有的服务器网络配置,无需更改网络资源;另一方面,升级部分硬件服务器无需将 1 个集群拆分为 2 个集群,这样可避免增加客户的集群维护工作量。

最终,用户采用滚动升级的方式,在一周时间内,顺利地完成了硬件服务器平滑升级的操作。


案例二:采用新建集群方案实现服务器平滑升级

升级背景

  1. 8 节点 SmartX 超融合集群,单节点存储使用容量为 12TB – 15TB。
  2. 3 周内需要完成 8 台服务器升级。
  3. 8 节点集群被规划为测试集群,机房和集群网络需要被重新调整。
  4. 在升级期间需尽量保障虚拟机不到影响。

方案选择与实践

用户有集群调整的需求,应选择新建集群的方式来进行服务器平滑升级。在这个方案中,新建集群的网络调整以及位置重新放置等操作,对原有集群几乎不产生任何影响,仅需要将原有集群的虚拟机进行跨集群迁移,即可完成全部虚拟机的迁移动作。

最终用户采用此方案,同样在一周时间内,顺利地将 8 个节点的硬件服务器进行了平滑升级。

此外,五矿期货有限公司也利用 SmartX 超融合对异构集群的支持特性,从 4 节点纯软件(基于 SmartX 原生虚拟化 ELF)逐步扩容到 10 节点,同时完成了从超微四子星到 Dell PowerEdge R730xd 的服务器升级替换。更多案例细节,请阅读:五矿期货超融合硬件平滑升级与多数据中心管理实战

您还可以扫码获取《SmartX 超融合技术原理与特性解析合集(含 VMware 对比详情)》介绍,了解更多 SmartX 超融合功能特性与使用场景。

服务器硬件平滑升级-官网_二维码.png

推荐阅读:

继续阅读