标签超融合集群管理

如果集群有多个节点,每个节点存储容量都小于某个虚拟机的存储容量,但集群总存储容量足够进行数据恢复和多副本。在这种情况下,本节点宕机后,虚拟机是否能(通过 HA)自动恢复运行?

可以恢复,虚拟机磁盘的容量由 SMTX ZBS 分布式块存储提供,即使每个节点的磁盘容量都小于当前虚拟机磁盘容量,但只要多副本之后的容量大于虚拟机磁盘容量就可以,只是会影响 I/O 本地化,当节点宕机时,虚拟机可以在其他节点拉起。

安装 Everoute 之后,在集群资源充足的情况下,CloudTower 为什么提示 HA 资源不足告警?

因为在 3 节点集群上部署 Everoute,默认会部署 3 个 Everoute Controller,虚拟机分别放置在 3 个不同节点上,以确保 Everoute 服务的高可用。而触发该告警的原因是:系统发现当集群中任意 1 个节点故障, 该节点上的 Everoute Controller 本应通过 HA 功能在其他可用节点中恢复,但由于集群可用节点只剩下 2 个,无法保证 3 个 Everoute Controller 分别运行在不同节点,因此系统提示 HA 资源不足。在大于 3 节点的集群不会触发该报警,但由于社区版最大规模是 3 节点,因此一定会触发该告警,但不会影响日常使用。

如果要对集群进行维护、更换硬件需要进行什么流程?需要手动迁移虚拟机然后直接关机吗?开机后是不是等集群恢复了,再继续弄下一台?

对节点进行硬件维护可以为节点开启维护模式(仅支持 3 节点或以上规模集群)后进行。SMTX OS 商业版可在 CloudTower 上操作,但社区版当前版本未支持该功能,需要手工执行以下步骤:

登录任意节点执行 sudo sh/ usr/ share/ upgrade/ upgrade_cluster/ script/ pre_check.sh,输出 pre check success 则预检查通过;如预检查失败,则需要根据提示处理之后再次进行检查;
将待维护节点上的虚拟机执行在线迁移至其他节点;
登录待维护节点,执行 sudo shutdown -h now,进行下电维护处理;
维护完成后,重新开启节点,等待集群状态恢复正常后(如有数据恢复,需等待数据恢复完成),回迁虚拟机;
如果有多个节点需要维护,需要依次按照前面的步骤执行。

SmartX 的时间同步是先由集群的 leader 与 NTP Server 通讯并同步,然后 leader 负责内部节点时间同步的机制吧? 那虚拟机迁移取的是硬件时间还是 SMTX OS 的系统时间?

SMTX OS 的 NTP 服务可以应对两种场景:

场景1:

有外部 NTP 服务源的情况下,leader 负责与外部 NTP 服务器同步时间,然后集群中其他节点与 leader 进行同步进而确保整个集群所有节点的时间都是同步的。而在线迁移或者数据同步都会依赖这个时间的。

场景2: 

如果没有外部 NTP 服务器,那么 leader 不会跟外部进行同步,其他节点会跟 leader 同步时间,也可以保证整个集群的时间是一致的,但无法保证与标准时间是同步的。

关于 SmartX 公司

为企业构建易用、可靠、随需扩展的数据中心基础架构,满足企业的 IT 应用需求,是 SmartX 的使命和存在的价值。

进一步了解

在 SmartX 工作

SmartX 以独有的价值观吸引着一群热爱创造的人们相聚于此,共同打造坚实、稳固的 IT 基础架构。SmartX 欢迎你!

查看工作机会