构建 RPO = 0、RTO = 0 的双活数据中心,实现跨站点集群数据保护和容灾。
如果集群有多个节点,每个节点存储容量都小于某个虚拟机的存储容量,但集群总存储容量足够进行数据恢复和多副本。在这种情况下,本节点宕机后,虚拟机是否能(通过 HA)自动恢复运行?
可以恢复,虚拟机磁盘的容量由 SMTX ZBS 分布式块存储提供,即使每个节点的磁盘容量都小于当前虚拟机磁盘容量,但只要多副本之后的容量大于虚拟机磁盘容量就可以,只是会影响 I/O 本地化,当节点宕机时,虚拟机可以在其他节点拉起。
3 个节点组成集群,如这 3 个节点突然全部掉电了,当电力恢复后集群业务虚拟机会出现起不来的情况吗?
SMTX OS 有专门的机制应对集群整体掉电的情况,通过 IO 日志重放的机制确保数据的一致性。当集群恢复电力后,集群将会自动恢复服务,开启 HA 保护的虚拟机也会自动启动。
安装 Everoute 之后,在集群资源充足的情况下,CloudTower 为什么提示 HA 资源不足告警?
因为在 3 节点集群上部署 Everoute,默认会部署 3 个 Everoute Controller,虚拟机分别放置在 3 个不同节点上,以确保 Everoute 服务的高可用。而触发该告警的原因是:系统发现当集群中任意 1 个节点故障, 该节点上的 Everoute Controller 本应通过 HA 功能在其他可用节点中恢复,但由于集群可用节点只剩下 2 个,无法保证 3 个 Everoute Controller 分别运行在不同节点,因此系统提示 HA 资源不足。在大于 3 节点的集群不会触发该报警,但由于社区版最大规模是 3 节点,因此一定会触发该告警,但不会影响日常使用。
如果要对集群进行维护、更换硬件需要进行什么流程?需要手动迁移虚拟机然后直接关机吗?开机后是不是等集群恢复了,再继续弄下一台?
对节点进行硬件维护可以为节点开启维护模式(仅支持 3 节点或以上规模集群)后进行。SMTX OS 商业版可在 CloudTower 上操作,但社区版当前版本未支持该功能,需要手工执行以下步骤:
登录任意节点执行 sudo sh/ usr/ share/ upgrade/ upgrade_cluster/ script/ pre_check.sh,输出 pre check success 则预检查通过;如预检查失败,则需要根据提示处理之后再次进行检查;
将待维护节点上的虚拟机执行在线迁移至其他节点;
登录待维护节点,执行 sudo shutdown -h now,进行下电维护处理;
维护完成后,重新开启节点,等待集群状态恢复正常后(如有数据恢复,需等待数据恢复完成),回迁虚拟机;
如果有多个节点需要维护,需要依次按照前面的步骤执行。
在集群中卸载 SSD 的时间挺长的,是为了不影响集群所以限速了是吗?
执行卸载 SSD 操作后,系统会将 SSD 的数据通过数据迁移的方式迁移到其他节点,同时系统会根据集群的负载情况对迁移进行限速,卸载时需要等待 SSD 上的数据完成迁移,因此持续时间会比较长。
SmartX 的时间同步是先由集群的 leader 与 NTP Server 通讯并同步,然后 leader 负责内部节点时间同步的机制吧? 那虚拟机迁移取的是硬件时间还是 SMTX OS 的系统时间?
SMTX OS 的 NTP 服务可以应对两种场景:
场景1:
有外部 NTP 服务源的情况下,leader 负责与外部 NTP 服务器同步时间,然后集群中其他节点与 leader 进行同步进而确保整个集群所有节点的时间都是同步的。而在线迁移或者数据同步都会依赖这个时间的。
场景2:
如果没有外部 NTP 服务器,那么 leader 不会跟外部进行同步,其他节点会跟 leader 同步时间,也可以保证整个集群的时间是一致的,但无法保证与标准时间是同步的。
五矿期货超融合硬件平滑升级与多数据中心管理实战
整合多品牌服务器,CloudTower 集中管理多地集群。
超融合架构超大规模部署中单体集群最大多少合适,单体集群过大有哪些风险?
超融合架构超大规模部署中单体集群最大多少合适,单体集群过大有哪些风险?市面上有些超融合产品号称集群规模可以支持上千节点甚至无限大,但这些只是理论值,并不代表实际部署会做一个很大的集群,因为过大的集群会产生一些运维上的风险。