分类目录问题答疑

请问一下,部署 SMTX OS 集群是否可以刚开始使用一块 SSD 作为缓存,后面再扩另外一块?

部署 SMTX OS 集群要求所有正式环境每个节点至少配置两块 SSD 作为缓存盘(同时承担系统盘作用), 2 块 SSD 可确保支持缓存盘和系统的高可用。如果在集群初始化的时候只配置一块 SSD 作为缓存盘,后续扩展至 2 块 SSD 可扩展缓存空间,但依然无法支持故障切换的功能。因此建议在集群初始化的时候就为每个节点配置 2 块 SSD。

安装 Everoute 之后,在集群资源充足的情况下,CloudTower 为什么提示 HA 资源不足告警?

因为在 3 节点集群上部署 Everoute,默认会部署 3 个 Everoute Controller,虚拟机分别放置在 3 个不同节点上,以确保 Everoute 服务的高可用。而触发该告警的原因是:系统发现当集群中任意 1 个节点故障, 该节点上的 Everoute Controller 本应通过 HA 功能在其他可用节点中恢复,但由于集群可用节点只剩下 2 个,无法保证 3 个 Everoute Controller 分别运行在不同节点,因此系统提示 HA 资源不足。在大于 3 节点的集群不会触发该报警,但由于社区版最大规模是 3 节点,因此一定会触发该告警,但不会影响日常使用。

SMTX OS 安装 Windows 虚拟机时需要加载 virtio 硬盘驱动,但 PVE 就不需要安装 virtio 驱动?

PVE 在安装类型为 Windows 的虚拟机时,默认使用 IDE 磁盘总线,而不是性能更好的 virtio 总线(Windows 光盘中不带 virtio 驱动),因此,PVE 在安装 Windows 操作系统时并不需要额外加载 virtio 驱动。而 SMTX OS 安装虚拟机的时候默认会选用性能更好的 Virtio 总线,因此需要额外加载驱动。

如果要对集群进行维护、更换硬件需要进行什么流程?需要手动迁移虚拟机然后直接关机吗?开机后是不是等集群恢复了,再继续弄下一台?

对节点进行硬件维护可以为节点开启维护模式(仅支持 3 节点或以上规模集群)后进行。SMTX OS 商业版可在 CloudTower 上操作,但社区版当前版本未支持该功能,需要手工执行以下步骤:

登录任意节点执行 sudo sh/ usr/ share/ upgrade/ upgrade_cluster/ script/ pre_check.sh,输出 pre check success 则预检查通过;如预检查失败,则需要根据提示处理之后再次进行检查;
将待维护节点上的虚拟机执行在线迁移至其他节点;
登录待维护节点,执行 sudo shutdown -h now,进行下电维护处理;
维护完成后,重新开启节点,等待集群状态恢复正常后(如有数据恢复,需等待数据恢复完成),回迁虚拟机;
如果有多个节点需要维护,需要依次按照前面的步骤执行。

通过 Fisheye 创建的网络有办法更换为 CloudTower 创建的么?

Fisheye 属于集群紧急管理页面,不应通过它去创建虚拟网络。日常操作应在 CloudTower 上进行。如果已经通过  Fisheye 创建了虚拟网络,可先将该虚拟网络关联的虚拟机移出,或调整到其他虚拟网络(该操作可能引起虚拟机网络中断)。清空虚拟网络后,可通过 Fisheye 界面删除该虚拟网络。然后再通过 CloudTower 新创建对应的虚拟网络,并将之前的虚拟机重新关联到该网络即可。

系统警告存储平均延时过大,一般要查哪些因素呢?

触发存储平均延时过大警告一般有两个可能性:1. 某块磁盘(或者对应的磁盘控制器)发生故障了,导致访问延时增大,这种情况可以查看系统是否有磁盘健康相关的警告并作进一步的处理;2. 缓存空间比例过小,部分热数据无法在缓存命中。这种情况下可通过监控分析菜单查看集群的缓存命中率,如果缓存命中率持续偏低,则需要考虑扩展缓存空间。

SmartX 的时间同步是先由集群的 leader 与 NTP Server 通讯并同步,然后 leader 负责内部节点时间同步的机制吧? 那虚拟机迁移取的是硬件时间还是 SMTX OS 的系统时间?

SMTX OS 的 NTP 服务可以应对两种场景:

场景1:

有外部 NTP 服务源的情况下,leader 负责与外部 NTP 服务器同步时间,然后集群中其他节点与 leader 进行同步进而确保整个集群所有节点的时间都是同步的。而在线迁移或者数据同步都会依赖这个时间的。

场景2: 

如果没有外部 NTP 服务器,那么 leader 不会跟外部进行同步,其他节点会跟 leader 同步时间,也可以保证整个集群的时间是一致的,但无法保证与标准时间是同步的。

CloudTower 界面中的虚拟机 CPU 插槽对应的物理服务器是?

物理 CPU 插槽和虚拟机的 CPU 插槽并没有一一对应的关系。如:一台物理服务器有  2 个 CPU 插槽(socket),每个 CPU 有 10 核(core),那么实际上就有 20 core 了,加上 CPU 超线程的功能,就可以在不超分的情况下变成 40 个 vCPU;而 40个 vCPU 是总数,具体可以分配到虚拟 CPU 插槽和虚拟 CPU 核数的乘积,如 4 vSocket x 10 vCore = 40 vCPU,也可以是 2 vSocket x 20 vCore = 40 vCPU。

软件定义存储(SDS)和云原生存储是什么关系,有什么区别

云原生存储是从 SDS 的基础发展而来,云原生存储同样是软硬件解耦,只是对硬件要求更加灵活了,存储软件可以容器方式运行在 K8S 环境,同时与业务容器混合部署在同一个服务器上,甚至可以部署到公有云上。云原生存储的另外一个特点是可以支持云原生存储接口,如 K8S CSI 接口,可以更好支撑原生业务需求。

超融合服务器故障需要一个恢复的过程吗,恢复期间能提供服务吗?

当集群中有服务器发生故障,集群会将故障的服务器上面的 VM 通过 HA 功能自动迁移至其他可用的服务器节点上并自动恢复运行,同时会自动执行数据恢复,保障数据可靠性;而没有故障的主机上的虚拟机不受影响,整个数据恢复过程,系统会监控集群的负载情况自动调节恢复速度,最大程度保障现有业务性能和响应速度。

超融合 3 节点(集群)如果都因为停电后(电力又恢复后)重启了,承载的虚拟机是按什么流程重启的,同时启动的话会不会造成设备超载?

如果是集群所有节点都掉电,电力恢复后,虚拟机还是会在源主机上启动的,不会因为都迁移到一台主机上引起超载的问题。另外,如果是触发 HA 的情况下,虚拟机的启动是以随机的顺序轮流启动的,并不是所有虚拟机同一时刻启动的;启动顺序目前是不支持手工调整的,由系统决定。

超融合服务器扩充硬件会影响系统运行吗?例如:加硬盘?加内存?扩展后软件需要调整吗?

在线增加硬盘是不会影响系统正常运行的;添加内存操作需停机进行,如果希望避免影响业务,可以先通过在线迁移将需要增加内存的主机上的虚拟机到另外两个可用节点(前提是集群拥有三个节点,否则必须全部停机进行扩容),然后关闭节点进行内存添加,这样可以不影响业务正常运行;由于集群有节点离线,系统会自动触发数据恢复;服务器扩展硬件后不需要调整软件设置,同时也不涉及软件许可费用增加的问题(社区版免费,商业版本的许可是按 2CPU 节点为一个许可,跟内存、硬盘大小无关)

关于 SmartX 公司

为企业构建易用、可靠、随需扩展的数据中心基础架构,满足企业的 IT 应用需求,是 SmartX 的使命和存在的价值。

进一步了解

在 SmartX 工作

SmartX 以独有的价值观吸引着一群热爱创造的人们相聚于此,共同打造坚实、稳固的 IT 基础架构。SmartX 欢迎你!

查看工作机会