概述

自 SMTX OS 社区版发布以来,有许多用户下载了和尝试部署 SMTX OS ,在过程中遇到一些问题并在社区中提问,本文是将这些有代表性的问题集合在一起,并按照不同阶段进行分类,希望能帮助用户快速获得解决问题的思路。

另外,如用户希望全面了解 SMTX OS 部署过程,请参考以下两篇文章:

社区版安装部署指南

极限挑战:如何用 2 台服务器搭建超融合集群

可以借助这个视频,手把手学习如何安装部署社区版。

还可以通过这个视频,解答你 SmartX 超融合套件社区版安装部署的各方面疑问。

产品前期了解篇

问题:社区版后期能直接转到商业版本吗?

回答:可以的,导入正式软件许可以及软件升级可转为商业版本。

问题:社区版和正式版功能区别主要在哪里呀?

回答:

对比项 社区版 正式版
授权 社区版授权(包含 SMTX OS 和 CloudTower ) 基础版、标准版、企业版
使用时限 官网申请社区永久许可,可一直免费使用 免费试用许可 1 个月

商业永久许可(一次性付费)和订阅许可(按年付费)

节点规模 SMTX OS  社区版最大集群规模 3 个节点,

CloudTower 社区版最多支持纳管 3 个社区版集群

基础版(5)、标准版(16)、企业版(最大255)
虚拟化平台支持 仅支持部署 ELF 支持 ELF、ESXi 或者 XenServer
服务与技术支持 不提供正式的服务与技术支持,

有问题可以到社区去留言,但不保证时效性

提供企业售后服务,具体细节跟服务的等级相关

问题:SmartX 的存储属于块存储吗?

回答:是的,SMTX OS 内置了 ZBS 分布式块存储软件,提供原生的块存储服务。

问题:社区版支持与 VMware 集成超融合的模式吗 ?

回答:不支持,商业版才可以支持,详细请查阅:社区版和正式版功能区别主要在哪里呀?

问题:社区版支持哪些客户操作系统,实体机如何迁移到虚拟机上?而 VMware 的虚拟机又如何迁移?

回答:主流的 Windows 和 Linux 操作系统都是支持的,具体可以看 SMTX OS 的兼容列表;从 VMware ESXi 迁移到 ELF (SMTX OS 内置虚拟化软件),我们提供了免费的 V2V 工具,可支持从 ESXi 在线迁移虚拟机到 ELF 上。

问题:VirtualBox 的虚拟机支持迁移到社区版吗?

回答:可以的,但对于 VirtualBox 的虚拟机,目前 SmartX 官方没有提供专门的 V2V 工具,但可以通过导入到平台后,通过内置的命令行工具进行格式转换,以及涉及一些手工操作,相对 VMware 的虚拟机操作上相对麻烦一些。

问题:社区版有(内置的)性能观测工具么?能观测到 VM 中卷的 IO (以及)在缓存盘和数据盘的分布(情况)及热点(数据)情况不?

回答:有的,系统内置监控报表功能,可以提供实时(历史数据分析需要商业版支持)的缓存命中率, 虚拟机的 IO 延时情况,IOPS 统计等。

问题:你们的分布式储存软件(SMTX ZBS)可以提供测试吗?

回答:SMTX ZBS 分布式存储软件商业版已经在 2021 Q4 发布,可以提供 30 天免费测试许可,但对应的社区版暂时还没有发布,预计会在晚些时候发布。

问题:社区版怎么申请永久使用?

回答:社区版安装完成后,可在管理界面获取系统序列号,凭序列号,访问 SmartX 官网,填入一些基本信息,即可申请永久许可。

许可申请页面:https://www.smartx.com/community-license/

问题:三个节点(3 台服务器组成的)集群可以跑两百多个虚拟机么?

回答:这个问题不能一概而论,集群能运行多少台虚拟机主要看服务器和虚拟机的资源配置,(满足 3 主机运行 200+ 虚拟机)单台主机运行 66 台虚拟机,相对来说属于密度比较高的情况。据实际经验,生产环境一般单台主机运行 20-30 个虚拟机,开发测试环境运行 50 台左右。

问题:SmartX 社区版有类似 VMware 的 FT 容错功能吗?

回答:SmartX 社区版没有提供类似 VMware 的 FT 容错功能。

问题:请问虚拟机软件(SMTX OS)是自己开发的吗?

回答:SMTX ELF 虚拟化软件是在 KVM 的基础上开发的,但自行开发了包括 HA、自动调度、高级监控等企业级的功能。

问题:请问服务器扩充硬件会影响 SmartX 系统运行吗?例如:加硬盘?加内存?扩展后软件需要调整吗?

回答:在线增加硬盘是不会影响系统正常运行的;添加内存操作需停机进行,如果希望避免影响业务,可以先通过在线迁移将需要增加内存的主机上的虚拟机到另外两个可用节点(前提是集群拥有三个节点,否则必须全部停机进行扩容),然后关闭节点进行内存添加,这样可以不影响业务正常运行;由于集群有节点离线,系统会自动触发数据恢复;服务器扩展硬件后不需要调整软件设置,同时也不涉及软件许可费用增加的问题(社区版免费,商业版本的许可是按 2CPU 节点为一个许可,跟内存、硬盘大小无关)

问题:SMTX OS 有专门的超融合管理节点吗?或者说有单个或几个管理虚拟机吗?CloudTower 有冗余吗,例如:主备虚拟机吗?如果是单台,那管理虚拟机挂了,客户不就无法管理了嘛?

回答:目前 CloudTower 没有提供主备虚拟机冗余的,但 CloudTower 虚拟机故障并不影响集群的正常运作,并且每个服务器节点本身已经有管理界面的,可提供应急管理平面。

问题:三节点集群,当有一个节点宕机后,上面的虚拟机重新在别的节点上拉起需要多久?

回答:SMTX OS 的 HA 触发时间是 3 分钟,当系统检测到节点宕机后,会在三分钟之内触发 HA ,虚拟机会自动迁移到其他节点并重新启动。

问题:如果主机故障(无法维修),更换的服务器与原服务器配置不同,会有影响吗?

回答:新更换的服务器首先得满足 SMTX OS 的硬件兼容性要求,在这个前提下,SmartX 集群是允许节点配置的不完全一致的,包括 CPU、内存、硬盘等配件不一致都是支持的。但一下情况需要考虑的。例如,集群内主机可以使用代数相近但型号不同的 CPU ,并可支持不同 CPU 之间的虚拟机迁移,但是如果 CPU 的年代相差较远,那么在线迁移功能也可能受到影响;另外,如果新增硬件相比原有服务器的性能是有所下降,也可能会导致集群性能的下降。

问题:请问超融合 3 节点(集群)如果都因为停电后(电力又恢复后)重启了,承载的虚拟机是按什么流程重启的,同时启动的话会不会造成设备超载?

回答:如果是集群所有节点都掉电,电力恢复后,虚拟机还是会在源主机上启动的,不会因为都迁移到一台主机上引起超载的问题。另外,如果是触发 HA 的情况下,虚拟机的启动是以随机的顺序轮流启动的,并不是所有虚拟机同一时刻启动的;启动顺序目前是不支持手工调整的,由系统决定。

问题:SMTX OS 要求硬盘直通,没有 RAID 保护,那么坏一个硬盘数据会不会丢啊?

回答:不会丢数据。因为 SMTX OS 的数据冗余不依赖 RAID 技术实现,而是通过多副本技术实现。当虚拟机写入数据,系统会根据存储策略自动写入 2 份或者 3 份,虚拟机本地主机有一份数据,远程主机有另外 1 份(3 副本下则有另外 2 份数据写入到另外两台不同的主机上)。这样的机制使得无论是遭遇单个硬盘故障还是主机故障,至少能在另外一个主机找到对应的数据副本可用,并可通过数据恢复自动恢复到预期级别,保障数据的可靠性。

问题:SMTX OS 主机中每块盘都是独立的吗?可以支持并发读写吗?

回答:SMTX OS 主机上的数据盘和缓存盘都是直通的,没有组建 RAID 组,因此可以理解是独立的。SMTX OS 无需专门的热备盘,多块数据盘和缓存盘支持并发读写。

问题:服务器故障需要一个恢复的过程吗,恢复期间能提供服务吗?

回答:当集群中有服务器发生故障,集群会将故障的服务器上面的 VM 通过 HA 功能自动迁移至其他可用的服务器节点上并自动恢复运行,同时会自动执行数据恢复,保障数据可靠性;而没有故障的主机上的虚拟机不受影响,整个数据恢复过程,系统会监控集群的负载情况自动调节恢复速度,最大程度保障现有业务性能和响应速度。

问题:能不能评价 EC 功能?相对主打 EC 功能的超融合产品,SmartX 的优势在哪里?

回答:RAID、副本、EC 这些都是数据冗余的保障手段,这些技术有各自的特点,以及不同的适用场景。例如 EC 它的机制与 RAID 5/6 差不多,通过多位校验算法,提高得盘率(节省空间),但同时消耗更多的计算资源,并且降低了 IO 性能。而副本技术更简单,性能好,但缺点是只有 50% 得盘率。而 SmartX 采用的是副本技术,并没有采用 EC 技术,主要考虑超融合的特征计算和存储是融合部署的(两者存在资源竞争的关系),数据冗余算法对 CPU 和内存消耗越低,那么主机更多的资源可用于运行虚拟机的资源就越多。而实际上 SMTX OS 的资源消耗基本上是业内最低,并且 IO 性能也是业内领先的水平。

如果大家对得盘率依然耿耿于怀,无非是对成本有更高的期望,那么我们可以细想一下,在混闪集群中,数据盘都是采用廉价的 SATA HDD,难道 CPU 资源不比 HDD 更加昂贵?EC 技术无非就是降硬盘的成本,但它需要更多的内存和 CPU 资源,在超融合环境下,代价可能更高。

问题:SMTX OS 缓存机制是 write back 还是 write through?一般是建议客户使用哪种缓存策略??

回答:SMTX OS 缓存策略是系统自动执行的,无需客户选择的。SMTX OS 缓存机制不属于传统的 write back 和 write through 机制,更准确地说是一种改进版 write back 机制,它既保留了 write back 机制的高效性能,同时有专门的机制应对突发断电引起的数据无法及时更新的问题。

问题:如果出现意外掉电等情况,是如何保证数据一致的?缓存盘的脏数据是否有脏数据保护措施么?

回答:缓存盘的数据实际上也有多副本保护,并且遵循强一致性的特点。另外,在系统遭遇意外掉电的情况下,系统将通过 Journal 的 IO 回放功能确保数据一致性。

问题:SMTX OS 集群中,使用 PMEM 与 NVMe SSD (作为缓存)性能上的差距应该不小吧?成本上的差异是否也是巨大的?

回答:两者性能差距是比较大的,SMTX OS 支持 Intel 持久化内存(PMEM)作为缓存,该方案下 IO 延时可低至 100us,3 节点集群 IOPS 超过 100 万(是 NVMe 的 2.5 倍以上)。PMEM 本身硬件成本上升并不算明显,但目前这个方案只提供一体机支持,并需要 SMTX OS 企业版许可;另外,存储网络也需要升级到 25G 以上的 RDMA 网络(推荐使用 100G RDMA 网络)。 方案主要应对一些对延时要求极高的应用。

部署安装篇

问题:安装 SmartX 是不是最少需要两台服务器?社区版是不是两台其实也可以实现所有的功能?/SMTX OS 支持单节点部署吗?/单节点模式是只能运行社区版,还是所有的版本都可以?/集群必须要 3 台主机吗?可以 1 台吗?我看介绍说可以使用 1 台服务器的?

回答:SMTX OS 社区版可以支持 1~3 节点部署,但 1 节点和 2 节点 部署都有部分功能受限的情况,郑重提示:1 节点和 2 节点部署,只能作为功能体验,不可用于实际的生产环境使用),详细请参照下表:

对比项 1 节点部署 2 节点部署 3 节点部署
版本限制 仅社区版 仅社区版 社区版、商业版
在线迁移 不支持 支持 支持
节点高可用(HA) 不支持 不支持 支持
数据冗余/数据恢复 不支持 2 副本 2 副本、3 副本
分布式存储 不支持,仅本地存储池 支持,2 节点统一存储池 支持,3 节点统一存储池

问题:单节点部署需要多少张网卡?

回答:单节点部署,至少一块双口网卡,系统初始化的时候,依然需要一个网口绑定管理网络,一个网口绑定存储网络(虽然单节点部署下存储网络没有作用,但还是需要预留,可以不连线)。

问题:单节点部署,需要额外挂载集中式存储吗?

回答:不需要外挂集中式存储,SMTX OS 可将本地的硬盘资源组成存储池,缓存机制也是适用的,但单节点集群无法提供数据冗余保障(硬盘故障会引起数据丢失),因此仅用于测试。

问题:单节点(部署)也需要安装 CloudTower 吗?

回答:单节点部署也推荐安装 CloudTower,能获取更多功能和更优秀的体验。

问题:安装 SMTX OS 要不要创建 RAID?启动盘和缓存盘以及容量盘之间的关系是怎样的?

回答:SMTX OS 的磁盘种类有三种,分别是:启动盘、缓存盘、容量盘。其中启动盘仅用于存放启动分区信息,它可以是直通盘(如考虑高可用,可以使用 RAID 组);缓存盘和容量盘都必需是直通访问,不使用 RAID 组。其中缓存盘的用途是存放系统和元数据信息以及加速存储访问,缓存盘的空间不计入存储池的可用容量;而容量盘是实际存储数据的,存储池可用容量是各个容量盘之和。每台服务器的缓存盘的容量与容量盘的比例需要大于 1:10,例如:某节点的容量盘总容量是 10TB,那么缓存盘的总容量至少需要大于 1TB 。

问题:请教一下,SmartX 和 ESXi一起结合部署的时候,ESXi 是安装在预先规划好的指定的硬盘上或者几个指定的硬盘组合的 RAID 上是吧 ?

回答:ESXi 需要安装在单独的硬盘或者 RAID 组上,安装 ESXi 所在的硬盘必需是独立的控制器(必须与缓存盘、容量盘不在同一个硬盘控制器或者 RAID 卡上)

问题:业务网和管理网在同一个网络(子网)么?可以使用同一个网卡吗 ?

回答:业务网络和管理网络既可以是同一个子网也可以是不同的,同时也支持共用一块网卡甚至是共用一个网口。

问题:两台存储交换机建议使用什么模式?堆叠么?还是说在集群内选择主备模式后两台交换机之间不需要用光纤线连接 ?

回答:两台交换机高可用建议使用堆叠模式(也有厂家称为虚拟化模式或集群模式)。交换机不要用主备模式,因为超融合的存储网络的链路高可用不通过有多路径切换机制来实现(与 SAN 网络依赖多路径机制实现链路高可用不一样)。

问题:SMTX OS 支持海光 CPU 7 系吗?

回答:SMTX OS 商业版是支持海光 CPU 的,但社区版暂时不支持。

系统安装篇

问题:我没有找到有关 SmartX 和 ESXi 一起部署的详细说明 ?

回答:社区版不支持与 ESXi 集成部署的模式,只有商业版才会支持的。

问题:安装 SMTX OS 需要传统 BIOS 启动吗?貌似 UEFI 启动不了,推荐 U 盘制作工具?在 Mac 上 有推荐的 U 盘制作工具吗?

回答:SMTX OS 既支持传统 BIOS 启动也支持 UEFI 安装的,光盘启动失败有时候跟 U 盘启动制作工具有关,这里推荐几个 U 盘启动制作工具:

Windows:https://rufus.ie/zh/

MAC: https://www.balena.io/etcher/

Linux:https://www.ventoy.net/cn/download.html

 

问题:SMTX OS 系统无法安装在可移动硬盘?PM8060 RAID 卡 在 HBA 模式下无法安装系统?

回答:SMTX OS 社区版不支持将系统安装在标识为可移动的硬盘上,这里有可能出现的情况有两种,一是磁盘确实是移动硬盘,另外一种是 RAID 控制器错误地将硬盘识别为可以移动硬盘。如果需要查看磁盘是否是可移动硬盘,可在安装 SMTX OS 界面,输入 ALT+F2 切换窗口,然后输入 lsblk 查看磁盘的状态,如下图:

lsblk.png

磁盘模式一列显示是 RM 代表 Removeable ,这种情况无法将 SMTX OS 安装在该盘上。如果是 RAID 控制器的问题请重新设置或者更换其他型号的 RAID 卡再尝试安装。

问题:在 ESXi 上嵌套安装 SMTX OS,初始化到 14 步时会失败?

回答:这种情况一般是因为默认情况下,ESXi 的虚拟机的 vdisk 是没有 uuid 的,这样会导致 SMTX OS 无法准确识别磁盘,导致安装失败。确认是否这个原因导致,可查看日志文件:/usr/share/zbs_deploy/zbs_host_

查找是否有类似这样的报错:Error: /dev/sdc: unrecognised disk label,如果是的话,可以按照以下操作解决:

1.关闭虚拟机.

2.进入这台虚拟机的编辑设置页面

3.进入高级设置.

4.进入配置参数

5.添加新一行参数名: disk.EnableUUID,设置参数值为:TRUE,并保存

6.重新启动虚拟机,重新执行系统安装.

问题:想咨询一下 安装 SMTX OS 系统时提示 could not open x display 是什么原因?

回答:这种情况一般是硬件不兼容的引起的报错,我们也会针对这类问题持续更新硬件支持,请留意 SMTX OS 社区版更新 。

 

问题:集群初始化时,到“检查配置”时提示前面的步骤有错?

回答:一般是设置和参数有误造成的,需要重新确认配置信息是否正确。例如:需重新确认缓存盘、容量盘是否选择合理,IP 信息是否正确等

 

问题:安装 SMTX OS 系统需要 2 块 SSD 吗?我看说明可以在同一块(SSD)上进行缓存和数据盘 ?

回答:最少需要一块 SSD(推荐 2 块)用做缓存盘,但容量盘是不能与缓存盘共用的,也就是一块磁盘不能既做缓存盘,同时也做数据盘。

 

问题:安装 SMTX OS 完成后重启无法进入系统 ?

回答:服务器有多块硬盘,安装系统后,有可能需要调整启动盘(boot disk)的顺序,把安装系统时选择的 boot disk 作为第一顺序启动,否则就可能导致系统无法正常启动了。

 

问题:我这边没有 DHCP ,怎么配置(初始化)平台?

回答:如果没有 DHCP,可以登录 SMTX OS 后台,然后手工设定固定 IP,设置完成后重启网络服务,即可登录集群初始化界面。

 

问题:SMTX OS 系统下如何配置固定 IP?如何确认网卡状态以及网卡的对应关系 ?

回答:访问 SMTX OS 服务器控制台(通过 IPMI 或者连接显示器和键盘) ,使用账号 root,密码:smartx 登录后台。

1.通过 ifconfig 命令列出所有活动的网口名称以及 MAC 地址信息,确认管理网口后,请记录网口名称,如下图中网口名称是:eno16

ip_configuration1.png

2.通过 ethtool + 网口名称,查看网口的连通状态,如下图中显示 speed:1000Mb/s,代表网口是连通状态,速率是千兆。反之,如果网口未连通会显示 speed: unknow!

3.管理网口确认后,通过修改网口配置文件设置固定 IP,输入命令: 
ip_configuration2.png

vi /etc/sysconfig/network-scripts/ifcfg-eno16 后,按照下图修改并保存:
ip_configuration3.png

4.输入 systemctl restart network 激活 IP 

使用过程篇

问题:请问哪里有 Rest API 接口描述文档呢 ?

回答:API 文档集成在管理控制台,登录节点管理控制台,设置菜单中有 API 文档。

问题:社区版创建虚拟机安装 Windows 2016 系统时找不到可以安装的(磁盘)驱动,是需要调磁盘的格式吗?

回答:SMTX OS 的虚拟机默认使用 Virtio 磁盘总线,而 Windows 系统没有内置 Virtio 驱动,需要加载 Virtio 驱动进行安装。详细过程如下:

下载 Virtio 镜像:https://fedorapeople.org/groups/virt/virtio-win/direct-downloads/archive-virtio/virtio-win-0.1.185-2/virtio-win-0.1.185.iso

win20161.png

下载 Virtio 镜像,并上传到 CloudTower,虚拟机同时挂载 Windows 安装镜像和 Virtio 镜像,重新开始 Windows 安装,还是到了上图的位置(依然没有识别到虚拟硬盘),点击加载驱动程序,如下图,选择对应的文件夹
win20162.png

扫描后会显示如下图的驱动程序
win20163.png

成功加载驱动后就能正常识别硬盘大小了,然后就可以正常安装操作系统了。
win20164.png

问题:请解释一下 IDE 和 Virtio 两种总线的区别,对虚拟机的性能有没有差别?

回答:实际上 ELF 中的虚拟机可以为虚拟磁盘提供三种总线模式,其中 IDE 总线是全虚拟化的虚拟硬件,开销大,存储性能较差,但兼容性,无需安装驱动即可识别;而 Virtio 和 SCSI 这两种模式都是基于半虚拟化实现的 IO 虚拟硬件,开销小,存储性能好,但 Windows 操作系统没有内置 Virtio 设备驱动,需要额外安装驱动。推荐虚拟机使用 Virtio 或 Virtio SCSI 总线,这样性能更好。

问题:请问在 WEB 管理页面里的虚拟机列表菜单中能直接看到虚机的 IP 吗?需要怎么操作?

回答:需要安装 VM Tools 工具,安装后可支持虚拟机显示 IP 主机名等信息

问题:一台虚拟机无法改变分辨率,试过其他两种显卡类型也不行?

回答:这种情况应该是虚拟机没有正确安装虚拟显卡的驱动,可以通过安装 VM Tools 或者访问 Virtio 驱动镜像进行安装驱动,即可解决。

问题:社区版新建了个分布式交换机,无法删除?

回答:如果分布式交换机包含连接了已存在的虚拟机,是不允许删除的,如果要删除分布式交换机,需要将关联的虚拟机取消相关虚拟网络,以及手工删除虚拟网络后并确保分布式交换机上没有任何虚拟网络后,才能删除分布式交换机。

问题:SLB 的负载均衡模式都需要对交换机做什么配置?

回答:SLB 负载均衡模式是基于 MAC 和 vLAN ID 的负载均衡模式,无需交换机做设置,即可支持。如果选用 TCP 负载均衡模式,交换机则需要启用 LACP 功能。

问题:在管理界面卸载缓存盘的话,会影响下次启动吗?

回答:如果主机有 2 块缓存盘,是允许在线卸载缓存盘的,不影响下次启动,但是会触发数据恢复,因此不要随意卸载缓存盘,除非是缓存盘有故障警报或者损坏的情况。

继续阅读