概述

自 SMTX OS 社区版发布以来,有许多用户下载了和尝试部署 SMTX OS ,在过程中遇到一些问题并在社区中提问,本文是将这些有代表性的问题集合在一起,并按照不同阶段进行分类,希望能帮助用户快速获得解决问题的思路。

另外,如用户希望全面了解 SMTX OS 部署过程,请参考以下两篇文章:

社区版安装部署指南:https://www.smartx.com/web-docs/docs/installation_guide/installation_guide_01.html

极限挑战:如何用2台服务器搭建超融合集群:https://zhuanlan.zhihu.com/p/433473572

目录

SMTX OS 社区版安装使用中常见问题合集(产品前期了解篇)

SMTX OS 社区版安装使用中常见问题合集(部署准备篇)

SMTX OS 社区版安装使用中常见问题合集(系统安装篇)

SMTX OS 社区版安装使用中常见问题合集(使用过程篇)

产品前期了解篇

问题:社区版后期能直接转到商业版本吗?

回答:可以的,导入正式软件许可以及软件升级可转为商业版本。

问题:社区版和正式版功能区别主要在哪里呀?

回答:

对比项 社区版 正式版
授权 社区版授权(包含 SMTX OS 和 CloudTower ) 基础版、标准版、企业版
使用时限 官网申请社区永久许可,可一直免费使用 免费试用许可 1 个月

商业永久许可(一次性付费)和订阅许可(按年付费)

节点规模 SMTX OS  社区版最大集群规模 3 个节点,

CloudTower 社区版最多支持纳管 3 个社区版集群

基础版(5)、标准版(16)、企业版(最大255)
虚拟化平台支持 仅支持部署 ELF 支持 ELF、ESXi 或者 XenServer
服务与技术支持 不提供正式的服务与技术支持,

有问题可以到社区去留言,但不保证时效性

提供企业售后服务,具体细节跟服务的等级相关

问题:SmartX 的存储属于块存储吗?

回答:是的,SMTX OS 内置了 ZBS 分布式块存储软件,提供原生的块存储服务。

问题:社区版支持与 VMware 集成超融合的模式吗 ?

回答:不支持,商业版才可以支持,详细请查阅:社区版和正式版功能区别主要在哪里呀?

问题:社区版支持哪些客户操作系统,实体机如何迁移到虚拟机上?而 VMware 的虚拟机又如何迁移?

回答:主流的 Windows 和 Linux 操作系统都是支持的,具体可以看 SMTX OS 的兼容列表;从 VMware ESXi 迁移到 ELF (SMTX OS 内置虚拟化软件),我们提供了免费的 V2V 工具,可支持从 ESXi 在线迁移虚拟机到 ELF 上。

问题:VirtualBox 的虚拟机支持迁移到社区版吗?

回答:可以的,但对于 VirtualBox 的虚拟机,目前 SmartX 官方没有提供专门的 V2V 工具,但可以通过导入到平台后,通过内置的命令行工具进行格式转换,以及涉及一些手工操作,相对 VMware 的虚拟机操作上相对麻烦一些。

问题:社区版有(内置的)性能观测工具么?能观测到 VM 中卷的 IO (以及)在缓存盘和数据盘的分布(情况)及热点(数据)情况不?

回答:有的,系统内置监控报表功能,可以提供实时(历史数据分析需要商业版支持)的缓存命中率, 虚拟机的 IO 延时情况,IOPS 统计等。

问题:你们的分布式储存软件(SMTX ZBS)可以提供测试吗?

回答:SMTX ZBS 分布式存储软件商业版已经在 2021 Q4 发布,可以提供 30 天免费测试许可,但对应的社区版暂时还没有发布,预计会在晚些时候发布。

问题:社区版怎么申请永久使用?

回答:社区版安装完成后,可在管理界面获取系统序列号,凭序列号,访问 SmartX 官网,填入一些基本信息,即可申请永久许可。

许可申请页面:https://www.smartx.com/community-license/

问题:三个节点(3 台服务器组成的)集群可以跑两百多个虚拟机么?

回答:这个问题不能一概而论,集群能运行多少台虚拟机主要看服务器和虚拟机的资源配置,(满足 3 主机运行 200+ 虚拟机)单台主机运行 66 台虚拟机,相对来说属于密度比较高的情况。据实际经验,生产环境一般单台主机运行 20-30 个虚拟机,开发测试环境运行 50 台左右。

问题:SmartX 社区版有类似 VMware 的 FT 容错功能吗?

回答:SmartX 社区版没有提供类似 VMware 的 FT 容错功能。

问题:请问虚拟机软件(SMTX OS)是自己开发的吗?

回答:SMTX ELF 虚拟化软件是在 KVM 的基础上开发的,但自行开发了包括 HA、自动调度、高级监控等企业级的功能。

问题:请问服务器扩充硬件会影响 SmartX 系统运行吗?例如:加硬盘?加内存?扩展后软件需要调整吗?

回答:在线增加硬盘是不会影响系统正常运行的;添加内存操作需停机进行,如果希望避免影响业务,可以先通过在线迁移将需要增加内存的主机上的虚拟机到另外两个可用节点(前提是集群拥有三个节点,否则必须全部停机进行扩容),然后关闭节点进行内存添加,这样可以不影响业务正常运行;由于集群有节点离线,系统会自动触发数据恢复;服务器扩展硬件后不需要调整软件设置,同时也不涉及软件许可费用增加的问题(社区版免费,商业版本的许可是按 2CPU 节点为一个许可,跟内存、硬盘大小无关)

问题:SMTX OS 有专门的超融合管理节点吗?或者说有单个或几个管理虚拟机吗?CloudTower 有冗余吗,例如:主备虚拟机吗?如果是单台,那管理虚拟机挂了,客户不就无法管理了嘛?

回答:目前 CloudTower 没有提供主备虚拟机冗余的,但 CloudTower 虚拟机故障并不影响集群的正常运作,并且每个服务器节点本身已经有管理界面的,可提供应急管理平面。

问题:三节点集群,当有一个节点宕机后,上面的虚拟机重新在别的节点上拉起需要多久?

回答:SMTX OS 的 HA 触发时间是 3 分钟,当系统检测到节点宕机后,会在三分钟之内触发 HA ,虚拟机会自动迁移到其他节点并重新启动。

问题:如果主机故障(无法维修),更换的服务器与原服务器配置不同,会有影响吗?

回答:新更换的服务器首先得满足 SMTX OS 的硬件兼容性要求,在这个前提下,SmartX 集群是允许节点配置的不完全一致的,包括 CPU、内存、硬盘等配件不一致都是支持的。但一下情况需要考虑的。例如,集群内主机可以使用代数相近但型号不同的 CPU ,并可支持不同 CPU 之间的虚拟机迁移,但是如果 CPU 的年代相差较远,那么在线迁移功能也可能受到影响;另外,如果新增硬件相比原有服务器的性能是有所下降,也可能会导致集群性能的下降。

问题:请问超融合 3 节点(集群)如果都因为停电后(电力又恢复后)重启了,承载的虚拟机是按什么流程重启的,同时启动的话会不会造成设备超载?

回答:如果是集群所有节点都掉电,电力恢复后,虚拟机还是会在源主机上启动的,不会因为都迁移到一台主机上引起超载的问题。另外,如果是触发 HA 的情况下,虚拟机的启动是以随机的顺序轮流启动的,并不是所有虚拟机同一时刻启动的;启动顺序目前是不支持手工调整的,由系统决定。

问题:SMTX OS 要求硬盘直通,没有 RAID 保护,那么坏一个硬盘数据会不会丢啊?

回答:不会丢数据。因为 SMTX OS 的数据冗余不依赖 RAID 技术实现,而是通过多副本技术实现。当虚拟机写入数据,系统会根据存储策略自动写入 2 份或者 3 份,虚拟机本地主机有一份数据,远程主机有另外 1 份(3 副本下则有另外 2 份数据写入到另外两台不同的主机上)。这样的机制使得无论是遭遇单个硬盘故障还是主机故障,至少能在另外一个主机找到对应的数据副本可用,并可通过数据恢复自动恢复到预期级别,保障数据的可靠性。

问题:SMTX OS 主机中每块盘都是独立的吗?可以支持并发读写吗?

回答:SMTX OS 主机上的数据盘和缓存盘都是直通的,没有组建 RAID 组,因此可以理解是独立的。SMTX OS 无需专门的热备盘,多块数据盘和缓存盘支持并发读写。

问题:服务器故障需要一个恢复的过程吗,恢复期间能提供服务吗?

回答:当集群中有服务器发生故障,集群会将故障的服务器上面的 VM 通过 HA 功能自动迁移至其他可用的服务器节点上并自动恢复运行,同时会自动执行数据恢复,保障数据可靠性;而没有故障的主机上的虚拟机不受影响,整个数据恢复过程,系统会监控集群的负载情况自动调节恢复速度,最大程度保障现有业务性能和响应速度。

问题:能不能评价 EC 功能?相对主打 EC 功能的超融合产品,SmartX 的优势在哪里?

回答:RAID、副本、EC 这些都是数据冗余的保障手段,这些技术有各自的特点,以及不同的适用场景。例如 EC 它的机制与 RAID 5/6 差不多,通过多位校验算法,提高得盘率(节省空间),但同时消耗更多的计算资源,并且降低了 IO 性能。而副本技术更简单,性能好,但缺点是只有 50% 得盘率。而 SmartX 采用的是副本技术,并没有采用 EC 技术,主要考虑超融合的特征计算和存储是融合部署的(两者存在资源竞争的关系),数据冗余算法对 CPU 和内存消耗越低,那么主机更多的资源可用于运行虚拟机的资源就越多。而实际上 SMTX OS 的资源消耗基本上是业内最低,并且 IO 性能也是业内领先的水平。

如果大家对得盘率依然耿耿于怀,无非是对成本有更高的期望,那么我们可以细想一下,在混闪集群中,数据盘都是采用廉价的 SATA HDD,难道 CPU 资源不比 HDD 更加昂贵?EC 技术无非就是降硬盘的成本,但它需要更多的内存和 CPU 资源,在超融合环境下,代价可能更高。

问题:SMTX OS 缓存机制是 write back 还是 write through?一般是建议客户使用哪种缓存策略??

回答:SMTX OS 缓存策略是系统自动执行的,无需客户选择的。SMTX OS 缓存机制不属于传统的 write back 和 write through 机制,更准确地说是一种改进版 write back 机制,它既保留了 write back 机制的高效性能,同时有专门的机制应对突发断电引起的数据无法及时更新的问题。

问题:如果出现意外掉电等情况,是如何保证数据一致的?缓存盘的脏数据是否有脏数据保护措施么?

回答:缓存盘的数据实际上也有多副本保护,并且遵循强一致性的特点。另外,在系统遭遇意外掉电的情况下,系统将通过 Journal 的 IO 回放功能确保数据一致性。

问题:SMTX OS 集群中,使用 PMEM 与 NVMe SSD (作为缓存)性能上的差距应该不小吧?成本上的差异是否也是巨大的?

回答:两者性能差距是比较大的,SMTX OS 支持 Intel 持久化内存(PMEM)作为缓存,该方案下 IO 延时可低至 100us,3 节点集群 IOPS 超过 100 万(是 NVMe 的 2.5 倍以上)。PMEM 本身硬件成本上升并不算明显,但目前这个方案只提供一体机支持,并需要 SMTX OS 企业版许可;另外,存储网络也需要升级到 25G 以上的 RDMA 网络(推荐使用 100G RDMA 网络)。 方案主要应对一些对延时要求极高的应用。

继续阅读