当 IT 系统出现故障,问题定位往往是运维人员最头疼的环节。尤其是超融合系统,由于整体涉及的技术栈比较复杂,且有越来越多的用户基于信创环境进行部署,非常考验厂商和技术人员的专业能力:厂商研发和售后工程师不仅应能快速定位自家产品的问题,还可帮助用户定位和解决相关硬件、存储、虚拟化、宿主机操作系统等不同层面的故障。

得益于核心组件的自主研发能力、深度的信创生态支持和专业的技术团队实力,SmartX 可为用户提供“全栈”的超融合系统故障定位与解决支持,帮助用户解决基础设施软硬件(含信创技术栈)多个层面的技术问题。下面,我们将通过 3 个案例,分享 SmartX 技术人员在硬件、虚拟化平台和虚拟机层面的故障定位与处理经验。

 

服务器硬件层问题定位与解决案例

某制造企业:存储出现过长延迟,SmartX 工程师分析日志发现“可疑”SSD

某制造业用户在使用 SmartX 超融合时多次触发“存储平均延迟超过 2s”的告警(未产生使用影响)。得到联系后,SmartX 工程师为客户提供了远程排查,发现所有节点均存在零星的 Slow I/O,但并没有检测到异常磁盘。工程师进一步检查了各个节点的日志,发现在发生 Slow I/O 时存在异常日志:

hci-fault-locating-1.png

一线工程师与开发团队共同分析后,判断该日志为 SSD I/O 太慢导致的。经过进一步排查,工程师排除了 HBA 卡的问题,在检查 SSD 时,发现服务器厂商提供的硬件与客户要求的不一致,可能由于 SSD 兼容性问题导致 I/O 延迟。随后 SmartX 帮助用户多次与服务器供应商及硬件厂商沟通、测试,证实该 SSD 确实不符合客户预期,且由于硬盘自身的资源回收机制存在问题,会导致性能下降,因此触发了告警。SmartX 随即协助客户完成了 SSD 更换,有效解决了这一问题。

 

信创技术栈虚拟化平台层问题定位与解决案例

某金融机构:虚拟机突然暂停,SmartX 工程师发现 KVM 内存申请问题并提供 Kernel Patch

某金融机构在 ARM 架构信创环境部署 SmartX 超融合集群(基于原生虚拟化 ELF),在正常运行时,发生虚拟机暂停现象,从运维管理界面观察到虚拟机处于暂停状态,无法 ping 通,无法对外提供服务。

为了方便故障排查,同时保证当前业务的正常进行,SmartX 工程师利用 SmartX 超融合快速克隆功能新建一台虚拟机供用户临时使用,随后协助用户进行远程诊断。在检查日志时,SmartX 工程师发现“kernel: kvm[74555]: Unexpected L2 read permission error”记录,且发生时间与虚拟机暂停的时间点基本吻合。基于这一线索,工程师高度怀疑虚拟机暂停与 KVM 有关,并协调服务器厂商一起进行问题排查。

hci-fault-locating-2.png

为了避免再发生虚拟机暂停的情况,SmartX 先为用户提供了一个临时方案,该方案能够在 2 分钟内发现暂停的虚拟机,并以邮件方式通知管理员,由管理员操作恢复虚拟机。同时,SmartX 开发团队在进一步分析后发现了问题原因:当虚拟机里产生缺页中断,会进入 KVM 申请内存,这时 KVM 对内存页交换条件进行了错误判断,导致虚拟机申请内存失败,进而导致暂停。

定位问题后,SmartX 开发团队在一周内就提供了 Kernel Patch,通过仅修改判断条件而不改动 Kernel 和 Swap 的方式解决了该问题。用户在测试集群更新 Patch 包后,虚拟机正常运行,并于 3 周后对生产集群进行了升级,再未出现虚拟机暂停的情况。

 

信创技术栈虚拟机层问题定位与解决案例

某金融机构:信创集群切换虚拟网络后网卡丢失,SmartX 工程师多次测试定位网卡热插拔速率

某金融用户信创超融合集群(基于 ARM 架构的信创操作系统)在编辑虚拟网卡关联网络后,发生虚拟机网卡丢失的现象。SmartX 工程师在初步检查后,发现用户原 POC 环境中并未出现该问题,再次测试验证后,初步判断该问题是由于跨 VDS 修改网卡网络导致的:在正式集群中,虚拟机网卡关联网络跨越了不同的 VDS,可能存在虚拟机内部无法识别网卡的情况,而 POC 环境不存在跨 VDS 的情况。

为了进一步准确根因,SmartX 研发团队检查了 Guest OS 内部日志,并开展了多次复现测试,针对虚拟机开关机状态、虚拟 PCI 插槽、热插拔时间间隔等因素进行逐一排查。最后发现,仅当 Guest OS 为某国产操作系统特定版本时,基于同一虚拟 PCI 插槽执行热拔设备后立即执行热插设备操作,操作系统的 Kernel pciehp 驱动中断处理异常,会导致热插设备被自动卸载。后经研发团队反复测试,将安全热插拔间隔时间确定在 3 秒及以上。

针对这一问题,SmartX 为用户提供了 Patch,确保用户在该操作系统上能够正常进行网络切换,随后与操作系统厂商进行了沟通,由操作系统厂商进一步定位并修复了该问题。

 

SmartX 超融合:自研核心技术助力全栈故障根因

SmartX 技术团队卓越的故障定位与解决能力,不仅源自于过硬的专业技能,更得益于 SmartX 核心组件自主研发,和信创技术栈的深度适配:

  • 超融合核心组件 100% 自主可控,SmartX 一线工程师和开发团队具备过硬的基础设施软硬件技术实力和丰富的故障根因经验,帮助用户解决多个层面的技术问题。
  • 深度适配国产主流 CPU 架构、操作系统、数据库与中间件,可为用户提供针对信创技术栈的技术支持。
  • SmartX 超融合的高可用与简易运维特性,可在降低故障定位难度的同时保障业务连续性。

欲详细了解 SmartX 超融合信创适配与运维支持特性,请阅读:

您还可点击阅读电子书《超融合技术原理与特性解析合集:管理与运维》,了解 SmartX 超融合如何通过磁盘健康检测、存储性能管理、弹性扩容等特性,降低用户运维压力。

继续阅读