论坛问题精选:

超融合选型测试时,其中一个关键点就是节点或硬盘故障后的恢复效果,也就是数据同步的效果,这点各位是如何测试的,目前哪些超融合厂商在这方面的性能最好。

答复:

一、关于节点故障或者硬盘故障触发的数据恢复效率的测试主要分三种场景:

  • 插拔 HDD
  • 插拔 SSD
  • 节点断电

二、测试考量的关键指标有:

  1. 数据恢复过程中对整个集群的性能影响(这个非常重要,数据恢复如果过分影响正在运行的业务是无法接受的。)
  2. 数据恢复量(由于技术差异原因,同样的场景,数据恢复量可能不一致)
  3. 数据恢复速度(涉及数据恢复效率)
  4. 数据恢复触发条件

三、不同测试场景的实际意义:

插拔 HDD (机械硬盘)测试:

主要目的是模拟硬盘故障的状况下,系统执行数据恢复的效率。

  1. 测试中需要留意副本策略(或者是 RAID 级别,纠删码级别等),例如 2 副本和 3 副本所允许故障的硬盘数量不一致,恢复速度也不尽相同。
  2. 测试中需要留意插拔硬盘的容量大小以及已写入数据量大小,观察拔出硬盘触发数据恢复量是全盘容量还是已写入数据量的恢复,这会直接影响到恢复效率。
  3. 测试中需要记录恢复时间,恢复数据量,计算出恢复速度;以及需要验证节点数量对数据恢复速度的影响(有些系统节点可以支持并发恢复,节点数多恢复效率更高;而有些系统可能不受节点数量影响)
  4. 触发数据恢复是否要专门的热备硬盘(使用空间的效率)
  5. 记录恢复过程中系统性能下降比例

插拔 SSD (固态硬盘)测试:

主要目的是模拟 SSD 故障的状况下,系统执行数据恢复的效率。由于 SSD 在不同的系统中有不同的用途,例如是作为缓存空间、容量空间,甚至是操作系统空间或者元数据存放空间等等,相比 HDD 来说更复杂,故障的影响可能更大,因此单独列出进行测试。

  1. 测试中需要验证 SSD 故障是否是单点故障
  2. 验证数据恢复量与 SSD 硬盘容量之间的关系(某些系统有磁盘组概念,单块 SSD 故障会引起整个磁盘组数据恢复)
  3. 恢复速度
  4. 记录恢复过程中系统性能下降比例

节点断电测试:

主要目的是模拟单个服务器节点故障的状况下,系统执行数据恢复的效率

  1. 节点失效到触发数据恢复需要的时间(考虑系统是否足够敏感)
  2. 节点长时间失效,数据恢复量(模拟需要长时间修复机器宕机问题)
  3. 节点短时间重新上线,数据恢复量(模拟重启解决机器宕机问题)
  4. 恢复速度(节点数量是否影响恢复速度)