论坛问题精选:

超融合架构超大规模部署中单体集群最大多少合适,单体集群过大有哪些风险?

答复:

市面上有些超融合产品号称集群规模可以支持上千节点甚至无限大,但这些只是理论值,并不代表实际部署会做一个很大的集群,因为过大的集群会产生一些运维上的风险。
单个集群规模超大,容易导致容错域的问题。例如超融合一般使用的副本技术,3 副本情况下允许任意 2 块硬盘同时故障,不会引发数据丢失风险;但是在一个上百甚至上千个节点的集群中,单一集群中硬盘的数量也很可能成千上万,这个数量级中出现超过 2 块硬盘同时故障的几率就大大提升了。
单个集群规模超大,实际上的部署也会带来麻烦。例如网络和机架相关的问题。例如一般机柜选择 TOR 接入(每个 42U 机柜顶部配置交换机),超大规模的集群必然导致服务器无法放在同一个机柜当中,甚至无法接入同一台交换机之中,这就有可能需要交换机的级联,除了增大d交换网络的复杂度之外,也会增大集群节点间的存储网络延时。
对于拥有上百个节点甚至上千节点的超融合用户,实际上单集群规模一般不会超过 64 个节点,甚至大多是在 40 个节点以内,能保证容错域的同时,也保证了集群内部所有节点都接入同一个存储网络交换机,尽可能减少网络延时。而对于数百个节点的管理,可以通过多集群管理功能,在统一的 UI 界面中进行运维和管理。