目前,不少企业数据中心使用 FC 交换机和集中式 SAN 存储(以下简称“FC-SAN 架构”),支持核心业务系统、数据库、AI/ML 等高性能业务场景。而在开展 IT 基础架构信创转型时,很多用户被国外交换机“卡了脖子”:FC 交换机市场几乎被 Broadcom 和 Cisco 等国外厂商垄断,很难找到成熟的国产替代方案。
而随着 RoCE(RDMA over Converged Ethernet) 这一高性能网络技术的日渐成熟,以太网交换机 + NVMe-oF 或成为破局关键:由于 RoCE 通过以太网使用 RDMA(Remote Direct Memory Access)网络协议,用户可以使用国产以太网交换机替代 FC 交换机;搭配支持 NVMe over RDMA(RoCE v2)和信创 CPU 架构的分布式存储,即可同步实现 IT 基础架构的信创转型与架构升级,满足核心业务应用“高性能、低延迟”的需求。
以下将结合权威机构趋势报告和行业用户实践,讨论这一转型方案的可行性。
替代可行性:技术成熟度与信创实践难度分析
技术成熟度:RoCE 成主流 RDMA 实现方案,NVMe-oF(RoCE)获多厂商与权威机构青睐
传统以太网采用 TCP/IP 作为网络传输协议。由于 TCP/IP 协议栈处理带来的延迟较长、服务器 CPU 消耗更高,本质上属于有损网络,其性能一直比不过 FC 网络,这也是为什么企业多采用 FC-SAN 架构支持高性能应用场景。而 RDMA 技术的出现,为解决 TCP/IP 的缺陷,提供了一种全新且高效的解决思路:通过直接内存访问技术,数据从一个系统快速移动到远程系统的内存中,无需经过内核网络协议栈,无需双方操作系统的介入,最终达到高带宽、低延迟和低 CPU 资源占用的效果。
RoCE 正在成为主流的 RDMA 实现方案。相比更早出现的 InfiniBand 技术,RoCE 支持无损以太网部署,无需使用专有网络(IB),成本也更低。虽然 RoCE 在诞生之初有诸多不足, 但经过 10 多年的发展,目前的 RoCE v2 技术已具备路由能力,且在性能表现上已经达到与 InfiniBand 相同甚至更高的水平。Mellanox 发布的《RoCE in the Data Center》白皮书明确表示,直到 RoCE 的出现与成熟,RDMA 才在基于以太网的数据中心得到大规模的应用,为数据中心业务带来低延迟、高性能的体验。中国移动发布的《以太无损网络测试技术白皮书》也指出,“在高性能计算和存储场景中,基于 RoCE 技术构建数据中心网络已成为主流解决方案之一,该方案融合了 RDMA 和以太网的优势”。
RDMA 三种实现方案对比
目前国际主流的网卡与适配器制造商,如 Intel、Mellanox、Cisco、Broadcom 等,均提供以 RoCE v2 技术实现 RDMA 能力的产品和方案。众多主流云服务商,如 Microsoft – Azure 和 Orcale – Oracle Cloud Infrastructure(OCI)也利用 RoCE 提升方案网络性能。例如,OCI 利用英伟达 ConnectX SmartNICs 和 RoCE 技术构建支持弹性扩展与低延迟的高性能网络,为高性能计算、GPU、AI/ML、Oracle 数据库等场景提供高性能网络能力。国内厂商浪潮也帮助用户基于 Kubernetes 和 RoCE v2 构建 AI 训练集群,提升整体运算性能。可以看出,以 RoCE 支持核心业务场景(尤其是高性能业务场景),已得到业内广泛认可。
虽然 RoCE 对以太网交换机没有能力要求(仅要求网卡支持 RoCE),但要求存储产品提供 RDMA/RoCE 支持。其中应用最广泛的技术之一就是 NVMe-oF(NVMe over Fabrics)。NVMe-oF 是一种数据接入协议,将 NVMe 在单系统内部提供的高性能、低延迟和极低的协议开销等优势,进一步发挥到客户端与存储系统互联的网络结构当中。
Gartner 在《Top Trends in Enterprise Data Storage 2023》报告中指出,NVMe-oF 是块存储领域未来发展的三大重点之一:“NVMe-oF 方案适用于基于 NVMe 硬盘的低延迟应用场景 … 该技术可充分满足应用对高性能和灵活扩展的存储能力要求。同时,在分布式和软硬件解耦的平台上, NVMe-oF 可进一步发挥和增强存储系统的能力。”
根据 Gartner 的预测,到 2027 年,至少 25% 的企业都会使用 NVMe-oF 进一步提升存储性能,以支持 AI/ML、HPC、数据库、金融核心交易系统等高性能应用场景。
NVMe-oF 支持多种传输层协议,包括 FC(NVMe over FC)、RDMA(NVMe over RDMA)和 TCP(NVMe over TCP)。其中,NVMe over FC 基于传统的 FC 网络,并不适合信创采用。Gartner 在《Competitive Landscape: Innovative All-Flash Array Offerings Architected for the Data-Centric Era》调研中也发现,大部分存储厂商对 NVMe-oF 的支持集中在 NVMe over RDMA/RoCE 和 NVMe over TCP 这两种方案上。而相比 TCP 而言,RDMA/RoCE 可以提供更好的性能,因此数据中心更适合采用 NVMe over RDMA/RoCE,支持对性能和延迟敏感的业务。
现阶段,NVMe over RDMA/RoCE 的应用情况如何?目前,国内用户常见的主流存储厂商,包括 VMware vSphere+vSAN、Dell EMC、IBM、华为 OceanStor、志凌海纳 SmartX 等,均提供支持 NVMe over RDMA/RoCE 的方案/版本,且在国内已具备实践案例(在下文展开解读),充分证明了技术的成熟与可靠性。
信创实践难度:信创以太网交换机与存储方案成熟,行业头部用户已实现转型
“以太网交换机+支持 RoCE 的存储”在技术上可以实现 FC 交换机的信创替代,在实践层面可行吗?有信创方案和实践支持吗?
- 以太网交换机:国产以太网交换机已经比较成熟了,国内厂商如华为、H3C、锐捷等均可提供国产替代方案。
- 支持 RoCE 的网卡:国内品牌如华为可提供 25GbE 支持 RoCE v2 的自研网卡产品,但对于更高带宽的使用场景,目前的主流选择还是 Intel、Mellanox 等厂商产品。不过这些非国产品牌的网卡,目前仍在信创场景中普遍使用,且可通过信创验收,因此暂不影响用户的选择和使用。
- 支持 RoCE 的 SAN 存储:国内厂商如华为 OceanStor 的部分高端集中式存储可支持 NVMe over RDMA(RoCE v2)。
另外可以看到,一些国内企业,如中国工商银行、中国移动、中国银行等行业头部用户,已经先行一步,基于 NVMe over RoCE 技术开展了高性能存储网络转型。例如,中国工商银行在深入调研高性能网络、存储基础设施等技术及产业应用发展情况后,选定 NVMe over RoCE 技术作为金融高性能存储网络的技术路线,率先建成 RoCE-SAN 高性能存储网络体系的“多地多中心”高可用架构,并进入规模化推广应用阶段,有效缓解金融广域骨干网流量压力并降低成本。详细实践经验可参考:工商银行率先完成金融高性能存储网络体系重构。
不过类似工行的转型实践,是将 FC-SAN 架构替换为 RoCE-SAN,即不改变底层集中式存储架构,利用 RoCE-SAN 插件实现以太网交换机的替代。还有一种方式是采用软件定义的存储——存算分离架构的分布式存储或超融合。这种“新一代数据基础设施”搭配 RoCE,同样能实现 FC 交换机的信创转型,同时提供更好的性能和灵活扩展能力,为高性能应用和新业务的快速上线提供敏捷支持。
RoCE + 软件定义的分布式存储:补齐短板,相辅相成
作为一种现代化存储,软件定义的分布式存储将存储资源池化,并将数据分散放置在多个节点中,节点通过网络互连提供存储服务,从而充分与存储硬件解耦,并提升存储资源利用率和扩展能力。虽然分布式架构消除了集中式存储控制器瓶颈,使得并发性能能够随节点的增加而线性增长,但由于基于 TCP/IP 协议栈的 iSCSI 依然是分布式存储主流的接入方法之一,其对 NVMe 新型存储介质的支持已略显疲态,难以充分满足高性能应用对“低延迟”的要求。
以 NVMe over RDMA(RoCE)搭配软件定义的分布式存储,不仅可以实现低延迟极速网络传输,还可以充分发挥分布式存储高性能、易扩展的优势,让用户在开展 IT 基础架构信创转型的同时,实现基础设施的现代化转型。
国内已有不少用户基于这种方案构建信创基础设施,为前沿应用提供高性能、低延迟支持。例如,复旦大学为了构建云上科研智能计算平台,利用支持 RDMA(RoCE)的信创超融合平台(基于分布式存储)提升性能与数据传输效率。经测试,配置 RDMA 后,流量带宽从 6GB 提升至 19GB(提升 217%),可充分满足科学计算的性能需求。详细实践经验可参考:复旦大学 CFFF 计算平台项目高速数据交换平台实践。
目前,国内 SmartX 等厂商,已经提供支持 NVMe over RDMA(RoCE v2)的分布式存储方案。其中,SmartX 分布式块存储 SMTX ZBS 核心技术完全自主研发,支持海光、鲲鹏等信创 CPU 架构,同时支持iSCSI、NVMe over RDMA(RoCE v2)、NVMe over TCP 三种存储协议,充分满足不同用户和应用需求。用户还可选择全闪或混闪部署架构,也可基于 SmartX 超融合(内置 ZBS 分布式存储),实现存储与计算的融合部署。
替代方案优势总结
- 同时实现信创转型与架构升级:以标准以太网交换机和支持 NVMe over RDMA(RoCE)的存储方案替代 FC 交换机,可避免 FC 交换机“卡脖子”问题;同时以更精简的分布式存储架构替代集中式 SAN 存储,可进一步实现 IT 基础架构的现代化升级。若采用 SmartX 分布式存储/超融合,用户还可使用 海光、鲲鹏等信创 CPU 和 Kubernetes 平台,完善信创转型与容器化升级。
- 提供“高性能”“低延迟”存储支持:软件定义的分布式存储搭配 RDMA 协议,可在提升存储性能的同时降低网络延迟,充分满足高性能业务场景需求。
- 降低成本与运维压力:以性价比更高的以太网交换机和分布式存储替代 FC 交换机和高端存储,节约成本的同时可有效降低运维压力。SmartX 还提供超融合部署方式,进一步精简架构和运维。
后续,我们将从技术角度为大家介绍 RoCE 技术在 SmartX 产品生态的应用与实践。您也可通过电子书《分布式块存储 ZBS 的自主研发之旅》,进一步了解 RDMA 和 NVMe-oF 技术在 ZBS 中的设计与实现。
参考文章:
1. RoCE in the Data Center
https://network.nvidia.com/related-docs/whitepapers/roce_in_the_data_center.pdf
2. 中国移动与中兴通讯发布《以太无损网络测试技术白皮书》等成果
https://www.zte.com.cn/china/about/news/20201123c1.html
3. OCI accelerates HPC, AI, and database using RoCE and NVIDIA ConnectX
https://blogs.oracle.com/cloud-infrastructure/post/oci-accelerates-hpc-ai-db-roce-nvidia-connectx
4. NVIDIA Zero-Touch RoCE Technology Enables Cloud Economics for Microsoft Azure Stack HCI
https://blogs.nvidia.com/blog/zero-touch-roce-ztr-azure-stack-hci/
5. KubeCon China 2023 演讲:基于 Kubernetes+RoCEv2 构建 AI 训练集群的实践
https://www.bilibili.com/video/BV11h4y1i7fy/
6. Top Trends in Enterprise Data Storage 2023
https://www.gartner.com/document/4489199
7. Competitive Landscape: Innovative All-Flash Array Offerings Architected for the Data-Centric Era
https://www.gartner.com/document/3991673
8. What is the NoF+
https://e.huawei.com/en/videolist/networking/data-center-network/3f098b80e594466dbc395413eddae8c5
9. 工商银行率先完成金融高性能存储网络体系重构
https://mp.weixin.qq.com/s/7-ltBPH2_x9UQfsvVeKCIQ
10. iNOF RoCE-SAN 助力中国银行数字化转型
https://e.huawei.com/cn/material/enterprise/3047bbf061c547f996abb40da87bff4c
11. 中国移动完成RoCE-SAN解决方案实验室测试
https://www.c114.com.cn/news/118/a1171170.html