近日,全国高校最大的云上科研智能计算平台——复旦大学 CFFF “切问一号“、“近思一号”正式上线,其中,负责承载“切问”一号数据传输的基础架构,由国产 CPU 集群与 SmartX 超融合集群构成。

智能计算专用平台 CFFF(Computing For the Future at Fudan)包含了面向多学科融合创新的 AI for Science 计算集群“切问 1 号” 和面向计算科学高精尖研究的专用高性能计算集群的“近思 1 号”,算力总规模达到 28 PFlop/s,通过高速光纤环网连通内蒙古和上海,覆盖复旦大学四校区的智算集群,提供超千卡并行智能计算,支持千亿参数的大模型训练,在国内高校尚属先例。

在数据传输方面,“切问 1 号”平台需要实现数据高速的存储与跨城高速传输,以及数据自动分级存储使用技术支撑,以满足不同场景下的科学智能研究与应用需求,针对 IT 基础架构建设,其具体需求包括:

IT 基础架构平台需满足数据高速传输要求,SmartX 超融合 RDMA 支持能力获关注

  • 建设符合数据高效存储与传输需求的云化基础架构,同时满足性能、灵活性、易管理以及本地高可用的需求。
  • 基础架构的节点数量可按需扩展,且起配节点数量尽量少,以有效利用资源。
  • 需要对 25GbE 与 100GbE 网络与 RDMA (Remote Direct Memory Access )有良好的支持,以保证数据读写和传输的效率需求,且需通过功能与性能方面的 POC 测试。

在针对基础架构厂商选型过程中,复旦大学着重看重厂商对于 RDMA 的支持。RDMA 技术的出现,为降低 TCP/IP 网络传输时延和 CPU 资源消耗,提供了一种全新且高效的解决思路。通过直接内存访问技术,数据从一个系统快速移动到远程系统的内存中,无需经过内核网络协议栈,不需要经过中央处理器耗时的处理,最终达到高带宽、低时延和低 CPU 资源占用的效果。

复旦大学了解到 SmartX 超融合在存储接入网络和存储内部数据同步网络中均可支持 RDMA 后,主动与 SmartX 联系进行 RDMA 流控验证,其中存储网配置采用 100Gb 网卡,并对双端口做了动态聚合 ,在未配置 RDMA 时,测试流量带宽约为 6GB,后续进行 RDMA 配置后,流量带宽提升至 19GB,提升 216.67%。

6 节点 SmartX 超融合承载大规模数据高速交换

基于测试结果,复旦大学决定采购 6 节点 SmartX 超融合软件,搭配 AMD CPU 9000 系列,采用 NVMe 缓存 + NVMe 全闪配置,以保障性能,并使用 25GbE 业务网络 + 100GbE 存储网络 + RDMA 以保障性能和数据传输效率。整套系统为不同城市校区与智算集群之间的交换数据,提供了高性能、高可用、可弹性扩展的中转平台。

目前,随着“切问 1 号”平台陆续为世界科学智能大赛提供算力支持,SmartX 也将做好平台支撑与保障工作,保障数据高效、稳定传输。

更多资源

扫描下方二维码,获取《 SmartX 客户案例集》,了解 SmartX 各行业用户在不同场景下的超融合最佳实践案例。

继续阅读