某自动驾驶公司是聚焦自动驾驶商业化应用的科创公司,利用行业领先的全栈自研智驾技术,聚焦港口、矿区、园区、干线等商业化价值的特定场景,提供面向全领域、全场景的智能驾驶解决方案和智慧运力服务。

容器应用开发初期,新项目要求更加稳定的 IT 基础架构

该公司当前的业务开发完成了初步的容器化转型,以车辆调度管理系统为例,所有智能车辆直接与该系统进行通讯,可以实现实时获取车辆位置、运行状态和运输数据,并完成与港机调度系统的快速对接。系统的前端页面和车辆接入通过 Nginx 进行流量转发,然后再进入到后台的微服务模块中。

公司的容器化与微服务化还处于早期阶段,目前采用单台服务器部署调度系统的全部组件,存在物理层面无高可用容灾的风险,故障排查修复时间长,运维复杂。

因此在推进上海某港口的新项目时,公司希望以此为契机引入更加可靠的 IT 基础架构,确保业务 24h 稳定运行。针对业务特性,公司梳理了如下需求:

  • 业务开发已完成微服务化、容器化转型,目前以单物理服务器部署,需要高可用运行环境。
  • 港口大型车辆的自动驾驶全天运行,需要保障业务的连续性与稳定性,以及全面及时的监控告警能力。
  • IT 运维团队精力有限,希望可以实现交付简单、运维直观,具备监控、告警、日志查看、排错等能力。
  • 项目上线周期短,迭代快,需要快速交付。
  • 港口车辆装载量、货物运输量大,需要满足新项目的应用双活+异地灾备方案建设。
  • 支撑 MySQL 和 Redis 缓存服务。

POC 测试验证拓展性与稳定性,引入 SmartX 全栈超融合构建虚拟化容器混合基础设施

该公司初期考虑了公有云技术路线,但一直未部署成功,且存在绑定业务、后续无法交付其他客户的风险,基于此公司开始对全栈超融合技术进行考察。

公司了解到超融合以分布式架构进行部署,可有效避免单点故障,同时可以以最小规模 3 节点起步,支持在线扩容与服务器异构,满足拓展性和稳定性方面的需求。

在多家厂商中,公司认可 SmartX 超融合虚拟化与存储组件的性能、稳定性以及专业的本地化服务能力,同时 SmartX 全栈超融合提供的 SKS 组件,与公司的容器化改造道路相契合。

SKS(SMTX Kubernetes Service)是 SmartX 发布的生产级 Kubernetes 构建与管理服务产品,可以帮助企业 IT 运维团队轻松部署和管理生产级 Kubernetes 集群,构建可承载虚拟化和容器应用的混合基础设施。SKS 可为使用 SmartX 超融合的用户提供构建 Kubernetes 集群所需的计算、网络、存储等资源,在超融合集群的管理架构基础上实现 Kubernetes 工作负载集群的全部生命周期管理。

在正式引入 SmartX 超融合之前,公司对其产品性能进行了 POC 测试。

 

测试架构

虚拟化

  • 超融合集群由三台服务器+两台万兆交换机组成。
  • MySQL 和 Redis 作为有状态关键业务直接运行于虚拟机上。
  • 采用三副本数据存储保障高可用性要求。

 

云原生

  • 超融合集群内使用 6 台虚拟机组成高可用 Kubernetes 集群。
  • 全部微服务组件以容器方式运行在 Kubernetes 集群内,仅访问同集群下的 MySQL 和 Redis 服务。

 

流量负载

  • 为满足双活切换的需求,集群内业务使用 Nginx 作为访问入口,便于故障状况下的健康检查和流量切换。

 

超融合硬件环境信息

设备名称

品牌

型号

数量

服务器

SmartX Halo

8100S

3

万兆交换机

H3C

S5820V2

1

线缆

光纤线

裸光纤

3

千兆网线

千兆网线

3

 

 

软件环境信息

软件

软件版本

备注

SMTX OS

5.1.0

超融合软件

SMTX CloudTower

3.1.0

管理平台软件

SKS

1.0.0

Kubernetes 管理平台

 

其中超融合虚拟化采用 ELF,测试虚拟机操作系统采用 Ubuntu。

 

测试内容

除了常规的超融合虚拟化与存储相关的功能性、性能、稳定性及可靠性测试外,SmartX 根据业务特性增加了 SKS 的相关测试,包括 Kubernetes 集群创建、业务部署、服务高可用、服务多副本、快照计划等。

 

测试结果

超融合平台功能性测试

  • 虚拟机日常运维常用功能
  • 监控能力全面
  • 故障报警通知
  • 资源用量预测

 

超融合虚拟化与存储性能测试

  • 超融合集群 4K 随机写提供超过 20 万 IOPS, 4K 随机读提供超过 70 万 IOPS
  • 超融合集群 256K 顺序写提供超过 4000 MB/s 带宽,256K 顺序读提供超过 16000 MB/s 带宽
  • 分布式存储性能远超软件需求,平台处理效率明显提高

 

超融合平台稳定性及可靠性测试

  • 模拟硬盘故障测试:及时报警,后台自动恢复数据
  • 模拟节点故障测试:虚拟机自动在其他节点恢复

 

业务测试

  • 界面化一键创建高可用 Kubernetes 集群
  • 一键部署全套业务系统,自动处理服务依赖
  • 多副本服务故障秒级自动恢复
  • 监控视图丰富

 

测试结果表明,SmartX 超融合与 SKS 可以实现界面化快速搭建集群和秒级故障恢复,具备多种容灾手段(单集群定时快照、原生备份能力、多集群容灾复制数据等),可支撑 MySQL 等关键数据库软件,满足公司对稳定性、拓展性和效率方面的要求,最终公司决定引入 SmartX 全栈超融合产品 建设上海港口新项目。

虚拟化容器混合基础设施承载车辆调度管理系统与生产环境稳定运行

上线情况

目前基于 SmartX 全栈超融合产品构建的虚拟化容器混合基础设施已在上海港口机房完成部署,全套平台一天内完成上线。上线后该公司在一套超融合环境中搭建了开发测试、准生产和生产环境,车辆调度管理系统成功上线投产,目前已有超过 100 辆车上线,运行平稳。

 

方案特点

关键组件实现高可用配置

优化平台架构,将所有关键组件实现高可用配置。如车辆调度管理系统以 Nacos 作为注册中心,过去 Nacos 为单实例模式,SmartX 工程师在查阅资料后将 Nacos 版本升级为社区最新版,并以 3 节点集群模式部署于 SKS 环境。

 

全组件实现依赖判断和健康自检

  • 自动检测上游服务状态,如检测到 Nacos 服务 8848 端口正常时才启动微服务组件
  • 为单个服务配置资源预留和资源上限
  • 自动检测服务端口是否正常,异常时自动重启
  • 相同服务分开节点调度,保障节点异常状况下的高可用
  • 调用 ELF CSI 自动创建多副本虚拟卷,挂载重要文件

 

虚拟机和容器组件资源告警

集群内虚拟机内存、单独容器的内存与 CPU 以及日志盘的内存使用量达到设定值后发出资源告警。

 

编写交付文档

考虑到原有运维团队没有太多 Kubernetes 运维基础,SmartX 工程师为其编写了运维手册,涵盖平台发布、升级组件、编排文件、告警配置、排错手段等多个流程。

 

部署收益

  • 稳定性增强:服务多副本部署,可以实现秒级流量切换;同时支持自动健康检测与恢复,保障业务连续性。
  • 加快平台迭代:规范开发和上线流程,车辆调度管理系统迭代速度加快,原本的上线为小时级别,现在达到分钟级别。
  • 简化运维:存储、虚拟化和 Kubernetes 在同一界面运维管理,监控视图丰富。
  • 节约成本:最小可以 3 节点搭建集群,具备高可用,平台功能完整。

引入SmartX 全栈超融合产品 后,该公司可以以自动化流程快速完成集群生命周期管理,并根据业务需求变化随时拓展或收缩资源。容器+虚拟机的混合部署实现了统一管理,有效提升了资源利用率与运维效率。

未来,公司将与 SmartX 持续合作,在上海港口建设异地灾备站点,并开展某知名跨国化工企业园区自动驾驶项目建设,以容器化转型赋能业务发展。

 

欲了解更多 IT 基础架构团队 Kubernetes 运维与管理干货知识,欢迎点击链接下载电子书:

《IT 基础架构团队的 Kubernetes 管理:从入门到评估》

 

您也可以点击链接获取《SmartX 客户案例集》,了解更多行业客户实践。

继续阅读