对于低延迟交易、AI 推理、国密改造等企业级关键业务场景,为了追求极致性能和安全合规,企业往往会为业务虚拟机挂载SR-IOV 直通网卡GPU、HCT 加密卡等硬件。而由于直通设备的硬件特性,这些虚拟机无法启用 HA 高可用,一旦主机故障,只能人工介入恢复,中断时间小时级起步,难以满足生产环境要求。

对此,榫卯超融合 6.3 版本新增了 SR-IOV/vGPU/HCT 设备虚拟机 HA 支持特性,创新性引入设备粒度的关联标识机制,打破传统虚拟化平台 “硬件虚拟化设备无法启用 HA” 的行业壁垒,在不损失直通设备极致性能的前提下,实现故障自动恢复,将业务中断时间从小时级压缩至分钟级,满足更多场景业务连续性需求。

以下,我们将针对该功能的实现机制进行深入解读,并分享两则用户实践。

行业共通挑战:硬件虚拟化设备的 “高可用禁区”

在金融低延迟交易、AI 推理、国密改造、高性能计算等核心业务场景中,为获得硬件级性能,虚拟机必须挂载各类硬件虚拟化设备,包括 SR-IOV 网卡、GPU、海光 HCT 加密卡等。而这些虚拟机无法启用虚拟机 HA 功能,由此带来一系列生产级风险:

  • 物理主机故障时,虚拟机无法自动重建,只能人工恢复。
  • 业务中断时间从数分钟到数小时不等,核心业务无法承受。
  • 高性能设备只能用于测试环境,难以真正落地生产并规模化部署。
  • 运维流程复杂、故障不可控,企业在性能与高可用之间被迫二选一。

榫卯超融合 6.3 突破:基于设备关联标识,支持 SR-IOV / vGPU / HCT 设备虚拟机 HA

为应对 “高性能与高可用不可兼得” 的行业难题,榫卯超融合 6.3 引入了对 SR-IOV、vGPU、海光 HCT 三类硬件虚拟化设备的虚拟机 HA 能力,让挂载硬件虚拟化设备的虚拟机可在主机故障时自动重建、快速恢复,真正实现 “性能不打折,业务更可靠”。本功能核心目标包括:

  • 让直通设备从 “专用、静态、不可 HA”,变为 “池化、可调度、可 HA”。
  • 让金融、AI、国密场景核心业务同时获得极致性能与业务连续性。
  • 统一平台 HA 策略,降低运维复杂度与人工失误风险。

技术解读:核心原理、HA 流程与产品对比

核心原理:设备关联标识

榫卯超融合 6.3 通过设备关联标识实现硬件虚拟化设备的统一识别、调度与重建,这是设备虚拟机能够实现 HA 的关键。

  • SR-IOV 网卡、HCT 加密卡:支持用户自定义设置关联标识。
  • vGPU:系统根据 GPU 型号、切分规格自动生成并匹配标识。
  • 当集群内存在同标识、同类型、可用数量 > 0 的设备时,虚拟机自动满足 HA 条件。

HA 触发与重建完整流程

  1. 物理主机发生异常宕机。
  2. 系统检测到故障,自动触发虚拟机 HA 机制。
  3. 系统在集群内筛选具备相同标识、同类型硬件虚拟化设备的目标主机。
  4. 虚拟机在目标主机自动启动、重建。
  5. 硬件虚拟化设备自动挂载,业务快速恢复。
  6. 全程无需人工干预,中断时间从小时级压缩至分钟级。

关键技术优势

  • 不依赖特定硬件、不改动虚拟机配置。
  • 与现有 HA 体系完全融合,策略统一。
  • 支持混合部署,普通虚拟机与硬件虚拟化设备虚拟机统一管理。
  • 故障感知、重建、恢复全自动化。

产品对比

功能亮点

  1. 行业独家支持:业内首家支持 SR-IOV + vGPU + HCT 三类硬件虚拟化设备虚拟机 HA,覆盖金融核心场景。
  2. 性能与高可用真正兼得:不损失直通设备硬件性能,同时获得自动故障恢复能力。
  3. 降低业务中断风险:从人工恢复(小时级)变为自动重建(分钟级)。
  4. 简化运维、降低复杂度:硬件虚拟化设备虚拟机与普通虚拟机使用同一套 HA、告警、监控体系。
  5. 助力核心业务规模化落地:让低延迟交易、国密改造、AI 推理真正具备生产级高可用能力。
  6. 合规与稳定双重保障:国密改造场景不仅满足加密合规,更保障业务连续不中断。

应用案例

案例一:某头部证券公司以榫卯超融合 + HCT 开展国密改造,替代传统硬件加密机

实践背景

该券商在核心业务系统(网上交易、账户管理、证书认证、数据加密)国密改造过程中,长期依赖传统外置硬件加密机,面临一系列难以解决的问题:

  • 硬件加密机采购成本极高,单机价格昂贵,扩容需重复投入。
  • 外置加密卡 / 加密机采用PCIe 外挂方式,占用槽位、增加布线与散热压力。
  • 资源利用率极低,一台加密机仅能服务少量系统,无法虚拟化共享。
  • 运维复杂,加密机需单独管理、单独巡检、单独维保,故障恢复依赖人工。
  • 无法与虚拟化平台结合,加密业务虚拟机不支持 HA,存在单点故障风险。

为满足信创与国密合规要求,同时实现降低成本、简化架构、提升高可用三重目标,客户亟需一套芯片级内生加密 + 虚拟化高可用的全新方案。

落地方案

目前,该券商基于榫卯超融合落地了海光 HCT 加密技术,实现信创芯片内生加密:

  • 采用海光 CPU 内置 HCT 密码协处理器,替代传统外置硬件加密机,实现指令级国密加速(SM2/SM3/SM4)。
  • 虚拟机通过 HCT 直通方式调用芯片级加密能力,性能接近物理机,延迟远低于外置加密卡。
  • 统一纳入超融合资源池,通过 CloudTower 集中管理,不再需要独立加密机运维体系。

榫卯超融合 6.3 版本发布后,该券商计划引入 HCT 设备虚拟机 HA 功能,为加密业务提供完整的可靠性保障:

  • 启用榫卯超融合 6.3 HCT 直通设备虚拟机 HA 能力,挂载 HCT 的核心加密业务虚拟机支持故障自动重建。

完整方案的价值亮点

1. 从 “外挂加密” 转向 “内生加密”,彻底弃用传统硬件加密机

依托海光 CPU 内置密码模块,实现密钥安全存储与密码运算本地化,不依赖外部设备,攻击面更小、安全性更高。

2. 成本大幅下降,投入缩减约 40%–60%

省去加密机、加密卡的采购与维保费用,复用现有信创服务器算力,实现“一台服务器当多台加密机用”,资源利用率提升 3–5 倍。

3. HCT 虚拟机支持 HA,加密业务不再有单点故障

主机故障时,加密业务虚拟机可自动在同集群其他节点重建,中断从小时级缩至分钟级,满足 7×24 小时合规运行要求。

4. 性能优于传统加密卡,并发更高、延迟更低

芯片级指令加速,SSL 加解密、证书签名验签性能提升明显,高并发交易场景无性能瓶颈。

案例二:某期货公司以 SR-IOV 直通支持低延迟交易,性能媲美物理机

实践背景

该期货公司核心系统(极速柜台、行情网关、报盘网关)对延迟极度敏感:

  • 传统虚拟化网络(virtio)延迟高、抖动大,无法满足微秒级低延迟要求。
  • 必须使用 Solarflare 低延迟网卡 + SR-IOV 直通才能达到交易性能。
  • 历史架构中,SR-IOV 虚拟机无法开启 HA,主机故障只能人工恢复,业务中断风险极高。
  • 大量物理机分散部署,机柜空间紧张、功耗高、运维复杂、无法复用资源。

对此,该期货公司提出核心诉求:既要低延迟,又要高可用;既要虚拟化,又要物理机性能。

落地方案

基于榫卯超融合,该期货公司构建了新一代核心交易底层平台:

  • SR-IOV 网卡直通:虚拟机绕过虚拟交换机,直接访问物理网卡,延迟接近物理机。>>了解更多
  • CPU 独占 + NUMA 亲和性绑定:消除调度开销,进一步降低延迟抖动。>>了解更多
  • RDMA 存储网络:节点间 I/O 延迟压到最低,不干扰交易网络。>>了解更多

榫卯超融合 6.3 版本发布后,该期货机构计划引入 SR-IOV 虚拟机 HA 能力,进一步保障低延迟交易的可靠性:

  • SR-IOV 虚拟机 HA:主机故障自动重建,MAC/IP 保持不变,业务无感恢复。

完整方案的价值亮点

1. 网络延迟达到物理机级别

TCP 64B 延迟仅 1.542us,UDP 64B 延迟仅 1.449us,完全满足期货极速交易、行情接收系统要求。

2. SR-IOV 虚拟机 HA 验证通过

模拟主机故障触发 HA,虚拟机可顺利地快速重建:

  • 重建后 MAC 地址不变、IP 可达。
  • 低延迟测试指标与 HA 前无明显偏差。
  • 满足看穿式监管指标要求。

3. 资源复用率大幅提升

单台物理机可虚拟化为多个低延迟交易实例,节省机柜空间、降低功耗、减少硬件投入。

4. 行情接收零丢包

在大流量行情回放压力下,无丢包、无延迟突刺,表现与物理机持平。

>>了解更多:虚拟化支持证券极速行情&交易系统:交易网卡延时达物理机水平!

场景价值

总结:以榫卯超融合实现更全面的高可用保护

除了硬件虚拟化设备虚拟机 HA,榫卯超融合 6.3 还新增了RDMA 跨网卡高可用、放置组规则可用域策略、HA 全流程告警等高可用特性,从设备层、网络层、调度层、运维层四个维度,对高可用能力进行全面增强,构建覆盖核心业务全场景的高可用防护体系。

  • 设备层高可用:实现对挂载 SR-IOV 直通网卡、vGPU、海光 HCT 加密卡的虚拟机支持 HA,让高性能业务在享受硬件加速能力的同时,获得自动化故障恢复能力。
  • 网络层高可用:支持 RDMA 多链路跨网卡 Bonding,将存储网络的冗余级别从传统的网口级提升至网卡级,在保持 RDMA 低延迟、高吞吐特性的同时,大幅提升高性能网络的可靠性。>>了解更多
  • 调度层高可用:放置组规则新增可用域策略,支持将虚拟机绑定至主可用域或次可用域,确保双活架构下业务按照规划稳定运行。无论集群扩容、主机替换还是故障调度,虚拟机均可保持在指定域内运行,避免单域故障引发业务全面中断,提升双活场景的可靠性与可运维性。
  • 运维层高可用:新增 HA 全流程告警能力,覆盖虚拟机 HA 重建成功、HA 重建失败、本地重建失败、网络故障触发 HA 等关键场景。通过明确的告警信息与事件记录,运维人员可实时掌握 HA 执行状态,快速定位异常、及时处理故障,让高可用真正可监控、可感知、可保障。

结合已有的常规虚拟机高可用能力、放置组功能与 HA 优先级设置能力,榫卯超融合可以为金融、医疗、制造等行业的关键业务系统提供更全面的高可用保护,帮助企业用户打造稳定、高效、可落地的高可用底座。

推荐阅读:

GPU 直通 & vGPU:超融合为 GPU 应用场景提供高性能支持

从CPU、GPU到加密卡,SmartX超融合信创支持能力全面增强!

一文解读 SmartX 超融合虚拟化下的网络 I/O 虚拟化技术

一文解读 SmartX 超融合虚拟机高可用构建思路

榫卯超融合6.3容灾能力解读|支持同步复制与CloudTower高可用,构建全栈容灾体系

榫卯超融合 6.3 发布:引领超融合关键业务承载新标准

继续阅读