对于低延迟交易、AI 推理、国密改造等企业级关键业务场景,为了追求极致性能和安全合规,企业往往会为业务虚拟机挂载SR-IOV 直通网卡、GPU、HCT 加密卡等硬件。而由于直通设备的硬件特性,这些虚拟机无法启用 HA 高可用,一旦主机故障,只能人工介入恢复,中断时间小时级起步,难以满足生产环境要求。
对此,榫卯超融合 6.3 版本新增了 SR-IOV/vGPU/HCT 设备虚拟机 HA 支持特性,创新性引入设备粒度的关联标识机制,打破传统虚拟化平台 “硬件虚拟化设备无法启用 HA” 的行业壁垒,在不损失直通设备极致性能的前提下,实现故障自动恢复,将业务中断时间从小时级压缩至分钟级,满足更多场景业务连续性需求。
以下,我们将针对该功能的实现机制进行深入解读,并分享两则用户实践。
行业共通挑战:硬件虚拟化设备的 “高可用禁区”
在金融低延迟交易、AI 推理、国密改造、高性能计算等核心业务场景中,为获得硬件级性能,虚拟机必须挂载各类硬件虚拟化设备,包括 SR-IOV 网卡、GPU、海光 HCT 加密卡等。而这些虚拟机无法启用虚拟机 HA 功能,由此带来一系列生产级风险:
- 物理主机故障时,虚拟机无法自动重建,只能人工恢复。
- 业务中断时间从数分钟到数小时不等,核心业务无法承受。
- 高性能设备只能用于测试环境,难以真正落地生产并规模化部署。
- 运维流程复杂、故障不可控,企业在性能与高可用之间被迫二选一。
榫卯超融合 6.3 突破:基于设备关联标识,支持 SR-IOV / vGPU / HCT 设备虚拟机 HA
为应对 “高性能与高可用不可兼得” 的行业难题,榫卯超融合 6.3 引入了对 SR-IOV、vGPU、海光 HCT 三类硬件虚拟化设备的虚拟机 HA 能力,让挂载硬件虚拟化设备的虚拟机可在主机故障时自动重建、快速恢复,真正实现 “性能不打折,业务更可靠”。本功能核心目标包括:
- 让直通设备从 “专用、静态、不可 HA”,变为 “池化、可调度、可 HA”。
- 让金融、AI、国密场景核心业务同时获得极致性能与业务连续性。
- 统一平台 HA 策略,降低运维复杂度与人工失误风险。
技术解读:核心原理、HA 流程与产品对比
核心原理:设备关联标识

榫卯超融合 6.3 通过设备关联标识实现硬件虚拟化设备的统一识别、调度与重建,这是设备虚拟机能够实现 HA 的关键。
- SR-IOV 网卡、HCT 加密卡:支持用户自定义设置关联标识。
- vGPU:系统根据 GPU 型号、切分规格自动生成并匹配标识。
- 当集群内存在同标识、同类型、可用数量 > 0 的设备时,虚拟机自动满足 HA 条件。
HA 触发与重建完整流程
- 物理主机发生异常宕机。
- 系统检测到故障,自动触发虚拟机 HA 机制。
- 系统在集群内筛选具备相同标识、同类型硬件虚拟化设备的目标主机。
- 虚拟机在目标主机自动启动、重建。
- 硬件虚拟化设备自动挂载,业务快速恢复。
- 全程无需人工干预,中断时间从小时级压缩至分钟级。
关键技术优势
- 不依赖特定硬件、不改动虚拟机配置。
- 与现有 HA 体系完全融合,策略统一。
- 支持混合部署,普通虚拟机与硬件虚拟化设备虚拟机统一管理。
- 故障感知、重建、恢复全自动化。
产品对比

功能亮点
- 行业独家支持:业内首家支持 SR-IOV + vGPU + HCT 三类硬件虚拟化设备虚拟机 HA,覆盖金融核心场景。
- 性能与高可用真正兼得:不损失直通设备硬件性能,同时获得自动故障恢复能力。
- 降低业务中断风险:从人工恢复(小时级)变为自动重建(分钟级)。
- 简化运维、降低复杂度:硬件虚拟化设备虚拟机与普通虚拟机使用同一套 HA、告警、监控体系。
- 助力核心业务规模化落地:让低延迟交易、国密改造、AI 推理真正具备生产级高可用能力。
- 合规与稳定双重保障:国密改造场景不仅满足加密合规,更保障业务连续不中断。
应用案例
案例一:某头部证券公司以榫卯超融合 + HCT 开展国密改造,替代传统硬件加密机
实践背景
该券商在核心业务系统(网上交易、账户管理、证书认证、数据加密)国密改造过程中,长期依赖传统外置硬件加密机,面临一系列难以解决的问题:
- 硬件加密机采购成本极高,单机价格昂贵,扩容需重复投入。
- 外置加密卡 / 加密机采用PCIe 外挂方式,占用槽位、增加布线与散热压力。
- 资源利用率极低,一台加密机仅能服务少量系统,无法虚拟化共享。
- 运维复杂,加密机需单独管理、单独巡检、单独维保,故障恢复依赖人工。
- 无法与虚拟化平台结合,加密业务虚拟机不支持 HA,存在单点故障风险。
为满足信创与国密合规要求,同时实现降低成本、简化架构、提升高可用三重目标,客户亟需一套芯片级内生加密 + 虚拟化高可用的全新方案。
落地方案
目前,该券商基于榫卯超融合落地了海光 HCT 加密技术,实现信创芯片内生加密:
- 采用海光 CPU 内置 HCT 密码协处理器,替代传统外置硬件加密机,实现指令级国密加速(SM2/SM3/SM4)。
- 虚拟机通过 HCT 直通方式调用芯片级加密能力,性能接近物理机,延迟远低于外置加密卡。
- 统一纳入超融合资源池,通过 CloudTower 集中管理,不再需要独立加密机运维体系。
榫卯超融合 6.3 版本发布后,该券商计划引入 HCT 设备虚拟机 HA 功能,为加密业务提供完整的可靠性保障:
- 启用榫卯超融合 6.3 HCT 直通设备虚拟机 HA 能力,挂载 HCT 的核心加密业务虚拟机支持故障自动重建。
完整方案的价值亮点
1. 从 “外挂加密” 转向 “内生加密”,彻底弃用传统硬件加密机
依托海光 CPU 内置密码模块,实现密钥安全存储与密码运算本地化,不依赖外部设备,攻击面更小、安全性更高。
2. 成本大幅下降,投入缩减约 40%–60%
省去加密机、加密卡的采购与维保费用,复用现有信创服务器算力,实现“一台服务器当多台加密机用”,资源利用率提升 3–5 倍。
3. HCT 虚拟机支持 HA,加密业务不再有单点故障
主机故障时,加密业务虚拟机可自动在同集群其他节点重建,中断从小时级缩至分钟级,满足 7×24 小时合规运行要求。
4. 性能优于传统加密卡,并发更高、延迟更低
芯片级指令加速,SSL 加解密、证书签名验签性能提升明显,高并发交易场景无性能瓶颈。
案例二:某期货公司以 SR-IOV 直通支持低延迟交易,性能媲美物理机
实践背景
该期货公司核心系统(极速柜台、行情网关、报盘网关)对延迟极度敏感:
- 传统虚拟化网络(virtio)延迟高、抖动大,无法满足微秒级低延迟要求。
- 必须使用 Solarflare 低延迟网卡 + SR-IOV 直通才能达到交易性能。
- 历史架构中,SR-IOV 虚拟机无法开启 HA,主机故障只能人工恢复,业务中断风险极高。
- 大量物理机分散部署,机柜空间紧张、功耗高、运维复杂、无法复用资源。
对此,该期货公司提出核心诉求:既要低延迟,又要高可用;既要虚拟化,又要物理机性能。
落地方案
基于榫卯超融合,该期货公司构建了新一代核心交易底层平台:
- SR-IOV 网卡直通:虚拟机绕过虚拟交换机,直接访问物理网卡,延迟接近物理机。>>了解更多
- CPU 独占 + NUMA 亲和性绑定:消除调度开销,进一步降低延迟抖动。>>了解更多
- RDMA 存储网络:节点间 I/O 延迟压到最低,不干扰交易网络。>>了解更多
榫卯超融合 6.3 版本发布后,该期货机构计划引入 SR-IOV 虚拟机 HA 能力,进一步保障低延迟交易的可靠性:
- SR-IOV 虚拟机 HA:主机故障自动重建,MAC/IP 保持不变,业务无感恢复。
完整方案的价值亮点
1. 网络延迟达到物理机级别
TCP 64B 延迟仅 1.542us,UDP 64B 延迟仅 1.449us,完全满足期货极速交易、行情接收系统要求。
2. SR-IOV 虚拟机 HA 验证通过
模拟主机故障触发 HA,虚拟机可顺利地快速重建:
- 重建后 MAC 地址不变、IP 可达。
- 低延迟测试指标与 HA 前无明显偏差。
- 满足看穿式监管指标要求。
3. 资源复用率大幅提升
单台物理机可虚拟化为多个低延迟交易实例,节省机柜空间、降低功耗、减少硬件投入。
4. 行情接收零丢包
在大流量行情回放压力下,无丢包、无延迟突刺,表现与物理机持平。
>>了解更多:虚拟化支持证券极速行情&交易系统:交易网卡延时达物理机水平!
场景价值

总结:以榫卯超融合实现更全面的高可用保护
除了硬件虚拟化设备虚拟机 HA,榫卯超融合 6.3 还新增了RDMA 跨网卡高可用、放置组规则可用域策略、HA 全流程告警等高可用特性,从设备层、网络层、调度层、运维层四个维度,对高可用能力进行全面增强,构建覆盖核心业务全场景的高可用防护体系。
- 设备层高可用:实现对挂载 SR-IOV 直通网卡、vGPU、海光 HCT 加密卡的虚拟机支持 HA,让高性能业务在享受硬件加速能力的同时,获得自动化故障恢复能力。
- 网络层高可用:支持 RDMA 多链路跨网卡 Bonding,将存储网络的冗余级别从传统的网口级提升至网卡级,在保持 RDMA 低延迟、高吞吐特性的同时,大幅提升高性能网络的可靠性。>>了解更多
- 调度层高可用:放置组规则新增可用域策略,支持将虚拟机绑定至主可用域或次可用域,确保双活架构下业务按照规划稳定运行。无论集群扩容、主机替换还是故障调度,虚拟机均可保持在指定域内运行,避免单域故障引发业务全面中断,提升双活场景的可靠性与可运维性。
- 运维层高可用:新增 HA 全流程告警能力,覆盖虚拟机 HA 重建成功、HA 重建失败、本地重建失败、网络故障触发 HA 等关键场景。通过明确的告警信息与事件记录,运维人员可实时掌握 HA 执行状态,快速定位异常、及时处理故障,让高可用真正可监控、可感知、可保障。
结合已有的常规虚拟机高可用能力、放置组功能与 HA 优先级设置能力,榫卯超融合可以为金融、医疗、制造等行业的关键业务系统提供更全面的高可用保护,帮助企业用户打造稳定、高效、可落地的高可用底座。
推荐阅读:
GPU 直通 & vGPU:超融合为 GPU 应用场景提供高性能支持
从CPU、GPU到加密卡,SmartX超融合信创支持能力全面增强!
一文解读 SmartX 超融合虚拟化下的网络 I/O 虚拟化技术