作者:SmartX 金融团队 祝志刚
极速行情与极速交易系统已成为证券机构开展高频交易、量化投资和智能风控等核心业务的关键系统。这类系统以微秒乃至纳秒级的延迟为竞争优势,能够在市场快速波动中抢先捕捉交易机会并及时完成下单,因此对交易效率、成交价格以及整体业务收益有着直接而深远的影响。
为了保证这类系统的低延迟与高性能,证券机构普遍采用高主频物理机、低延迟网卡、低延迟交换机等高性能设备。不过这些设备不仅价格高昂,其计算与网络资源也经常难以被充分利用,加之券商在交易所的托管机房机柜空间有限,亟需探索虚拟化环境对这类业务场景的支持能力。虽然业界普遍认为“虚拟机会引入额外的性能开销,难以满足低延迟需求”,不过由于低延迟网卡(如 SolarFlare)的加速技术可以绕过内核协议栈、直接操作网卡进行收发包操作,理论上基于 KVM 技术的国产虚拟化不仅不会带来较大的性能开销,还能进一步提高资源利用率。
基于此,某证券机构联合志凌海纳 SmartX,针对 SmartX 原生虚拟化 ELF 支持某国产极速行情系统的行情接收与交易表现进行了测试验证。结果显示,基于 ELF 虚拟化的极速行情与极速交易均可满足业务需求,其中交易网卡延时可达到物理机水平。
实践背景
某证券机构采用某国产极速行情系统支持量化交易,生产环境采用高主频物理机和 SolarFlare 低延时网卡满足业务需求。其中,在行情接收方面,该机构采用 UDP 组播接收上游 FPGA 行情,以实现更快速的行情解码;在交易链路方面则采用 OpenOnload 进行单边加速。OpenOnload 是一个高性能的运行于用户态的网络堆栈,它为使用 BSD 套接字 API 的应用程序加速 TCP 和 UDP 网络 I/O。由于 OpenOnload 技术是基于 kernel by pass 实现的,理论上使用基于 KVM 技术的虚拟化软件应该不会对虚拟机 GuestOS 延时带来明显开销。
因此,该证券机构计划针对该业务场景在虚拟化环境中的性能表现开展测试,并最终选择了“AMD 芯片+10Gb 以太网+SmartX 原生虚拟化 ELF”的测试方案,与生产环境的物理机进行对比。
- 服务器芯片架构选型:虽然 Intel 架构 CPU(如 intel i9)主频高,在数据中心使用广泛,但其相比 AMD 架构芯片核数更少,因此在此次虚拟化环境测试中选择高主频、多核数的 AMD 架构主机。
- 交换机选型:考虑到大行情下开盘时点行情数据可接近 1Gb/s,叠加分布式存储的三副本机制,可能会进一步提高对平台瞬时顺序写入的性能要求,所以理想情况下应采用支持 RDMA 协议的 25Gb 以太网交换机来组建存储网络。不过本次测试受限于条件限制,使用了 10Gb 交换机进行测试。
- 虚拟化软件与架构选型:本次测试因涉及到极速行情接收这一特殊环节,无法在交易所托管机房以外的环境进行可信的测试,而客户两地托管机房资源较为紧张,故而选取超融合架构来进行本次测试。在虚拟化软件的选型上,由于低延迟网卡对 VMware 虚拟化的支持版本有限,而基于 KVM 研发的虚拟化软件基于 linux 可获长期稳定支持,叠加自主可控建设需求,在进行多方对比后,选择了基于 KVM 深度研发的 ELF 虚拟化,在两地机房部署基于超融合架构的榫卯企业云基础设施集群进行测试。
测试环境
在极速交易场景中,获取行情和交易都是非常重要的环节。本次测试在该机构深圳中心进行,测试环境行情和交易链路均接入生产环境,与生产物理机环境使用相同的物理上游链路。
测试架构

平台架构及硬件配置

本次测试服务器采用 AMD EPYC 9554 CPU 并配置 Sloarflare 直通卡 4 张,共 8 个网口。虚拟机配置如下:独占 24C,128G 内存,2 个 PCI 直通网口,1 个 virtio 网口。计划每个主机上运行 4 个虚拟机。测试环境设备配置并不完全统一,具体硬件配置如下:

虚拟机网卡配置

测试环境部署 3 节点 SmartX 榫卯企业云基础设施集群(基于 ELF 虚拟化),每台测试虚拟机配置两块 PCI 直通网卡或 SR-IOV 直通网卡,用于对接两个交易所行情;另外配置一块 SR-IOV 网卡用于交易链路、一块虚拟网卡用于虚拟机管理。其中,业务场景测试两种虚拟化网卡,主要是出于不同的业务需求考虑:
- 极速行情:SolarFlare 低延时网卡硬件支持使用 SR-IOV 创建 Virtual Function 以及使用直通网卡两种方式进行网卡虚拟化组网。因此实践中分别测试了直通网卡和 SR-IOV 网卡两种方式下的性能表现。
- 极速交易:交易链路和 TCP 行情链路都可以通过 OpenOnload 功能实现加速,在虚拟化环境中使用 SR-IOV 创建的 Virtual Function 也继承了 OpenOnload 特性,且由于交易链路带宽流量需求本身较小,SR-IOV 虚拟化还可以进一步提高网卡硬件的使用率,因此采用 SR-IOV 网卡联通交易所。
同时,为了进一步优化延迟表现,测试中启用了榫卯企业云平台的 NUMA 亲和性调度特性——对于启用 CPU 独占的虚拟机,虚拟机使用的 CPU 按「相同 NUMA node > 相同 socket > 在更少数量的 socket 均匀分配」的优先级进行分配;且虚拟机开机时将优先分配相同 NUMA node 上的内存,减少跨 NUMA 节点访问内存的延迟。
测试结果
行情接收性能测试
1. 使用物理网卡直通进行测试
为保证测试期间生产应用的平稳运行并为极端行情留出部分冗余,我们先通过物理网口直通虚拟机的方式(PCI)来进行接收行情的测试。证券机构在深圳数据中心试用环境发布三台低延时虚拟机供机构业务实盘试用,从 2025 年 1 月起连续运行测试,以取得长时间、稳定的吞吐和时延效果。截至目前的半年间,该机构每日实盘接收 FPGA 行情无丢包情况。
2. 使用 SR-IOV 网卡进行测试
后期,在极速行情系统适配了 SR-IOV 网卡功能后,该机构也采用 SR-IOV 网卡的方式进行了测试,测试项目包括 10 倍速和 20 倍速行情模拟测试*。结果显示,在基于某单日深市成交 6790 亿的情况下,1 个网卡下接入 4 台云主机,在 10 倍速下粗略模拟单边 6 万亿交易数据,行情接收无丢包,可以满足历史峰值 3 倍以上冗余要求;20 倍速下,网卡瞬时流量超过 1Gb/s,行情接收无丢包,预计满足峰值流量情况下业务需要。
* 主要测试多个虚拟机共用一个物理网卡接收行情在峰值行情流量情况下能否达到交易量 3 倍历史峰值的要求。行情端以 10 倍速/20 倍速回单日深圳 FPGA 行情,4 个客户端虚拟机以 SR-IOV 网卡进行 FPGA 行情接收。
交易性能测试
在时延测试中,通过标准的 pingpong 测试,两台 SR-IOV 虚拟机在通过一个低延时交换机相连的情况下,可以取得 2 微秒以内的测试时延,达到与同配置下物理机相同的时延水平。
在吞吐测试中,分别进行 TCP、UDP 测试,均可满足业务需求;iperf3 TCP 打流,打流压力为 2G 的情况下基本无丢包。客户策略机对交易网络测的要求主要表现在实验方面,对带宽基本无要求,2Gb 带宽无丢包可以满足云主机使用。
测试结论
通过以上多个方面的技术测试及六个月的业务试用,充分验证了基于 SmartX 原生虚拟化 ELF 的榫卯企业云平台对极速行情系统与极速交易的支持能力,其中交易网卡延时可达到物理机水平,满足生产需要。
实践收益
1. 量化交易托管客户的服务优化
量化交易托管客户的运维服务有别于一般中后台的 IT 运维服务,是直面客户的运维服务。基于虚拟化环境支持低延迟业务可以在以下几个方面优化托管客户 IT 端的使用体验:支持 T+0 盘后发布主机;作业时间分钟级别;模板化高质量发布。
2. 托管机房形态演进
目前托管机房基本处于全物理机状态,所有设备的上下架、迁移全部由现场人员操作完成。此次实践可以帮助用户分阶段实现云化演进:极速需求的客户使用超频物理机;关键服务类应用使用高频物理服务器/超频物理机;其他客户普遍使用虚拟策略机;关键服务类应用备机视情况使用虚拟机;分析、监控等旁路应用全部使用虚拟机。
3. 客户策略机的成本优化
使用低延时虚拟机部署客户策略机,成本相较物理机降低 50% 以上,电量消耗降低约 50%。
4. 增加基础架构弹性扩展能力
证券机构两地托管机房均出现过资源紧张的问题,采用虚拟化环境可以增加托管机房基础架构弹性扩展能力,让运维人员能够快速发布、修改、下线虚拟客户策略机、提供低成本备机,更从容地应对外部不确定性。
欲了解更多金融核心生产业务场景实践,欢迎点击链接获取《SmartX 金融核心生产业务场景探索文章合集》电子书!
推荐阅读:
拒绝“顶配焦虑”!榫卯超融合助力用户实现安全与效率的“双向奔赴”
核心业务“上信创”!某证券公司构建“一云多芯”信创云,业务效率与连续性显著提升!
某跨境支付机构:以榫卯企业云平台 VPC 功能保障业务主体安全
SmartX 在证券(2024):落地近 60 家机构,超 80% 开展信创转型,探索云原生、国密改造等场景
SmartX 在保险(2024):服务 50+ 客户,深入探索国产化与数智化转型
SmartX 在期货(2024):近 60 家机构以超融合支持核心生产和信创转型,探索云原生存储