随着容器技术的不断成熟,不少企业在开展私有化容器平台建设时,首要考虑的问题就是容器的部署环境——是采用虚拟机还是物理机运行容器?在往期“虚拟化 vs. 裸金属*”系列文章中,我们分别对比了容器部署在虚拟化平台和物理机上的架构与优劣势、适用场景和实际性能表现。而随着 AI 等高性能计算场景的兴起,基于物理机的容器平台逐渐成为这些场景下更具性能优势的选择。未来基于物理机的 Kubernetes 环境是否会成为主流?企业用户需要从虚拟化环境过渡到物理机环境吗?如何确定新 Kubernetes 集群的部署环境?……以下,我们将结合分析机构报告,简要分析企业用户的容器使用与部署趋势,解读“物理机跑容器”在 AI 应用、VMware 替代等背景下具备的优势及其面临的挑战,为用户的容器平台建设提供更多参考思路。
* 往期“虚拟化 vs. 裸金属”系列文章中,“裸金属”主要表示基于物理机构建 Kubernetes 集群的方式。下文中提到的“裸金属”同理。
现状:在虚拟机中部署 Kubernetes 集群仍是主流选择
目前,在私有云中使用 Kubernetes,大部分用户还是倾向于选择虚拟机作为主要部署环境。根据 Spectro Cloud《2024 State of Production Kubernetes》报告,近一半受访用户的 Kubernetes 集群部署在超过 4 种环境里,其中构建私有云数据中心的用户,85% 都将 Kubernetes 部署在虚拟化环境,采用物理机的仅有 31%。这一选择主要有两个方面的原因。
1. 技术层面
虚拟化技术发展成熟,在资源效率、弹性扩展和安全隔离方面能更好地支持容器化应用系统,非常适合需要快速部署和灵活伸缩 Kubernetes 集群(如开发测试)、需要为“多租户”提供各自的 Kubernetes 运行环境、以及需要在有限资源内同时支持虚拟化和容器化应用的场景。欲深入了解,请阅读:适合在虚拟化环境中运行 Kubernetes 的三个场景。
另外,一些基于虚拟化的容器管理产品,如 SMTX Kubernetes 服务(SKS),也针对虚拟化层性能开销进行了优化,使得虚拟化环境中的 Kubernetes 集群在支持无状态应用和有状态应用时,性能能够达到物理机环境中的 80%- 90%,满足大部分常规业务场景对于性能方面的需求(见下图)。欲深入了解测试情况,请阅读:虚拟化vs.裸金属:两种 K8s 部署模式下的多场景性能对比。
2. 环境层面
根据 Gartner《如何采用云原生技术加速数字化转型》报告,2022 年仅有不到 30% 的中国大型企业建立了云原生平台,这一比例预计在 2027 年达到 70%。目前大部分国内用户的应用容器化改造还没有步入“深水区”,容器平台以支持开发测试环境和生产环境的一般应用系统为主(如管理类业务系统、互联网类应用系统、办公类应用系统)。这些场景对于 IT 基础设施的性能要求不是很高,更关注资源与应用的敏捷交付能力,因此更适合在虚拟化环境中运行。
未来:AI、VMware 替代、降本增效等趋势或加速物理机 Kubernetes 的采用
虽然现阶段 Kubernetes 的部署环境以虚拟化为主,不少分析机构和用户还是很看好物理机 Kubernetes 的发展前景。上文提到的 Spectro Cloud 报告指出,物理机 Kubernetes 集群在受访用户中的采用率已从 2023 年的 25% 增长至 2024 年的 31%。这一增长趋势主要归功于 AI、边缘计算等新兴技术的迅猛发展,以及 VMware 被收购后越来越多用户产生的“成本焦虑”。
极致高性能计算场景更适合以物理机作为 Kubernetes 部署环境
国内 TWT 平台发起的“容器+裸金属物理机是未来大模型基础架构的应用趋势吗?”投票中,有 83% 的参与者认同“(容器+裸金属物理机)是未来的大模型基础架构的应用趋势”。我们在《虚拟化 vs. 裸金属:K8s 部署环境架构与特性对比》和《适合在虚拟化环境中运行 Kubernetes 的三个场景》文章中也提到,基于物理机部署 Kubernetes 不存在虚拟化层的性能开销,对 GPU 的支持能力也在一定程度上优于虚拟化,还能避免虚拟化、环境带来的”noisy neighbors“的问题,满足更严格的数据合规要求,因此更适合支持高性能计算 (HPC)、大数据处理和分析、AI/ML、实时流处理、在线游戏/VR 等消耗大量资源的应用场景。
对于边缘计算场景,虚拟化和物理机 Kubernetes 各有优势。Gartner 在《Hype Cycle for Container Technology, 2024》报告中建议:“在最初尝试边缘计算时,可以将容器部署在超融合架构(HCI)上,这样容器能够与 VM 一起运行和管理,发挥各自的优势。”比如,一些边缘应用需要在数据源头进行实时处理和分析(如智能监控、自动驾驶、工业物联网等),或者对 I/O 延迟比较敏感,需要在边缘站点部署较大容量的高性能、高可用存储以及相应的数据管理系统,超融合就非常适合作为统一的边缘计算和存储平台。
另外 Gartner 也提到:“在一些边缘站点的场景下,去掉虚拟化层(如将容器直接部署在物理机上)可能会更加简单、资源使用更高效。” 这种边缘站点仅运行轻量化的、无状态的应用,无需附加虚拟化或分布式存储系统,适合采用物理机作为容器化应用的部署环境。
VMware 使用成本增加,“回归物理机”能够降本增效?
另外,VMware 替代、“降本增效”等外部因素,也让一些用户考虑回归“物理机环境“。VMware 被博通收购后全面转向订阅制并精简产品线,Gartner 在《The CIO’s Guide to Broadcom’s Acquisition of VMware》的调研显示,不少用户都对 VMware 转型后的订阅成本、品牌声誉和产品质量表达了担忧,因此寻求 VMware 的替代方案。其中,以“容器平台”作为转型方案,不仅能实现 VMware 替代,还可同时升级 IT 基础架构,满足未来敏捷交付的业务需求。而在构建容器平台时,对于一些已经完成应用容器化改造的用户来说,基于既有物理机直接部署 Kubernetes,可以免去虚拟化平台的采购成本,降低短期内建设成本和转型难度,因此成为一种可行的“去 VMware”技术方案。
不过,如果单纯想要“节约成本”而采用物理机作为 Kubernetes 的部署环境,这一思路还需要用户结合实际情况进一步考量——使用物理机 Kubernetes 集群虽然能够免除虚拟化授权的开销,但长期使用需要的资源投入可能会远多于虚拟化环境,包括硬件资源(机器、机房、机架)、软件资源(操作系统、自动化运维工具)、运维人力资源等。尤其是在满足安全合规要求的背景下,物理机节点需要定期进行操作系统和软件升级,随着集群和应用规模的增长,管理难度将呈指数级上升。
因此,如果没有 AI 等高性能应用场景的“刚需”,采用物理机部署 Kubernetes 并不一定能够通过“降本”体现“增效”。我们在下表也总结了各种需求下更适合 Kubernetes 的部署方式,可以看到,除了 AI、利旧既有物理机、业务合规等场景,基于物理机部署 Kubernetes 的优势并没有虚拟化明显,这也是为什么 Garner 在《Market Guide for Server Virtualization》报告里提到,物理机 Kubernetes 在未来可能得到更为广泛的采用,但现阶段实际落地的增速较为缓慢。
挑战:多种容器基础设施的混合使用与统一管理
除了物理机 Kubernetes 集群自身的管理难题,多种容器基础设施的混合使用也将为 IT 运维人员的日常工作带来新的挑战——由于虚拟化和物理机适用的容器应用场景有所不同,用户可能需要同时管理基于虚拟机和物理机部署的 Kubernetes 集群以满足不同的应用需求;这两类集群往往部署在不同的硬件产品上(包含不同型号、不同代或不同性能的 CPU/GPU 服务器),使用各自的管理运维管理工具,要求运维人员掌握两套环境的运维技能,问题定位、故障排查也会更为复杂,大大增加了运维负担。此外,基于虚拟机和物理机的 Kubernetes 集群也很难实现资源的统一调度,资源利用率低,很多容器厂商也未对虚拟机及其使用的分布式存储进行合理配置和优化,影响 Kubernetes 集群性能和稳定性。
除了容器环境,由于很多传统应用系统依旧需要在虚拟化或传统物理机环境中运行(请参考往期文章),未来企业数据中心可能需要运维人员同时管理传统物理机、虚拟化/超融合、基于虚拟化部署的容器集群、物理机容器集群等多种 IT 基础设施。例如,目前一些大型金融机构,倾向于将对于性能、延迟和稳定性要求严格的关键业务系统部署在虚拟化/超融合架构上,数据库部署在性能更高的专业超融合/物理机环境,开发测试和部分周边应用系统部署在虚拟机容器平台上,而 AI 探索类应用系统(如保险行业的保单文字识别)则部署在物理机容器上。
多种 IT 基础架构不仅需要多套底层硬件设备,还难以实现数据的互联互通与资源的统一调度,对部署、运维以及业务的快速发展都有较大的挑战。根据 Portworx《The Voice of Kubernetes Experts Report 2024》的调研,超过 70% 的用户都希望能够使用一款统一管理虚拟机和容器,甚至是能够统一管理所有数据服务的 IT 基础设施平台,来降低运维负担并提升应用开发效率。
SKS 1.3:统一管理虚拟机和物理机 Kubernetes 集群,构建虚拟化容器融合基础设施
为了帮助用户应对多种 IT 基础架构带来的管理与业务挑战,志凌海纳 SmartX 近期发布了生产级容器管理与服务产品 SMTX Kubernetes 服务(简称 SKS)1.3 版本,新增了物理机 Kubernetes 集群支持能力,用户可基于一套超融合基础设施实现虚拟机集群、虚拟机 Kubernetes 集群与物理机 Kubernetes 集群的统一管理,满足多种应用系统对于基础设施资源(包括虚拟化、存储、网络等)的不同需求。
在容器部署方面,用户可按需选择部署虚拟机集群和物理机集群,并通过 CloudTower 平台统一管理。例如,以虚拟化 Kubernetes 集群支持周边生产、管理类应用系统,对于 AI 探索类应用系统则以物理机 Kubernetes 集群提供更强的算力。SKS 也支持在不同的底层硬件架构上构建 Kubernetes 集群,支持服务器利旧与硬件资源的整合,帮助用户提高容器环境的资源利用率、降低整体建设与运维成本。欲深入了解,请阅读:SKS 1.3 发布:支持物理机集群,实现容器可视化管理。
此外,搭配 SmartX 软件定义的网络与安全软件 Everoute,用户可以一套融合架构为虚拟机和容器环境提供统一的支持,实现基础设施资源整合与统一管理、虚拟化容器网络互联互通、应用资源高效统一交付。欲深入了解,请阅读:如何轻松统管虚拟化和容器环境?一文了解 SmartX 虚拟化容器融合基础设施。
整套方案优势
- 简化架构:一套超融合基础设施即可满足多种应用系统的运行环境需求,支持按需扩容,灵活应对未来创新业务场景与部署运维挑战。
- 降低运维难度:使用简单易懂的图形化界面统一管理虚拟机集群、虚拟机 Kubernetes 集群和物理机 Kubernetes 集群。
- 提升资源利用率:计算与存储资源可统一调度,同时为应用提供企业级分布式块存储与文件存储服务。
- 节约成本:支持利旧既有物理机,支持异构集群统一管理,减少硬件部署数量,降低建设与扩展成本。
更多容器技术趋势与管理建议,欢迎下载《IT 基础架构团队的 Kubernetes 管理:从入门到评估》电子书。