榫卯® AI 平台

让构建 AI 就绪的基础设施更简单

助力企业在本地环境中安全、高效地管理异构算力资源，部署推理服务，加速生成式 AI 应用的落地。

了解产品

产品价值

产品特性

榫卯 AI 平台是一款面向企业的大模型基础设施，支持在本地环境中安全、高效地管理异构算力资源，部署推理服务，助力生成式 AI 应用的快速落地。平台采用灵活兼容的架构，支持多种运行环境与 GPU 类型，集成模型管理、算力调度、推理服务及权限治理等核心能力，有效提升 AI 基础设施的使用效率与稳定性，降低资源管理复杂度，强化数据与模型的可控性与安全性。

为何选择榫卯 AI 平台

私有化部署，保障数据安全。榫卯 AI 平台支持在企业私有环境中运行，确保所有数据和模型资源都处于用户控制之下，从根本上保障数据隐私与安全，满足高合规性需求。

灵活兼容多种计算环境与硬件。平台架构高度开放，兼容物理机、虚拟化、容器等多种计算环境，以及主流 GPU 厂商设备，满足不同 IT 架构的部署需求。

简化 AI 基础设施构建，提升业务效率。通过灵活的算力资源管理、便捷的模型管理及推理服务能力，榫卯 AI 平台帮助企业快速搭建 AI 运行环境，降低部署门槛，缩短 AI 项目的实施周期，加速业务创新和应用落地。

便捷、全面的模型管理

多种模型类型原生支持

内置对文本生成、Embedding、Reranking 等主流模型类型的支持，满足丰富的企业级应用场景。

灵活的模型导入方式

可从 Hugging Face 一键拉取开源模型，也支持上传自定义模型，便于企业使用自研或第三方模型。

Catalog 提升上线效率

通过模型目录功能，预设推理引擎、资源规格与运行参数，实现模型部署标准化，降低运维成本。

统一、高效的算力资源池

异构 GPU 统一管理

支持将来自不同厂商（如 NVIDIA、昇腾等）的 GPU 统一纳入平台管理，实现资源统一调度。支持多种算力运行环境，如虚拟机/物理机和 Kubernetes 集群。

GPU 资源共享机制

多模型实例可共享同一张 GPU，通过智能分片与隔离技术，有效避免算力浪费，提升总体吞吐。

灵活且高性能的推理服务

KVCache 感知的多副本调度

平台基于 KVCache 感知的多副本负载均衡机制，智能优化推理请求路由，有效提升 KVCache 命中率，从而显著提升大模型推理性能与响应效率，满足高并发业务场景需求。

完善的租户与权限管理

资源与模型的租户隔离

每个租户拥有独立的资源与模型空间，确保业务之间互不干扰，数据安全可控。

RBAC 权限精细管控

支持按角色定义访问权限，覆盖模型管理、推理调用、资源调度等多个维度，便于统一治理。

API Token 用量与配额管理

针对外部调用提供 Token 配额配置和使用量统计，帮助平台实现访问限流、成本控制与可计费能力。