腾讯云qGPU容器_GPU容器虚拟化_提高GPU云服务器利用率-云巴巴 -云巴巴

腾讯云qGPU容器

腾讯云qGPU容器，支持多个容器共享 GPU 卡并支持容器间算力和显存精细隔离，同时支持业界唯一的在离线混部能力，从而在精细切分 GPU 资源的基础上，在最大程度保证业务稳定的前提下，将 GPU 利用率压榨到极致，最终帮助客户大幅节约 GPU 资源成本。

立即咨询

GPU当前现状

GPU 算力 & 显存利用率低

GPU资源价格昂贵、利用率低

资源共享后使用不便、安全性问题

显存 / 算力隔离无法支持或不准确：易造成不同客户/任务之间存在资源的抢占和干扰，QoS无法保证

损坏故障隔离性

资源切割不灵活

仅支持最高端的GPU

易用性差：业务重编、用户体验不好、运维升级困难

GPU 共享方案拦截分析 icon

qGPU 容器产品介绍 icon

qGPU 是腾讯云推出的 GPU 容器虚拟化产品，支持多个容器共享 GPU 卡并支持容器间算力和显存精细隔离，同时支持业界唯一的在离线混部能力，从而在精细切分 GPU 资源的基础上，在最大程度保证业务稳定的前提下，将 GPU 利用率压榨到极致，最终帮助客户大幅节约 GPU 资源成本。

灵活性：精细配置 GPU 算力占比和显存大小

强隔离：支持显存和算力的严格隔离

在离线：支持业界唯一在离线混部能力，GPU 利用率压榨到极致

覆盖度：支持主流服务器卡 T4/V100/A100/A10/A30

云原生：支持标准 Kubernetes 和 NVIDIA Docker

兼容性：业务不重编、CUDA 库不替换、业务无感

高性能：GPU 设备底层虚拟化，高效收敛，吞吐接近0损耗

qGPU调度策略

Spread：平均分配保证负载稳定均衡

Binpack：尽量填满保证利用率

Best Effort：保证最大的Throughput

Fixed Share：算力最低配置保证

Burst Share：算力最低保证，允许占用空闲

qGPU 单卡调度policy icon

qGPU 在离线混部及调度方式 icon

高优任务平均分配保证负载均衡低优任务尽量填满保证资源利用率支持在线 100% 抢占 GPU利用率的极致提高业内唯一GPU在离线混部技术

支持主流OS版本

qGPU交付方式

推荐客户选择顺序：公有云 > IDC: qGPU + 腾讯TKE调度组件 > IDC: qGPU only

IDC: qGPU Only

只交付qGPU-xxx.run包

必要的TKE调度组件，客户自行开发，腾讯云只提供参考实现

IDC: qGPU+TKE调度组件

交付qGPU和TKE调度组件

K8S容器底座，由客户自行提供

IDC: qGPU + TCS容器底座

交付qGPU和TCS容器底座

IDC: TCE + TKE + qGPU，复制公有云交付

公有云：TKE + qGPU 公有云交付

qGPU IDC交付件 icon

qGPU + TCS容器底座

qGPU + TKE + TCE 容器底座

目标：交付物料及组件和qGPU + TKE一致

qGPU + Only

交付件：qGPU_vx.x.x.run & test script & ls_server for authorization

说明书：《qGPU技术白皮书》

备注：支持docker的方式运行及POC，生产环境需要和客户继续联合开发k8s/docker等管理组件。

公有云使用qGPU

创建TKE集群

集群选择安装qGPU组件

创建 qGPU节点池（当前市场镜像，7月份支持公有镜像）

创建 Pod 指定 qGPU 算力(%)与显存[G]

参考网页说明《公有云qGPU使用》

qGPU监控组件elastic-gpu-exporter icon

部署

配置云原生监控：

新建一个云原生监控实例

关联 qgpu 集群，再访问 Grafana

配置TPS

新建 prometheus 组件

将新建的prometheus 关联自己的集群

选择数据采集配置，配置采集规则

新增配置好的elastic-gpu-exporter 的 Service 配置 prometheus-adapter

HPA示例

参考：TKEGPU监控

使用限制

业务容器化。版本支持：TKE 版本 ≥ v1.14.x，更低版本需要提需求。 OS支持：IDC支持各大主流Linux；公有云当前支持特定的 Tencent OS 3.1 镜像，预计下个月和IDC一致。 GPU卡架构：支持 Volta（如 V100）、Turing（如 T4）、Ampere（如 A100、A10、A30) 驱动版本：默认预装 NVIDIA 驱动 450.102.04 / 470.82.01；支持 CUDA 11.4 及以下。为保证兼容性，强烈建议用户使用节点预安装 NVIDIA 驱动，无需在 POD 内部重复安装。驱动更新：更新NV驱动需要保证此驱动版本已经在qGPU兼容列表；更新qGPU驱动，重启节点即可。

无论更新哪个驱动先要保证节点上此时无POD任务运行。共享粒度：每个 qGPU 最小分配 1G 显存，精度单位是 1G。算力最小分配 5（代表一张卡的 5%），最大 100（代表一张卡），精度单位是 5（即 5、10、15、20 ... 100）。整卡分配：开启了 qGPU 能力的节点可按照 tke.cloud.tencent.com/qgpu-core: 100 | 200 | ...（N * 100，N 是整卡个数）的方式分配整卡。建议通过 TKE 的节点池能力来区分 nvidia 分配方式或转换到 qGPU 使用方式。个数限制：一个 GPU 上最多可创建 16 个 qGPU 设备。建议按照容器申请的显存大小确定单个 GPU 卡可共享部署的 qGPU 个数。

案例一：某头部互联网企业OCR场景 icon

客户痛点：在线业务独占使用 GPU，利用率大多在 40% 以下，线下 IDC 很难满足业务需求增长，线下采购周期长，线下 IDC 故障隔离性差，运维成本较高。解决方案：GPU 云服务器（CVM）、云硬盘 CBS，对象存储 COS，容器服务平台 TKE、TKE qGPU 容器等。云上收益：节省一次性投资成本，随用随取，减少资源闲置。CVM 弹性扩容优势，涵盖空间、时间、大小和数量，可根据业务快速动态扩容。TKE qGPU 容器增加 1-3倍业务部署密度，实现 GPU 多业务共享，算力厘米级，显存 MB 级隔离，大幅降低用卡成本。节省运维成本，腾讯云上提供了 TKE、TKE qGPU 容器、COS 等各类产品组合使用。年 TCO 成本节约 10%～50%+，利用率提升 100%。

案例二：某在线教育AI推理业务 icon

客户痛点：几十种模型，20+AI服务，部分推理应用对于算力和显存利用率不足，受国家双减等政策影响，成本优化需求非常强烈，NV MPS无法故障隔离、vCUDA需要替换CUDA库。解决方案：容器服务TKE（qGPU） GPU云服务器（CVM）、云硬盘CBS 对象存储 COS 文件存储CFS 云上收益：应用无需修改，彼此间通过QoS精准隔离。GPU后端实现池化，屏蔽底层实例类型。共享算力和显存资源，GPU利用率显著提升。GPU灵活切分和管理，并配合弹性伸缩，降低整体成本。资源部署密度提升3倍以上，月TCO成本节约40%，效率提升30%。

产品推荐

数据防泄露系统DLP

天清汉马USG数据防泄露系统（DLP），从敏感信息内容、敏感信息的拥有者、对敏感信息的操作行为三个角度对数据进行分析，通过清晰直观的视图，让管理者及时了解企业内部的敏感信息使用情况。

免费试用

查看详情

上讯信息敏捷数据脱敏系统SDM

敏捷数据管理平台软件（ADM）是上海上讯信息技术股份有限公司（以下简称“上讯信息”）自主研发的，主要面向金融、运营商、政府、能源、医疗等行业打造的全生命周期数据安全管理软件产品，用于数据备份、备份数据恢复验证、测试数据交付和静态数据脱敏等应用场景，可为企业上、中、下游数据的高效使用和安全管控提供一套整体解决方案。

免费试用

查看详情