立即咨询

电话咨询

微信咨询

立即试用
商务合作

腾讯云qGPU容器

腾讯云qGPU容器,支持多个容器共享 GPU 卡并支持容器间算力和显存精细隔离,同时支持业界唯一的在离线混部能力,从而在精细切分 GPU 资源的基础上,在最大程度保证业务稳定的前提下,将 GPU 利用率压榨到极致,最终帮助客户大幅节约 GPU 资源成本。
立即咨询
iconGPU当前现状icon
GPU 算力 & 显存利用率低
GPU资源价格昂贵、利用率低
资源共享后使用不便、安全性问题
显存 / 算力 隔离无法支持或不准确:易造成不同客户/任务之间存在资源的抢占和干扰,QoS无法保证
损坏故障隔离性
资源切割不灵活
仅支持最高端的GPU
易用性差:业务重编、用户体验不好、运维升级困难
iconGPU 共享方案拦截分析icon
iconqGPU 容器产品介绍icon
qGPU 是腾讯云推出的 GPU 容器虚拟化产品,支持多个容器共享 GPU 卡并支持容器间算力和显存精细隔离,同时支持业界唯一的在离线混部能力,从而在精细切分 GPU 资源的基础上,在最大程度保证业务稳定的前提下,将 GPU 利用率压榨到极致,最终帮助客户大幅节约 GPU 资源成本。
灵活性:精细配置 GPU 算力占比和显存大小
强隔离:支持显存和算力的严格隔离
在离线:支持业界唯一在离线混部能力,GPU 利用率压榨到极致
覆盖度:支持主流服务器卡 T4/V100/A100/A10/A30
云原生:支持标准 Kubernetes 和 NVIDIA Docker
兼容性:业务不重编、CUDA 库不替换、业务无感
高性能:GPU 设备底层虚拟化,高效收敛,吞吐接近0损耗
iconqGPU调度策略icon
 
Spread:平均分配 保证负载稳定均衡
Binpack:尽量填满保证利用率
Best Effort:保证最大的Throughput
Fixed Share:算力最低配置保证
Burst Share:算力最低保证,允许占用空闲
iconqGPU 单卡调度policyicon
iconqGPU 在离线混部及调度方式icon

高优任务 平均分配 保证负载均衡 低优任务 尽量填满 保证资源利用率 支持在线 100% 抢占 GPU利用率的极致提高 业内唯一GPU在离线混部技术

icon支持主流OS版本icon
iconqGPU交付方式icon
推荐客户选择顺序:公有云 > IDC: qGPU + 腾讯TKE调度组件 > IDC: qGPU only
IDC: qGPU Only
只交付qGPU-xxx.run包
必要的TKE调度组件,客户自行开发,腾讯云只提供参考实现
IDC: qGPU+TKE调度组件
交付qGPU和TKE调度组件
K8S容器底座,由客户自行提供
IDC: qGPU + TCS容器底座
交付qGPU和TCS容器底座
IDC: TCE + TKE + qGPU,复制公有云交付
公有云:TKE + qGPU 公有云交付
iconqGPU IDC交付件icon
qGPU + TCS容器底座
qGPU + TKE + TCE 容器底座
目标:交付物料及组件和qGPU + TKE一致
qGPU + Only
交付件:qGPU_vx.x.x.run & test script & ls_server for authorization
说明书:《qGPU技术白皮书》
备注:支持docker的方式运行及POC,生产环境需要和客户继续联合开发k8s/docker等管理组件。
icon公有云使用qGPUicon
 
创建TKE集群
集群选择安装qGPU组件
创建 qGPU节点池(当前市场镜像,7月份支持公有镜像)
创建 Pod 指定 qGPU 算力(%)与显存[G]
参考网页说明《公有云qGPU使用》
iconqGPU监控组件elastic-gpu-exportericon
部署
配置云原生监控:
新建一个云原生监控实例
关联 qgpu 集群,再访问 Grafana
配置TPS
新建 prometheus 组件
新建的prometheus 关联自己的集群
选择数据采集配置,配置采集规则
新增配置好的elastic-gpu-exporter 的 Service 配置 prometheus-adapter
HPA示例
参考:TKEGPU监控
icon使用限制icon
业务容器化。 版本支持:TKE 版本 ≥ v1.14.x,更低版本需要提需求。 OS支持:IDC支持各大主流Linux;公有云当前支持特定的 Tencent OS 3.1 镜像,预计下个月和IDC一致。 GPU卡架构:支持 Volta(如 V100)、Turing(如 T4)、Ampere(如 A100、A10、A30) 驱动版本:默认预装 NVIDIA 驱动 450.102.04 / 470.82.01;支持 CUDA 11.4 及以下。为保证兼容性,强烈建议用户使用节点预安装 NVIDIA 驱动,无需在 POD 内部重复安装。 驱动更新:更新NV驱动需要保证此驱动版本已经在qGPU兼容列表;更新qGPU驱动,重启节点即可。
无论更新哪个驱动先要保证节点上此时无POD任务运行。 共享粒度:每个 qGPU 最小分配 1G 显存,精度单位是 1G。算力最小分配 5(代表一张卡的 5%),最大 100(代表一张卡),精度单位是 5(即 5、10、15、20 ... 100)。 整卡分配:开启了 qGPU 能力的节点可按照 tke.cloud.tencent.com/qgpu-core: 100 | 200 | ...(N * 100,N 是整卡个数)的方式分配整卡。建议通过 TKE 的节点池能力来区分 nvidia 分配方式或转换到 qGPU 使用方式。 个数限制:一个 GPU 上最多可创建 16 个 qGPU 设备。建议按照容器申请的显存大小确定单个 GPU 卡可共享部署的 qGPU 个数。
icon案例一:某头部互联网企业OCR场景icon
客户痛点:在线业务独占使用 GPU,利用率大多在 40% 以下,线下 IDC 很难满足业务需求增长,线下采购周期长,线下 IDC 故障隔离性差,运维成本较高。解决方案:GPU 云服务器(CVM)、云硬盘 CBS,对象存储 COS,容器服务平台 TKE、TKE qGPU 容器等。云上收益:节省一次性投资成本,随用随取,减少资源闲置。CVM 弹性扩容优势,涵盖空间、时间、大小和数量,可根据业务快速动态扩容。TKE qGPU 容器增加 1-3倍 业务部署密度,实现 GPU 多业务共享,算力厘米级,显存 MB 级隔离,大幅降低用卡成本。节省运维成本,腾讯云上提供了 TKE、TKE qGPU 容器、COS 等各类产品组合使用。年 TCO 成本节约 10%~50%+,利用率提升 100%。
icon案例二:某在线教育AI推理业务icon
客户痛点: 几十种模型,20+AI服务,部分推理应用对于算力和显存利用率不足,受国家双减等政策影响,成本优化需求非常强烈,NV MPS无法故障隔离、vCUDA需要替换CUDA库。 解决方案: 容器服务TKE(qGPU) GPU云服务器(CVM)、云硬盘CBS 对象存储 COS 文件存储CFS 云上收益: 应用无需修改,彼此间通过QoS精准隔离。GPU后端实现池化,屏蔽底层实例类型。共享算力和显存资源,GPU利用率显著提升。GPU灵活切分和管理,并配合弹性伸缩,降低整体成本。资源部署密度提升3倍以上,月TCO成本节约40%,效率提升30%。

产品推荐

数据防泄露系统DLP
天清汉马USG数据防泄露系统(DLP),从敏感信息内容、敏感信息的拥有者、对敏感信息的操作行为三个角度对数据进行分析,通过清晰直观的视图,让管理者及时了解企业内部的敏感信息使用情况。
免费试用
查看详情
上讯信息敏捷数据脱敏系统SDM
敏捷数据管理平台软件(ADM)是上海上讯信息技术股份有限公司(以下简称“上讯信息”)自主研发的,主要面向金融、运营商、政府、能源、医疗等行业打造的全生命周期数据安全管理软件产品,用于数据备份、备份数据恢复验证、测试数据交付和静态数据脱敏等应用场景,可为企业上、中、下游数据的高效使用和安全管控提供一套整体解决方案。
免费试用
查看详情
追一科技智能语音机器人Call
追一科技的智能语音机器人Call基于自然语言处理NLP、语音识别ASR和语音合成TTS技术,实现自动电话外呼和应答,用自然逼真的对话与客户沟通,帮助企业提高外呼效率和标准化外呼流程,实现外呼数据智能化管理。
免费试用
查看详情
天融信数据防泄漏系统
天融信数据防泄漏系统以深度内容识别技术为核心,在数据存储、传输和使用过程中,发现并识别敏感数据隐患,确保敏感数据合法使用,防止敏感数据泄漏的数据安全保护系统。
免费试用
查看详情