iconGPU当前现状icon
GPU 算力 & 显存利用率低
GPU资源价格昂贵、利用率低
资源共享后使用不便、安全性问题
显存 / 算力 隔离无法支持或不准确:易造成不同客户/任务之间存在资源的抢占和干扰,QoS无法保证
损坏故障隔离性
资源切割不灵活
仅支持最高端的GPU
易用性差:业务重编、用户体验不好、运维升级困难
iconGPU 共享方案拦截分析icon
iconqGPU 容器产品介绍icon
qGPU 是腾讯云推出的 GPU 容器虚拟化产品,支持多个容器共享 GPU 卡并支持容器间算力和显存精细隔离,同时支持业界唯一的在离线混部能力,从而在精细切分 GPU 资源的基础上,在最大程度保证业务稳定的前提下,将 GPU 利用率压榨到极致,最终帮助客户大幅节约 GPU 资源成本。
灵活性:精细配置 GPU 算力占比和显存大小
强隔离:支持显存和算力的严格隔离
在离线:支持业界唯一在离线混部能力,GPU 利用率压榨到极致
覆盖度:支持主流服务器卡 T4/V100/A100/A10/A30
云原生:支持标准 Kubernetes 和 NVIDIA Docker
兼容性:业务不重编、CUDA 库不替换、业务无感
高性能:GPU 设备底层虚拟化,高效收敛,吞吐接近0损耗
iconqGPU调度策略icon
 
Spread:平均分配 保证负载稳定均衡
Binpack:尽量填满保证利用率
Best Effort:保证最大的Throughput
Fixed Share:算力最低配置保证
Burst Share:算力最低保证,允许占用空闲
iconqGPU 单卡调度policyicon
iconqGPU 在离线混部及调度方式icon

高优任务 平均分配 保证负载均衡 低优任务 尽量填满 保证资源利用率 支持在线 100% 抢占 GPU利用率的极致提高 业内唯一GPU在离线混部技术

icon支持主流OS版本icon
iconqGPU交付方式icon
推荐客户选择顺序:公有云 > IDC: qGPU + 腾讯TKE调度组件 > IDC: qGPU only
IDC: qGPU Only
只交付qGPU-xxx.run包
必要的TKE调度组件,客户自行开发,腾讯云只提供参考实现
IDC: qGPU+TKE调度组件
交付qGPU和TKE调度组件
K8S容器底座,由客户自行提供
IDC: qGPU + TCS容器底座
交付qGPU和TCS容器底座
IDC: TCE + TKE + qGPU,复制公有云交付
公有云:TKE + qGPU 公有云交付
iconqGPU IDC交付件icon
qGPU + TCS容器底座
qGPU + TKE + TCE 容器底座
目标:交付物料及组件和qGPU + TKE一致
qGPU + Only
交付件:qGPU_vx.x.x.run & test script & ls_server for authorization
说明书:《qGPU技术白皮书》
备注:支持docker的方式运行及POC,生产环境需要和客户继续联合开发k8s/docker等管理组件。
icon公有云使用qGPUicon
 
创建TKE集群
集群选择安装qGPU组件
创建 qGPU节点池(当前市场镜像,7月份支持公有镜像)
创建 Pod 指定 qGPU 算力(%)与显存[G]
参考网页说明《公有云qGPU使用》
iconqGPU监控组件elastic-gpu-exportericon
部署
配置云原生监控:
新建一个云原生监控实例
关联 qgpu 集群,再访问 Grafana
配置TPS
新建 prometheus 组件
新建的prometheus 关联自己的集群
选择数据采集配置,配置采集规则
新增配置好的elastic-gpu-exporter 的 Service 配置 prometheus-adapter
HPA示例
参考:TKEGPU监控
icon使用限制icon
业务容器化。 版本支持:TKE 版本 ≥ v1.14.x,更低版本需要提需求。 OS支持:IDC支持各大主流Linux;公有云当前支持特定的 Tencent OS 3.1 镜像,预计下个月和IDC一致。 GPU卡架构:支持 Volta(如 V100)、Turing(如 T4)、Ampere(如 A100、A10、A30) 驱动版本:默认预装 NVIDIA 驱动 450.102.04 / 470.82.01;支持 CUDA 11.4 及以下。为保证兼容性,强烈建议用户使用节点预安装 NVIDIA 驱动,无需在 POD 内部重复安装。 驱动更新:更新NV驱动需要保证此驱动版本已经在qGPU兼容列表;更新qGPU驱动,重启节点即可。
无论更新哪个驱动先要保证节点上此时无POD任务运行。 共享粒度:每个 qGPU 最小分配 1G 显存,精度单位是 1G。算力最小分配 5(代表一张卡的 5%),最大 100(代表一张卡),精度单位是 5(即 5、10、15、20 ... 100)。 整卡分配:开启了 qGPU 能力的节点可按照 tke.cloud.tencent.com/qgpu-core: 100 | 200 | ...(N * 100,N 是整卡个数)的方式分配整卡。建议通过 TKE 的节点池能力来区分 nvidia 分配方式或转换到 qGPU 使用方式。 个数限制:一个 GPU 上最多可创建 16 个 qGPU 设备。建议按照容器申请的显存大小确定单个 GPU 卡可共享部署的 qGPU 个数。
icon案例一:某头部互联网企业OCR场景icon
客户痛点:在线业务独占使用 GPU,利用率大多在 40% 以下,线下 IDC 很难满足业务需求增长,线下采购周期长,线下 IDC 故障隔离性差,运维成本较高。解决方案:GPU 云服务器(CVM)、云硬盘 CBS,对象存储 COS,容器服务平台 TKE、TKE qGPU 容器等。云上收益:节省一次性投资成本,随用随取,减少资源闲置。CVM 弹性扩容优势,涵盖空间、时间、大小和数量,可根据业务快速动态扩容。TKE qGPU 容器增加 1-3倍 业务部署密度,实现 GPU 多业务共享,算力厘米级,显存 MB 级隔离,大幅降低用卡成本。节省运维成本,腾讯云上提供了 TKE、TKE qGPU 容器、COS 等各类产品组合使用。年 TCO 成本节约 10%~50%+,利用率提升 100%。
icon案例二:某在线教育AI推理业务icon
客户痛点: 几十种模型,20+AI服务,部分推理应用对于算力和显存利用率不足,受国家双减等政策影响,成本优化需求非常强烈,NV MPS无法故障隔离、vCUDA需要替换CUDA库。 解决方案: 容器服务TKE(qGPU) GPU云服务器(CVM)、云硬盘CBS 对象存储 COS 文件存储CFS 云上收益: 应用无需修改,彼此间通过QoS精准隔离。GPU后端实现池化,屏蔽底层实例类型。共享算力和显存资源,GPU利用率显著提升。GPU灵活切分和管理,并配合弹性伸缩,降低整体成本。资源部署密度提升3倍以上,月TCO成本节约40%,效率提升30%。
产品推荐 查看更多>>
    腾讯云消息队列 CKafka

    是一个分布式、高吞吐量、高可扩展性的消息系统,100%兼容开源 Kafka API 0.9.0至2.4.2版本。CKafka 基于发布/订阅模式,通过消息解耦,使生产者和消费者异步交互,无需彼此等待。

    一个分布式、高吞吐量、高可扩展性的消息系统

    100%兼容开源 Kafka API 0.9.0至2.4.2版本

    通过消息解耦,使生产者和消费者异步交互,无需彼此等待

    腾讯轻联零代码应用集成与数据集成平台

    腾讯轻联零代码应用集成与数据集成平台,腾讯云iPaaS是一个以腾讯云为技术基座,背靠300+伙伴生态,通过核心的图形化开发界面,专注于系统集成、数据融合、SaaS集成、MQ消息集成、API全生命周期管理的新型云集成服务平台。

    系统集成

    数据融合

    SaaS集成

    MQ消息集成

    腾讯云 智能公播店铺音乐解决方案

    智能公播,是一种搭载音频广播管控软件+公播版权音乐二合一的产品,比如,商场、公园、飞机场、地铁站、或者是行政办公大厅、医院、酒店等,公播音乐是为这些场所提供有版权的背景音乐,同时提供一套集中的管控平台,成为一个独特的声音媒介,实现统一的监管、政策的发布、文化传播、广告宣传等。

    超大曲库,版权音乐安心使用

    高效系统,集中控制提高效率

    语音播报,通知消息有效下发

    适配门店,不同场景快速接入