
腾讯在控本提效的三个方案研究

腾讯能耗节省-悟能方案概述

某客户悟能测试结果汇报

结论解读
(1)服务器BIOS建议设置为Performance模式,避免较大的性能损失。
(2)使用悟能的CPU节能模式,平均节能5%~7%(目前平均负载为21%),如果真实服务器日平均负载小于20%,可获得较好的节能效果。
(3)当前悟能测试了cpu的节能效果,在一些环境中,可以启用uncore的节能设置,节能效果更好(闲时让服务器整体进入“浅睡眠”状态)。
腾讯悟能内部使用效果
腾讯TEG机器总数60万台,主要采用CPU节电模式,日节电2.5万度
腾讯云机器总数约90万台,主要采用uncore节电模式,日节电19万度

目前混部方案的主要研究方向
腾讯在离线混部解决方案框架图

内核核心能力-CPU和内存

CPU QoS:CFS调度算法局限性
基于社区shares+period/quota方案

如意CPU QoS:BT离线调度类-绝对抢占

如意CPU QoS:离线负载均衡
离线负载均衡
统一负载均衡:在线任务被离线任务影响,反复被迁移
离线负载均衡:对在线任务没有任何影响

如意CPU QoS:超线程隔离

如意CPU QoS:离线压制水位线
使BT支持CPU限额功能,可以根据需要灵活配置离线的份额
echo 50>/sys/fs/cgroup/cpu/test/cpu.bt_suppress_percent
风险防范,灰度部署离线任务

案例展示-CPU QoS:WXG(微信)某在线业务

如意内存QoS


内核核心能力-网络和IO

实际效果 IO QoS

实际效果 网络QoS

悟净-内存成本优化与可用性
利用OS内核侧进行内存优化的天然优势,保障业务内存使用性能前提下,将较冷的内存换出至较便宜的设备上,从而降低整机的内存消耗,提高
内存资源利用率,通过平滑降配、负载调压、内存超卖等手段实现降本增效,助力业务和客户商业增值。

悟净核心技术实现

悟净的实际效果

算力优化,进入智算时代

传统推理场景的算力共享-qGPU

qGPU基于内核劫持的实现框架

qGPU的主要特点


大模型推理加速框架-TACO-LLM
自回归模型吞吐低 显存限制算力利用率低
首字母延迟,吞吐量
总时延
输入以及输出的序列长度不同,影响推理性能
TACO-LLM解决方案
TACO-LLM作为腾讯云推出的一款易部署的大语言模型推理加速引擎,专注于解决客户诉求和推理难点:
易部署,开箱即用,全面兼容主流模型。
极致性能优化,降低生成过程延时,提高吞吐量,
面向生产落地,根据实际需求来调整推理策略
支持不同的算力和显存优化策略,充分利用算力设备,提高资源利用率。
TACO-LLM主要技术和效果



TACO-LLM落地业务案例-某头部视频网站




