腾讯服务器资源优化方案_腾讯在离线混部方案_云服务器内存节省方案-云巴巴 -云巴巴

立即咨询

立即试用

商务合作

腾讯服务器资源优化方案

腾讯服务器资源优化方案是腾讯在控本提效的三个方案研究，主要包括腾讯能耗节省-悟能方案、腾讯混部解决方案-如意、内存节省方案-悟净三个方面。极致性能优化，降低生成过程延时，提高吞吐量。面向生产落地，根据实际需求来调整推理策略。

立即咨询

腾讯在控本提效的三个方案研究 icon

如意--全场景混部

CPU利用率提升15~45%
云原生环境下对高/低优先级作业进行混合部署，统一调配计算资源。

高QOS保障业务之间无影响。

悟净--内存多级卸载

平均内存节省35%
利用先进的内存后备设备，扩充内存
能力。
智能内存回收，避免内存雪崩。
多级内存沉降，降低配置成本。

悟能--主机节能

服务器整机功耗省5-30%

腾讯能耗节省-悟能方案概述 icon

scas节能
>弹性cpu策略，基于cstat，让空闲CPU核进入深度睡眠C6状态。
>预留X倍核心，快速扩核逻辑，应对业务变化和突发增长。

>对业务性能几乎无影响，能在节能的同时，快速响应业务变化。
uncore节能
> Uncore：cpu的uncore部分设置为最低频率。
>Cpufreq：切换到最低频率。
>磁盘休眠：让scsi盘闲置时休眠。
>适用于长期低负载，无业务部署，可以快速切换到性能模式(秒级切换)。

uncore节能测试：

抽样130台机器，节能前平均每台216.38 watt,开启节能后，平均每台节能41.15 watt。继续抽样91台，磁盘休眠平均每台节能56.53 watt,合并磁盘节能后。平均每台节能约97.68 watt。

某客户悟能测试结果汇报 icon

测试方法
测试环境中4台物理服务器，分别通过sysbench和mysql压力测试，按照一定比例进行压力测试，记录对比“开”、“关”悟能的能耗差异。
测试结果
（1）服务器BIOS开启Performance模式时，开启悟能后，平均节能11~16W，

约5%~7%。
（2）服务器BIOS开启Performance模式时，开启悟能后性能损耗小于5%。
（3）服务器BIOS开启conservative模式后的性能相比Performance模式损耗

大约在23%~24%。
（4）服务器BIOS开启conservative模式时，开启悟能后能耗平均上升26瓦，约

10%（悟能会将BIOS节能模式拉回到Performance模式）。

结论解读
（1）服务器BIOS建议设置为Performance模式，避免较大的性能损失。
（2）使用悟能的CPU节能模式，平均节能5%~7%(目前平均负载为21%)，如果真实服务器日平均负载小于20%，可获得较好的节能效果。
（3）当前悟能测试了cpu的节能效果，在一些环境中，可以启用uncore的节能设置，节能效果更好(闲时让服务器整体进入“浅睡眠”状态)。

腾讯悟能内部使用效果 icon

腾讯TEG机器总数60万台，主要采用CPU节电模式，日节电2.5万度

腾讯云机器总数约90万台，主要采用uncore节电模式，日节电19万度

目前混部方案的主要研究方向 icon

第一代混部：分时错峰

·cpu quota、 shares

·干扰率高

·冲突处理时间长

·资源利用率低
容器调度层面的混部

第二代混部：全时间段混部

·容器调度+服务器QoS

·无需分时部署

·离在线混部

·多资源统一优先级
降低干扰率

第三代混部：全场景混部

·离在线混部+在线间的混部·CFS+容器优先级

·适用非典型离线业务
拓宽应用场景

第四代混部：智能化混部

·动态感知业务负载

·自动调配资源

·容错率更高
资源调配效率更高

腾讯在离线混部解决方案框架图 icon

在线任务:
·延迟敏感、流量周期性、资源潮汐等。

·电商、直播等。
离线任务:
·时延不敏感、计算量大等。
·视频转码、大数据、图片压缩等。
TKE/TCS 容器调度层面:
·离、在线作业调度。
·对资源使用情况进行预测和监控。
·解决冲突，离线驱逐。
如意内核层面:
·CPU、IO、网络、内存全资源覆盖。

·根据统一优先级进行资源分配与隔离。
·高优作业保证服务质量。
·低优作业防饿死。
·为上层提供统计信息。
·丰富的ebpf监控工具集。

内核核心能力-CPU和内存 icon

CPU QoS：CFS调度算法局限性 icon

基于社区shares+period/quota方案

如意CPU QoS：BT离线调度类-绝对抢占 icon

如意CPU QoS：离线负载均衡 icon

离线负载均衡

统一负载均衡：在线任务被离线任务影响，反复被迁移
离线负载均衡：对在线任务没有任何影响

如意CPU QoS：超线程隔离 icon

处理器片上共享资源

超线程隔离

如意CPU QoS：离线压制水位线 icon

使BT支持CPU限额功能，可以根据需要灵活配置离线的份额

echo 50>/sys/fs/cgroup/cpu/test/cpu.bt_suppress_percent

风险防范，灰度部署离线任务

案例展示-CPU QoS：WXG(微信)某在线业务 icon

如意内存QoS

预留高优内存
预回收中低优先级容器的内存，使得系统中保留一定量的空闲内存，保证高优容器的内存分配时延和成功率。

Pagecache限制与隔离
整机pagecache限制：限制服务器总体pagecache使用率。

容器级别的pagecache隔离：单独配置某个容器的pagecache占比，超过后自动回收pagecache。

异步内存回收
·优先memcg 异步内存回收内存。

·全局水位分级，Memcg直接内存回收兜底。

按优先级OOM
·OOM时根据容器优先级由低到高释放内存，保障高优容器的稳定性。

·优先级相同的按照内存占用多少进行排序。

内核核心能力-网络和IO icon

实际效果 IO QoS icon

实际效果网络QoS icon

悟净-内存成本优化与可用性 icon

利用OS内核侧进行内存优化的天然优势，保障业务内存使用性能前提下，将较冷的内存换出至较便宜的设备上，从而降低整机的内存消耗，提高
内存资源利用率，通过平滑降配、负载调压、内存超卖等手段实现降本增效，助力业务和客户商业增值。

悟净核心技术实现

PSI、UMRD：根据进程对内存访问延迟的敏感性，决定回收的页面数量
DAMON 核心及子模块：扫描出长时间未访问的页面，提供基本扫描框架与全局

探测算法，提供 LRU Sort 与 SWAP hint 方法，与内核内存回收系统结合，提供

即时可用的页面热度信息。
Pageout Tiering 框架：在待回收的页面链表中，根据页面冷热频率(DAMON

动态迭代的采样频率)换出到不同速度的后备设备上。
SWAP Balancer 模块：每个 SWAP 后备设备维护 LRU 链表，当高级SWAP 设备

快满时，demote 冷页到速度更慢的设备上。
CXL 支持：在换出回写前，优先使用 CXLPromote/Demote，避免 PageFault、

10等造成的性能损失。
核心性能优化：针对内核 MM 核心代码进行了大量调优和优化，部分已经upstream。

悟净的实际效果

腾讯内部

·悟净在全公司的部署量超过200W 核。
·平均节省内存量达到35%(不包含降配)。
·部署的在线业务包含xstore内存型数据库、自研VOIP以及QQ音乐搜索业务等。

合同无法在线

·某快递公司
业务特征：K8S+Spring cloud +Consul，Java高内存。
核心诉求：降低成本、提升资源利用率。
使用效果：内存使用量压缩至原来66%，性能无明显变化。
·联通
近期上线中。
移植到CULinux平台。
初步测试内存节省20%+。

算力优化，进入智算时代 icon

传统推理场景的算力共享-qGPU icon

很多客户反应“卡”不够用业务程序通常一个计算任务(Pod)独占一张卡。
目前卡的计算能力也来越强，大部分推理场景GPU卡的利用率都比较低。

所以，是卡的“数量”不够用，而不是“算力”不够。

目前大部分推理场景的GPU客户都在寻找切分方案。

qGPU基于内核劫持的实现框架 icon

qGPU的主要特点

强隔离

支持显存和算力的精准隔离

灵活性

精细切分GPU算力及显存

兼容性

业务无感知、CUDA不替换、不重编

覆盖度

支持消费卡及工程卡

高性能

GPU驱动层虚拟化，近零损耗

在离线

优秀的在离线混部能力，GPU 利用率压榨到极致

云原生

支持标准Kubernetes 和NVIDIA Docker

业务无感知，只需要在Pod的resourses中简单配置，

便可完成GPU切分使用

支持离在线混部，保障高优任务GPU算力资源

大模型推理加速框架-TACO-LLM icon

客户诉求
·寻求快速适配，简单部署，开箱即用的推理框架
·在延时不变的情况下，要求更高的吞吐性能
·客户对推理指标要求不同，需要个性化的优化手段
·客户要求不同的输出格式，例如openai，streaming等

算力显存利用率低

自回归模型吞吐低显存限制算力利用率低

性能指标不同

首字母延迟，吞吐量
总时延

序列长度不同

输入以及输出的序列长度不同，影响推理性能

TACO-LLM解决方案
TACO-LLM作为腾讯云推出的一款易部署的大语言模型推理加速引擎，专注于解决客户诉求和推理难点:
易部署，开箱即用，全面兼容主流模型。
极致性能优化，降低生成过程延时，提高吞吐量，
面向生产落地，根据实际需求来调整推理策略
支持不同的算力和显存优化策略，充分利用算力设备，提高资源利用率。

TACO-LLM主要技术和效果 icon

大模型推理服务路径

Server：服务器，例如云端实例或本地集群节点。
Inference Service：服务实例。按APIserving用户请求，同时处理多个序列输入并返回结果。
Inference Engine：高效执行模型的推理过程。
Model：部署在推理引擎中，较大时，分布式存储在不同GPU的显存上。

TACO-LLM落地业务案例-某头部视频网站 icon

客户场景
·客户要求超过 NVIDIA 最新版本 TensorRT-LLM 性能 50% 以上。

·客户输入序列长度为 1500 左右，输出为 200 左右·客户应用场景

包括弹幕审核，广告、推荐，长文本总结等等。
客户痛点
·弹幕数量较多，内容丰富，需要处理大量的长序列输入

·由于弹幕的时效性，推理流程需要快速反馈出结果，对吞吐要求

较高。
·客户模型体量较大(70B+),超过单卡的显存容量，寻求更加高效的在线分布式推理方案。
性能优化结果
客户自测在 A800 上 TACO-LLM 相对最新版本 TensorRT-LLM 加速为1.67x~2.46x。
客户自测在 A100 上 TACO-LLM 相对最新版本 TensorRT-LLM 加速为1.5x~1.96x。