为AI大模型带来数十倍性能提升!看腾讯星脉网络2.0如何构建万卡集群?

来源: 云巴巴 2024-07-12 17:20:57

AI大模型成为近年AI领域的热门方向。这些都是由超高性能的网络集群来实现的。然而重金购得的GPU,是否有效利用成疑?

想象一下,一个高度协同的“超级工厂”,其中的“工人”(即GPU)在完成阶段任务(计算产出)后,不得不进入繁琐的“信息对齐”流程(数据同步),方能再次投入工作。这一“对齐”过程,即集群间的通信时间,竟占据了总作业周期的高达50%,任何微小故障(单一节点问题)都能引发整个生产线的瘫痪(集群故障)。

在算力资源日益紧俏、成本水涨船高的背景下,三大效率挑战亟待解决:如何加速信息流通(通信速度)?怎样减少沟通成本(通信损耗)?故障诊断能否更加精确迅速?面对这些“生死攸关”的问题,大型模型制造商们准备好了吗?

icon腾讯星脉网络2.0来了!

如此大规模、长时间的GPU集群训练任务,对网络互联底座的性能、可靠性、成本等各方面都提出极致要求。对此,追求极致高性能与高可用的星脉高性能计算网络面世了。

相比上一代,2.0版本单集群支持的GPU数量实现翻番,达到惊人的10万张;网络通信效率显著提高60%,直接推动大模型训练效率跃升20%;而在故障排查方面,更是取得了从按天计到分钟级的飞跃进步。这一切,都是对效率挑战的有力回应。

“基建”全面升级,组网规模翻倍

自研交换机从25.6T升级到51.2T,容量提升一倍;自研硅光模块从200G升级到400G,速率提升一倍;搭载自研算力网卡;整机通信带宽3.2T,为业界最高。

基建升级后,星脉网络2.0可支撑的整体组网规模实现翻倍,支持单集群10万卡GPU以上的规模。

“治堵”更“高效”,训练效率提升10%

腾讯自研全新通信协议TiTa2.0的部署位置从交换机转移到了网卡上,拥塞算法也从被动拥塞算法升级为主动拥塞控制算法。即根据实时网络情况为GPU提供建议“车速”(数据包发送速率),提前避免拥堵发生,并通过拥堵智能调度,实现网络的快速自愈。

“改装”更“灵活”,训练效率提升10%

腾讯全新高性能集合通信库TCCL2.0采用NVLINK+NET异构并行通信,相当于为GPU新建了一条路(网络通道),以实现数据的并行传输。 同时,Auto-Tune Network Expert自适应算法可以根据机型、网络规模、模型算法等差异,自动调整数据包分割大小、匹配算法等参数。

此次升级后,星脉网络通信性能提升30%,让大模型的训练效率再提升10%。

“排查”更“精准”,从天级到分钟级

星脉网络2.0的运营系统新增了腾讯独家技术灵境仿真平台,可以对网络进行360度无死角立体监控。从过去仅能定位网络问题,升级为精确定位GPU节点问题。

icon腾讯星脉的突出优势

腾讯星脉高性能计算集群,在当今激烈的计算资源竞赛中脱颖而出,展现出与众不同的优势:

超大规模组网能力

腾讯星脉支持单集群内10万张GPU的互联,这不仅是对上一代技术的两倍扩容,更是远超行业平均水平,为构建前所未有的大规模并行计算平台奠定了坚实基础。基于弹性高性能云服务器架构,可实现计算无虚拟化损耗及服务器特性无损。

极致通信效率

通过深度优化的网络架构与协议,腾讯星脉实现了通信效率60%的惊人提升。这意味着在大规模分布式训练场景下,数据交换更为迅速,大幅缩短了模型训练周期,为企业节省了宝贵的时间和成本。

高效故障定位机制

腾讯星脉在故障管理上的革新尤为突出,将故障定位时间从以往的天级别缩短至分钟级。这种即时响应能力,极大增强了系统的稳定性和可靠性,确保计算任务连续无阻,降低了因意外停机导致的数据丢失或项目延期风险。

技术创新与自主可控

作为腾讯自研成果,星脉不仅展现了公司在高性能计算领域的深厚积累与前瞻布局,更重要的是,它赋予了中国企业在关键技术领域更多的自主权与灵活性,降低了对外部技术依赖的风险。

云巴巴,作为腾讯云的紧密合作伙伴,在高性能计算领域积累了丰富的实践经验,深度参与并见证了腾讯星脉网络2.0的飞跃,同时也将继续携手腾讯云,依托腾讯星脉网络2.0的领先技术,为更多企业和研究机构提供定制化的解决方案,助力他们在AI大模型的探索之路上迈出更坚实的步伐。

无论是追求极致的计算性能,还是寻求稳定的生产环境,或是期望快速故障响应与恢复,云巴巴都能提供专业咨询与技术支持。

云巴巴作为一家国内领先的企业数字化转型的服务平台,致力于帮助企业实现数字化升级和优化。作为行业佼佼者,云巴巴积累了丰富的实践经验和深刻的行业洞察力,为不同行业、不同规模的企业提供个性化的解决方案。

云巴巴客户群体广泛,包括金融、医疗、零售、制造等多个行业,并为众多企业创造了数字化转型的成功案例。为了更好地服务客户,云巴巴组建了一支专业的团队,具备多年的行业经验和专业技能,同时也与多个合作伙伴建立了紧密的合作关系。

云巴巴作为腾讯云的重要合作伙伴,双方携手共同为企业用户提供更多优质的产品与服务。目前腾讯云星脉已在云巴巴平台上线,如需了解更多产品信息,请扫描下方二维码与我们联系!

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

快速了解Python机器学习重点内容

快速了解Python机器学习重点内容

首先让我们了解更多关于机器学习的知识。     机器学习是什么?这是一个以上的跨学科项目,涵盖了概率论,统计知识,近似理论知识和复杂算法的知识,使用计算机进行实时仿真和实际致力于人类学习和知识结构的工具插入到现有的内容,有效地提高学习效率,

2020-04-24 17:48:09

人脸识别解决方案目前国内的哪家强啊?

人脸识别解决方案目前国内的哪家强啊?

人脸识别技术被广泛地应用到我们生活中,腾讯云人脸识别慧眼产品的综合型解决方案还是不错的。能够支持多行业、多领域的一站式身份认证解决方案。腾讯云人脸识别慧眼产品能够覆盖金融、直播、游戏、电商、运营商、生活出行、政务民生、医疗教育、物流快递、酒店民航等40+个

2022-11-23 16:01:12

疫情需求催生下的AI在线考试系统,及时预测和判断考生行为!

疫情需求催生下的AI在线考试系统,及时预测和判断考生行为!

随着声音识别、面部识别、设备识别 等AI 技术的进步,再加上突如其来疫情的侵扰,AI 监考离考试党越来越近。集成了视频录制和实时监控的AI智能测评工具借助于大数据、人工智能、面部识别、音视频分析等技术,既减轻了人工监考的负担,也规避了纯人工监考带来的漏洞。

2022-11-24 14:18:45

【黑科技】用眼神来开门的智能虹膜锁

【黑科技】用眼神来开门的智能虹膜锁

眨眨眼解锁手机已不是什么新鲜事儿,但眨眨眼就能开门锁这种黑科技,你心动了吗?安全与颜值并存,兼顾老人和孩子。锁好,家安,心更安。

2022-11-23 09:58:34

何为机器学习,研究机器学习的意义在?

何为机器学习,研究机器学习的意义在?

你可曾听说过机器学习,那么究竟什么是机器学习呢?研究机器学习的意义为何?本篇文章就来和小编一起来看看吧。 机器学习,即Machine Learning,涉及到了概率论、统计学、逼近论、凸分析、算法计算复杂度相关理论等多门学科,是一门多领域存在交叉管理学科

2022-11-22 09:53:12

智能门锁的发展,让用户以及媒体取得一致的好评

智能门锁的发展,让用户以及媒体取得一致的好评

不得不说,科技屡屡创奇观,甚至奇迹,因此坚定了我们对于它的信仰。智能门锁在以后一定会对我的的生活有越来越大的帮助。 一般情况下有实力的指纹锁制造厂家都会选择高档锁芯,这样一来产品质量就一定能够得到保障。最明显的特别是消费者可以看一下钥匙的弹子数和深浅档数

2022-11-21 13:59:09

严选云产品

京腾云仓零售商业解决方案 腾讯智慧零售和京东物流联⼿打造的私域⼀站式零售商业解决⽅案。 集全域流量感知⼩程序建站智能营销与洞察全渠道⼀盘货物流订单管理物流云仓托管服务(增值可选)于⼀体。旨在助⼒万千中⼩品牌商家打造完全⾃主可控的零售⽣意阵地,释放平台能⼒帮助商家快速冷启动,让⼯具真正⽤得起来,⽤得明⽩。
腾讯乐享轨道行业解决方案 腾讯乐享轨道行业解决方案,通过投票&腾讯问卷快速完成企业内部培训需求收集,同时也可完成活动评选等其他问卷需求。不同企业通过课堂功能实现对员工、经销商、代理商的培训,让线上培训变得更方便。从线下培训的发起到效果反馈,用腾讯乐享均可实现全面数字化管理。
精容数安教育行业灾备解决方案 精容数安教育行业灾备解决方案,1套一体化灾备系统满足备份用户全部业务数据备份保护需求,支持各类小型机、x86、带库、云端等环境下高效数据保护能力,兼容并支持各类国产信创环境下数据库、OS、虚拟化/云平台等全面保护。
腾讯教育科研云解决方案 腾讯教育科研云解决方案,提供腾讯公有云、私有云和混合云的云资源基础,并结合物联接入科研硬件设备和云端部署科研软件环境,为高校提供一套完整的科研基础设施。
云信达ecBackup企业数据备份与恢复系统 云信达ecBackup企业数据备份与恢复系统利用现代化CDM数据管理技术,盘活企业备份暗数据,管理数据资产全生命周期,贯穿数据的保护-管理-消费,支撑混合多云全时空数据服务,全面支持结构化数据库、非结构化数据、虚拟化和云平台,提供全生命周期数据资产管理打造企业数字化转型的数据底座。
思必驰智能会议解决方案 思必驰是国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术,自主研发新一代人机交互平台(DUI 和人工智能芯片(TH1520);为车联网、IoT及众多行业场景合作伙伴提供自然语言交互解决方案,同时不断丰富后端资 源,满足用户多样化需求,沟通万物、打理万事。 截至2021年底,思必驰拥有各类已授权的知识产权近900件,其中发明专利200余项,软著200余项,是国际上极少数拥有自主知识产权、中英文综合语音技术(语音识别、语音合成、自然语言理解、智能交互决策、声纹识别、情绪识别等的公司之一,多次在国际评测中夺得冠军,被列入国家发改委“互联网+”重大工程和人工智能创新发展工程、工信部人工 智能与实体经济深度融合创新项目等,累计参与40余项国家级行标制定。 思必驰已于2020年8月完成数亿元人民币的Pre-IPO融资,与阿里、腾讯、小米、富士康、联想、OPPO、长虹、顺丰、圆通、龙湖地产等企业达成合作。

甄选10000+数字化产品 为您免费使用

申请试用