立即咨询

电话咨询

微信咨询

立即试用
商务合作

为AI大模型带来数十倍性能提升!看腾讯星脉网络2.0如何构建万卡集群?

2024-08-14

AI大模型成为近年AI领域的热门方向。这些都是由超高性能的网络集群来实现的。然而重金购得的GPU,是否有效利用成疑?

想象一下,一个高度协同的“超级工厂”,其中的“工人”(即GPU)在完成阶段任务(计算产出)后,不得不进入繁琐的“信息对齐”流程(数据同步),方能再次投入工作。这一“对齐”过程,即集群间的通信时间,竟占据了总作业周期的高达50%,任何微小故障(单一节点问题)都能引发整个生产线的瘫痪(集群故障)。

在算力资源日益紧俏、成本水涨船高的背景下,三大效率挑战亟待解决:如何加速信息流通(通信速度)?怎样减少沟通成本(通信损耗)?故障诊断能否更加精确迅速?面对这些“生死攸关”的问题,大型模型制造商们准备好了吗?

icon腾讯星脉网络2.0来了!

如此大规模、长时间的GPU集群训练任务,对网络互联底座的性能、可靠性、成本等各方面都提出极致要求。对此,追求极致高性能与高可用的星脉高性能计算网络面世了。

相比上一代,2.0版本单集群支持的GPU数量实现翻番,达到惊人的10万张;网络通信效率显著提高60%,直接推动大模型训练效率跃升20%;而在故障排查方面,更是取得了从按天计到分钟级的飞跃进步。这一切,都是对效率挑战的有力回应。

“基建”全面升级,组网规模翻倍

自研交换机从25.6T升级到51.2T,容量提升一倍;自研硅光模块从200G升级到400G,速率提升一倍;搭载自研算力网卡;整机通信带宽3.2T,为业界最高。

基建升级后,星脉网络2.0可支撑的整体组网规模实现翻倍,支持单集群10万卡GPU以上的规模。

“治堵”更“高效”,训练效率提升10%

腾讯自研全新通信协议TiTa2.0的部署位置从交换机转移到了网卡上,拥塞算法也从被动拥塞算法升级为主动拥塞控制算法。即根据实时网络情况为GPU提供建议“车速”(数据包发送速率),提前避免拥堵发生,并通过拥堵智能调度,实现网络的快速自愈。

“改装”更“灵活”,训练效率提升10%

腾讯全新高性能集合通信库TCCL2.0采用NVLINK+NET异构并行通信,相当于为GPU新建了一条路(网络通道),以实现数据的并行传输。 同时,Auto-Tune Network Expert自适应算法可以根据机型、网络规模、模型算法等差异,自动调整数据包分割大小、匹配算法等参数。

此次升级后,星脉网络通信性能提升30%,让大模型的训练效率再提升10%。

“排查”更“精准”,从天级到分钟级

星脉网络2.0的运营系统新增了腾讯独家技术灵境仿真平台,可以对网络进行360度无死角立体监控。从过去仅能定位网络问题,升级为精确定位GPU节点问题。

icon腾讯星脉的突出优势

腾讯星脉高性能计算集群,在当今激烈的计算资源竞赛中脱颖而出,展现出与众不同的优势:

超大规模组网能力

腾讯星脉支持单集群内10万张GPU的互联,这不仅是对上一代技术的两倍扩容,更是远超行业平均水平,为构建前所未有的大规模并行计算平台奠定了坚实基础。基于弹性高性能云服务器架构,可实现计算无虚拟化损耗及服务器特性无损。

极致通信效率

通过深度优化的网络架构与协议,腾讯星脉实现了通信效率60%的惊人提升。这意味着在大规模分布式训练场景下,数据交换更为迅速,大幅缩短了模型训练周期,为企业节省了宝贵的时间和成本。

高效故障定位机制

腾讯星脉在故障管理上的革新尤为突出,将故障定位时间从以往的天级别缩短至分钟级。这种即时响应能力,极大增强了系统的稳定性和可靠性,确保计算任务连续无阻,降低了因意外停机导致的数据丢失或项目延期风险。

技术创新与自主可控

作为腾讯自研成果,星脉不仅展现了公司在高性能计算领域的深厚积累与前瞻布局,更重要的是,它赋予了中国企业在关键技术领域更多的自主权与灵活性,降低了对外部技术依赖的风险。

云巴巴,作为腾讯云的紧密合作伙伴,在高性能计算领域积累了丰富的实践经验,深度参与并见证了腾讯星脉网络2.0的飞跃,同时也将继续携手腾讯云,依托腾讯星脉网络2.0的领先技术,为更多企业和研究机构提供定制化的解决方案,助力他们在AI大模型的探索之路上迈出更坚实的步伐。

无论是追求极致的计算性能,还是寻求稳定的生产环境,或是期望快速故障响应与恢复,云巴巴都能提供专业咨询与技术支持。

云巴巴作为一家国内领先的企业数字化转型的服务平台,致力于帮助企业实现数字化升级和优化。作为行业佼佼者,云巴巴积累了丰富的实践经验和深刻的行业洞察力,为不同行业、不同规模的企业提供个性化的解决方案。

云巴巴客户群体广泛,包括金融、医疗、零售、制造等多个行业,并为众多企业创造了数字化转型的成功案例。为了更好地服务客户,云巴巴组建了一支专业的团队,具备多年的行业经验和专业技能,同时也与多个合作伙伴建立了紧密的合作关系。

云巴巴作为腾讯云的重要合作伙伴,双方携手共同为企业用户提供更多优质的产品与服务。目前腾讯云星脉已在云巴巴平台上线,如需了解更多产品信息,请扫描下方二维码与我们联系!

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

热门数字化产品

晨科布草管理系统晨科布草管理系统,为酒店布草洗涤管理提供从交接、跟踪、生命周期管理等流程;批量扫描识别,使用方便快捷,提高工作效率和经济效益,节约人员费用支出,降低成本;记录客户资料及洗衣统计,生成各类报表,可随时查询和打印信息。
绿云软件酒店管理系统绿云软件酒店管理系统,符合大住宿业数字化建设集中化、一体化、平台化、大数据发展趋势,稳定、经济、开放,支持集中+分布式混合部署。基于绿云开放平台,行业上下游合作伙伴均可接口对接,形成智慧互联 。无须担心“数字孤岛”,各系统和场景的数据在保证安全的前提下互联互通 。
探域电商全域智能客服机器人探域电商全域智能客服机器人,以消费者触点为核心,助力品牌全域数智化运营,实现高质量增长。我们通过AI人工智能、NLP技术和行业知识图谱的核心技术,构建了营销服务一体化智能客服机器人、全域客户数据中台 Lite CDP、私域一体化智能营销SCRM等核心产品。
小望电商通小望电商通,全面数字化的电子发票(简称全电发票),是以可信身份认证体系和新型电子发票服务平台为依托,以标签化、要素化、去版式、授信制、赋码制为特征,以全领域、全环节、全要素电子化为运行模式的新型电子发票。
Oracle NetSuite云ERP系统Oracle NetSuite云ERP系统是一个集成的云端企业资源规划平台,提供财务管理、供应链、CRM和电子商务管理等功能,支持全球业务扩展,加速企业创新和增长。
为你推荐
2025腾讯产业合作伙伴大会|云巴巴荣获双项大奖,载誉而归

1月16日,2025腾讯产业合作伙伴大会在三亚召开。云巴巴,荣膺“2024腾讯云卓越合作伙伴奖—星云奖”和“2024腾讯云AI产品突出贡献奖”双项大奖

2025-01-17
政府行业如何建立等保测评体系?快看这家区财政局如何通过三级测评?

商道世纪基于国家标准与行业最佳实践,为政府客户提供覆盖等保测评全生命周期的专业化服务。

2025-02-12
线上实体店开票难?优E票、智票云、诺税通怎么选?

那么实体店选择怎样的开票软件呢?云巴巴将从优E票、智票云、诺税通这三款产品中,为大家选型提供建议。

2025-02-12
从V1到R1,深度解析DeepSeek多模型版本的功能与应用

今天,云巴巴就来深入分析一下DeepSeek的各版本,探讨它们的优缺点,看看这个AI界的新贵到底有多大的潜力。

2025-02-11
金融行业如何有效实施等保测评?这家支付平台年运维成本降低15%

商道世纪作为国内领先的网络安全服务商,凭借其全流程等保测评服务,为金融行业构建起多层次的安全防线。

2025-02-11
查看更多