模型训练进入「落地战」,腾讯云GPU集群算力提升三倍

来源: 云巴巴 2024-03-27 14:54:44

AI 新时代,百模大战已经开启,各路「英雄」纷纷入场。自 Bert 出现之后,大模型成为 AI 领域的主流技术趋势,业界也因此掀起两轮热潮。

一轮是2020年GPT-3开启的炼大模型,百亿、千亿甚至万亿的「参数量」成为大模型角逐的重心;另一轮则是最近ChatGPT引领的新一轮生成式大模型热潮,短短几个月就火出了圈。

我们可以明显看到,过去半年时间国内外众多大厂、创业公司都在争先推出各自的大模型,但大多视角也局限于「训练出」一个大模型,而忽略了大模型技术的部署与应用。

icon大模型落地看成本与效率

即使对于科技公司而言,大模型是一项全新的技术,训练、部署和应用都不是那么容易的事情。作为一套系统性的工程,大模型的顺利落地需要做到全面考量、有的放矢。

目前来看,企业要用上大模型,最重要的是明确具体业务场景,挑选合适的模型类型、数据以缩小计算、推理范围,做到更聚焦、可控、精准。其次是使用专业工具,通过一体化的数据训练服务,做到更高效率。

此外还需要梳理出测试用例,建立模型质量评估流程,有针对性地迭代调整。最后是关注安全合规,确保数据及模型应用安全、合规、可控。

可以说要训练一个成功的大模型,算力,算法、数据三者缺一不可。

越强的大模型,越需要更强的算力来完成训练。拥有强大的算力是AI大模型成功的关键。

在单体服务器计算能力有限的情况下,需要将上千台服务器相连,打造大规模、分布式的高性能计算集群。业界标杆的大模型,对训练算力需求普遍非常高,使用成千上万张GPU卡。

如此庞大的参数规模,单独一块GPU运算卡甚至都完成不了最基本的装载,这也使得要用网络联接成千上万的服务器组建大规模算力集群,为大模型提供所需的算力。

大模型对算力的要求分为训练和推理两个阶段。其中,训练需要短时间内并行算力非常全且非常大,并且要在短时间内能够交付,所以对算力的量级、算力的稳定性、弹性扩容能力都有较高的要求。

现阶段,AI大模型正处于训练需求的爆发期,大家都需要海量的可扩缩容的高性能算力,而且这些算力需要稳定交付和计算。所以对云厂商来说,目前他们正迎来一个全新的市场机遇。

icon腾讯云GPU服务器集群算力提升三倍

面对种种挑战,大模型厂商要为企业「减负」,在低门槛、低成本、高效率、高品质、高安全等多个方面下足功夫。只有这样,大模型与企业的双向奔赴才能顺利实现。

在刚刚过去的6月,腾讯云公布了一项行业大模型解决方案,立足不同企业的需求场景,依托腾讯云 TI 平台打造行业大模型精选商店,为企业客户提供 MaaS(Model-as-a-Service)一站式服务。

这张 MaaS 全景图显示,依托腾讯云 TI 平台打造行业大模型精选商店,为企业客户提供涵盖模型预训练、模型精调、智能应用开发等一站式行业大模型解决方案。

其中腾讯云为大模型所准备的高性能计算集群 HCC,该集群采用腾讯云星星海自研服务器,搭载英伟达最新代次H800 GPU,服务器之间采用3.2T超高互联带宽,可为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。

1、最强算力背后是底层自研技术的突破

服务器的单机性能是集群算力的基础。在非稀疏规格情况下,新一代集群单GPU卡支持输出最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。

针对大模型训练场景,腾讯云星星海服务器采用6U超高密度设计,相较行业可支持的上架密度提高30%;利用并行计算理念,通过CPU和GPU节点的一体化设计,将单点算力性能提升至更高。

全面升级第四代英特尔至强扩展处理器,服务器PCIe带宽、内存带宽最高提升100%。

腾讯自研的星脉高性能计算网络,就是这条专业赛道。这条赛道对GPU集群网络做了深度定制。增加了网络节点带宽,为计算节点提供3.2T ETH RDMA高性能网络,大幅降低了通信耗时的占比。

这相当于同样的GPU卡,用超带宽网络将集群算力提至更高。实测结果显示,搭载同样的GPU,最新的3.2T星脉网络相较1.6T网络,让集群整体算力提升20%。

腾讯自研的星脉高性能计算网络对GPU集群网络做了深度定制。增加了网络节点带宽,为计算节点提供3.2T ETH RDMA高性能网络,大幅降低了通信耗时的占比。

这相当于同样的GPU卡,用超带宽网络将集群算力提至更高。实测结果显示,搭载同样的GPU,最新的3.2T星脉网络相较1.6T网络,让集群整体算力提升20%。

2、多层接入,算力更易获取

新一代HCC高性能计算集群,面向大规模AI训练。以专用集群方式对外提供服务,腾讯云将裸金属云服务器作为节点,满配最新代次的GPU,并结合自研存储架构、节点之间通过自研星脉RDMA网络互联,给大模型训练业务提供高性能、高带宽和低延迟的一体化高性能计算。

后续,针对自动驾驶训练、自然语言处理、AIGC大模型训练、科研计算等场景下客户的高算需求,通过腾讯云裸金属、云服务器、容器、云函数等多形态多层级接入能力,都可以快速获取!

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

数据战疫 | 让大数据成为战疫“利剑”

数据战疫 | 让大数据成为战疫“利剑”

新冠肺炎会让许多人想到2003年的非典,但是十七年来中国发生了翻天覆地的变化,我们很难简单将二者进行类比。特别是智能手机、4G网络、移动支付、物联网、社交媒体、大数据和人工智能等技术的迅猛发展和广泛普及,使疫情防控出现了显著转变,并朝着快速、精准和高效的方

2020-03-10 17:17:42

对于大数据以及大数据行业专家观点是怎样的

对于大数据以及大数据行业专家观点是怎样的

现在是一个改革有开放大好形势,祖国科技快速发展的时代,对于大数据以及大数据行业专家观点是怎样的相信许多小伙伴们都想知道吧,那本文就来让我们一起来看一下。 数据是这个信息时代最重要的生产管理要素,两山转化成为数字技术研究院院长、杭州数梦工场研究院进行执行机

2022-11-22 15:20:11

Tableau退出中国市场,这款BI工具你不得不知!

Tableau退出中国市场,这款BI工具你不得不知!

Sugar BI是百度云推出的敏捷BI 和数据可视化平台,目标是解决报表和大屏的数据 BI 分析和可视化问题,减轻数据可视化系统的开发压力。利用Sugar可以方便进行数据可视化操作,只需要进行简单的拖拽功能,不要求用户的编程能力,就能实现大屏的设计呈现。

2024-03-27 14:28:24

数据连接是关键,腾讯轻联助零售行业解决数据孤岛

数据连接是关键,腾讯轻联助零售行业解决数据孤岛

如何通过数字化手段对零售行业进行重塑,实现线上线下多渠道多平台流量业绩增长。

2024-03-27 15:02:37

细数那些各个方面的大数据

细数那些各个方面的大数据

    本文将带大家细数细数那些各个方面的大数据。     公司的“大数据”     随着业务的发展,大量的流程和规则相关联的非结构化数据也将发生爆炸。 例如:     1、企业日常存储系统现在的平均20万张的照片,100G硬盘空间,每天消耗;  

2020-05-07 17:07:44

你知道数据化管理的意义和主体都是什么吗?

你知道数据化管理的意义和主体都是什么吗?

想要进行数据化管理,首先要学会分析数据,从基础数据库中选取有关联的数据,即是指根据管理需要,通过常规的数据统计分析方法形成特定报表予以呈现。 报表设计应简洁、明确,常规的数据分析方法包括:数据展示,数据表格、数据图表。即充分利用计算机操作软件,将数据进行

2022-11-21 11:12:02

严选云产品

中卫慧通慧治理基层治理服务一体化平台 中卫慧通慧治理基层治理服务一体化平台融合企业微信政务版生态连通能力,打造“居民服务一张网、可管可控一张网”的基层治理能力赋能矩阵,实现政府对居民治理服务全面触达与掌控。
瑞翔多功能存储介质销毁机RX-DC318 瑞翔多功能存储介质销毁机RX-DC318是一款对光介质、半导体介质、纸介质进行销毁的设备。
百度智能云ARM云桌面 百度ARM云桌面,百度基于自研的ARM集群服务器及容器技术,为企业提供的高性价比、安全合规、开箱即用的新型办公云桌面。相比较传统PC办公模式,可以更好地节约运营成本,提高业务合规性,简化运维管理,达到降本增效的目的。
星星海SA2云服务器案例 星星海SA2云服务器基于腾讯自研服务器打造,基于AMDA最新ROME平台定制,专门为公有云设计,企业用户可以以更低功耗、更低成本使用个性化的云计算资源,稳定支撑2020年春节腾讯会议、QQ、微信等超高峰值流量压力。
百度灵医智惠智慧医疗解决方案 将互联网+AI技术与医疗业务深度融合, “1+2+3”助力医院智能化升级。临床决策支持系统,提供疾病知识库,供医生做诊断参考。提供医疗文书35类标准病历单据,三级六类质控能力,400+全局质控点,面向环节及终末场景提供机器自动化质控服务。
智能短信 智能短信对传统的短信收发界面进行交互优化,支持企业标识,在短信界面提供类似微信公众号的菜单服务入口,用以连接展现企业相关业务。

甄选10000+数字化产品 为您免费使用

申请试用