立即咨询

电话咨询

微信咨询

立即试用
商务合作

模型训练进入「落地战」,腾讯云GPU集群算力提升三倍

2024-03-27

AI 新时代,百模大战已经开启,各路「英雄」纷纷入场。自 Bert 出现之后,大模型成为 AI 领域的主流技术趋势,业界也因此掀起两轮热潮。

一轮是2020年GPT-3开启的炼大模型,百亿、千亿甚至万亿的「参数量」成为大模型角逐的重心;另一轮则是最近ChatGPT引领的新一轮生成式大模型热潮,短短几个月就火出了圈。

我们可以明显看到,过去半年时间国内外众多大厂、创业公司都在争先推出各自的大模型,但大多视角也局限于「训练出」一个大模型,而忽略了大模型技术的部署与应用。

icon大模型落地看成本与效率

即使对于科技公司而言,大模型是一项全新的技术,训练、部署和应用都不是那么容易的事情。作为一套系统性的工程,大模型的顺利落地需要做到全面考量、有的放矢。

目前来看,企业要用上大模型,最重要的是明确具体业务场景,挑选合适的模型类型、数据以缩小计算、推理范围,做到更聚焦、可控、精准。其次是使用专业工具,通过一体化的数据训练服务,做到更高效率。

此外还需要梳理出测试用例,建立模型质量评估流程,有针对性地迭代调整。最后是关注安全合规,确保数据及模型应用安全、合规、可控。

可以说要训练一个成功的大模型,算力,算法、数据三者缺一不可。

越强的大模型,越需要更强的算力来完成训练。拥有强大的算力是AI大模型成功的关键。

在单体服务器计算能力有限的情况下,需要将上千台服务器相连,打造大规模、分布式的高性能计算集群。业界标杆的大模型,对训练算力需求普遍非常高,使用成千上万张GPU卡。

如此庞大的参数规模,单独一块GPU运算卡甚至都完成不了最基本的装载,这也使得要用网络联接成千上万的服务器组建大规模算力集群,为大模型提供所需的算力。

大模型对算力的要求分为训练和推理两个阶段。其中,训练需要短时间内并行算力非常全且非常大,并且要在短时间内能够交付,所以对算力的量级、算力的稳定性、弹性扩容能力都有较高的要求。

现阶段,AI大模型正处于训练需求的爆发期,大家都需要海量的可扩缩容的高性能算力,而且这些算力需要稳定交付和计算。所以对云厂商来说,目前他们正迎来一个全新的市场机遇。

icon腾讯云GPU服务器集群算力提升三倍

面对种种挑战,大模型厂商要为企业「减负」,在低门槛、低成本、高效率、高品质、高安全等多个方面下足功夫。只有这样,大模型与企业的双向奔赴才能顺利实现。

在刚刚过去的6月,腾讯云公布了一项行业大模型解决方案,立足不同企业的需求场景,依托腾讯云 TI 平台打造行业大模型精选商店,为企业客户提供 MaaS(Model-as-a-Service)一站式服务。

这张 MaaS 全景图显示,依托腾讯云 TI 平台打造行业大模型精选商店,为企业客户提供涵盖模型预训练、模型精调、智能应用开发等一站式行业大模型解决方案。

其中腾讯云为大模型所准备的高性能计算集群 HCC,该集群采用腾讯云星星海自研服务器,搭载英伟达最新代次H800 GPU,服务器之间采用3.2T超高互联带宽,可为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。

1、最强算力背后是底层自研技术的突破

服务器的单机性能是集群算力的基础。在非稀疏规格情况下,新一代集群单GPU卡支持输出最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。

针对大模型训练场景,腾讯云星星海服务器采用6U超高密度设计,相较行业可支持的上架密度提高30%;利用并行计算理念,通过CPU和GPU节点的一体化设计,将单点算力性能提升至更高。

全面升级第四代英特尔至强扩展处理器,服务器PCIe带宽、内存带宽最高提升100%。

腾讯自研的星脉高性能计算网络,就是这条专业赛道。这条赛道对GPU集群网络做了深度定制。增加了网络节点带宽,为计算节点提供3.2T ETH RDMA高性能网络,大幅降低了通信耗时的占比。

这相当于同样的GPU卡,用超带宽网络将集群算力提至更高。实测结果显示,搭载同样的GPU,最新的3.2T星脉网络相较1.6T网络,让集群整体算力提升20%。

腾讯自研的星脉高性能计算网络对GPU集群网络做了深度定制。增加了网络节点带宽,为计算节点提供3.2T ETH RDMA高性能网络,大幅降低了通信耗时的占比。

这相当于同样的GPU卡,用超带宽网络将集群算力提至更高。实测结果显示,搭载同样的GPU,最新的3.2T星脉网络相较1.6T网络,让集群整体算力提升20%。

2、多层接入,算力更易获取

新一代HCC高性能计算集群,面向大规模AI训练。以专用集群方式对外提供服务,腾讯云将裸金属云服务器作为节点,满配最新代次的GPU,并结合自研存储架构、节点之间通过自研星脉RDMA网络互联,给大模型训练业务提供高性能、高带宽和低延迟的一体化高性能计算。

后续,针对自动驾驶训练、自然语言处理、AIGC大模型训练、科研计算等场景下客户的高算需求,通过腾讯云裸金属、云服务器、容器、云函数等多形态多层级接入能力,都可以快速获取!

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

热门数字化产品

微加云学院企业培训平台微加云学院企业培训平台,多种培训模式,满足不同需求,培训更灵活,实时掌握学习进度,自动生成学习数据,帮管理者提升培训效果。提供高质量的培训课程,解决企业内部讲师少、课程研发能力弱的问题,将反复型培训流程化,提高效率,高性价比工具,降低培训成本。
网易数帆有数BI有数BI是由网易数帆推出的一款企业级智能大数据敏捷分析平台。无需代码、PPT式简单拖拽即可轻松完成报告与大屏的制作。丰富的在线图表组件、可视化ETL操作、多终端智能预警等能力真正降低了用户的使用门槛,提高了数据使用效率,助力企业实现数据驱动决策。
闪捷数据库水印系统闪捷数据库水印系统以水印数据为核心,构建数据流转安全路径,实现安全与业务双效平衡。提供丰富的API接口能力,支持用户通过API接口调用执行水印、溯源任务,查看任务执行监控等。最高水印性能可达每小时150G,助力产品满足客户大数据量高性能水印要求。
探域电商全域智能客服机器人探域电商全域智能客服机器人,以消费者触点为核心,助力品牌全域数智化运营,实现高质量增长。我们通过AI人工智能、NLP技术和行业知识图谱的核心技术,构建了营销服务一体化智能客服机器人、全域客户数据中台 Lite CDP、私域一体化智能营销SCRM等核心产品。
阿里云无影云电脑阿里云无影云电脑(WUYING Workspace)是一种易用、安全、高效的云上电脑,支持快速便捷的创建、部署和统一运维管控。自带多重安全管控能力,支持随时随地访问,资源灵活弹性。广泛应用于安全办公、协同研发、教育实训、私域运营、分支门店、客服办公等。
为你推荐
2025腾讯产业合作伙伴大会|云巴巴荣获双项大奖,载誉而归

1月16日,2025腾讯产业合作伙伴大会在三亚召开。云巴巴,荣膺“2024腾讯云卓越合作伙伴奖—星云奖”和“2024腾讯云AI产品突出贡献奖”双项大奖

2025-01-17
央国企招采怎么选择电子签系统?腾讯电子签让签约、投标易如反掌

腾讯电子签为招采管理构建起三重防护体系,来帮助央国企打造操作留痕、合规安全、高效便捷的全程数字化招采环境。

2025-05-21
客服培训系统选型,看AI大模型如何优化培训效率与团队能力?

选型必看!快麦小智客服培训系统如何让客服能力翻倍?答案在这!

2025-05-21
企业智能仓储管理如何选?洞隐WMS云——降本增效与数字化转型的首选方案

洞隐WMS云智能仓储管理系统,专注解决库存不准、效率低、系统不互通等仓储难题,提供智能条码、动态货位优化、自动化分拣等功能,支持多仓库统一管理,助力企业实现仓储数字化升级,提升供应链效率。

2025-05-20
中企出海遭遇‘语言障碍、汇率风险、管理低效’三重壁垒?朋来P8 ERP以数字化赋能破局突围!

朋来P8推出集成多语言协同、智能物控与全球财税适配的一体化ERP解决方案。

2025-05-20
查看更多