立即咨询

电话咨询

微信咨询

立即试用
商务合作

文心千帆大模型平台操作指南揭秘!

2024-10-16

从八月底开始,国内11家首批通过《生成式人工智能服务管理暂行办法》备案的大模型获批上线,将通过Web、APP、API等方式,为全社会提供多种生成式AI服务。这也标志着在ChatGPT之后,我国自主研发的大模型产品进入快速迭代和应用阶段。

很多企业已经感受到了大模型带来的智能力量,也在积极寻找适用的大模型平台。百度一直走在大模型研发的前沿,全新升级的百度智能云千帆大模型平台,基于文心大模型重构数字政府、金融、工业、交通四大行业解决方案,发布覆盖服务营销、办公提效、生产优化三大领域的11款面向通用场景的AI原生应用。

文心千帆不仅提供了包括文心一言底层模型(ERNIE-Bot)和第三方开源大模型,还提供了各种AI开发工具和整套开发环境,方便客户轻松使用和开发大模型应用。在使用过程中,用户对于操作问题还是一知半解,云小巴选型顾问为您带来千帆大模型平台的操作指南,还不懂的快收藏起来吧!

icon平台使用快速开始

一、前提条件

要使用百度千帆大模型平台,首先需要注册成为百度智能云用户。如您已经是开发者,可直接登录使用。

二、流程说明

千帆大模型平台覆盖从数据管理、数据标注、模型开发、模型纳管、部署上线的AI能力研发与应用全生命周期建设和管理。接入文心大模型算法和开放第三方业内知名的模型算法,降低全流程AI开发门槛。

三、实现步骤

在您完成注册后,可以登录到千帆大模型操作台,只要以下6个步骤即可快速完成大模型定制及测试效果的全过程。数据导入-> 数据标注-> 训练配置-> 模型纳管-> 发布服务-> 体验测试。

Step1:数据导入

1、需要您在左侧功能栏选择“数据管理 > 数据集管理”,进入数据总览界面,选择创建数据集。

2、进入“创建数据集”界面,填写数据集名称后,标注类型选择文本对话-非排序类型,选择平台存储,“创建并导入”,选择手动构建。

3、在导入配置中,按实际需求填写导入方式以及对应的格式或路径,上传无标注文件或者链接内容等,确认即可。

Step2:数据标注

在数据集列表中,找到以上创建的数据集,点击操作列的“标注”按钮。当光标移动至回答框,会有“自动生成”按钮,回答支持调用平台的LLM模型为问题生成对应回答,可在左上角切换模型。

Step3:训练配置

1、需要您在左侧功能栏中选择“模型精调> SFT”中创建调优任务,调整训练配置及参数(BLOOMZ-7B为例),不开启增量训练。

2、选择Step1中创建的数据集进行导入,并填入数据拆分比例。

以上步骤都完成后,点击“确定”按钮,即可进入自定义模型的训练,当任务详情中的模

3、运行显示“运行完成”,则表示模型训练成功。

Step4:模型纳管

选择Step3运行中的“发布”,填写新模型发布相关内容,将模型纳入模型管理模块。

Step5:发布服务

1、需要您在左侧功能栏中选择“模型服务 > 在线服务”,选择“创建服务”按钮,或者直接在Step4模型详情中的版本列表页,选择指定模型“部署”。

2、按照实际需要,进行服务配置和资源配置。

3、发布成功后,“模型服务 > 在线服务”中即可列表展示服务内容。

Step6:体验测试

在左侧功能列的体验中心,选择自训练模型和参数配置,进行在线测试。

iconSFT调优快速手册

SFT概述

什么是SFT?

有监督微调(SFT)是指采用预先训练好的神经网络模型,并针对你自己的专门任务在少量的监督数据上对其进行重新训练的技术。在千帆平台上已经预置了ERNIE-Bot系列大模型和BLOOM系列大模型。

SFT在大语言模型中的应用有以下重要原因:

任务特定性能提升:预训练语言模型通过大规模的无监督训练学习了语言的统计模式和语义表示。然而它在特定任务下的效果可能并不令人满意。通过在任务特定的有标签数据上进行微调,模型可以进一步学习任务相关的特征和模式,从而提高性能。

领域适应性:预训练语言模型可能在不同领域的数据上表现不一致。通过在特定领域的有标签数据上进行微调,可以使模型更好地适应该领域的特殊术语、结构和语义,提高在该领域任务上的效果。

数据稀缺性:某些任务可能受制于数据的稀缺性,很难获得大规模的标签数据。监督微调可以通过使用有限的标签数据来训练模型,从而在数据有限的情况下取得较好的性能。

防止过拟合:在监督微调过程中,通过使用有标签数据进行有监督训练,可以减少模型在特定任务上的过拟合风险。这是因为监督微调过程中的有标签数据可以提供更具体的任务信号,有助于约束模型的学习,避免过多地拟合预训练过程中的无监督信号。

准备数据

1、LLM大语言模型所需SFT数据

为每个示例准备文本输入和标签,以问答形式呈现。问答格式可以处理成多种文件格式, 例如JSONL, Excel File, CSV;核心是要保持两个独立的字段,即问题和答案。

2、Prompt优化

prompt优化主要在训练阶段,用于增强指令的多样性,让模型更好的理解指令。

3、数据规模、数据多样性

在SFT上数据规模的重要性低于数据质量, 通常1万条左右的精标数据即可发挥良好的效果。

在扩充数据规模时需要注意数据多样性,多样性的数据可以提高模型性能。

多样性除了从原始数据中获取,也可以通过prompt_template方式构建,对prompt指令进行数据增强,比如中文翻译英文的指令可以拓展为,中译英,翻译中文为英文等相同语义的指令。

在不扩大提示多样性的情况下扩大数据量时,收益会大大减少,而在优化数据质量时,收益会显著增加。

4、数据质量

挑选质量较高的数据,可以有效提高模型的性能。

数据质量用户需尽量自己把控,避免出现一些错误,或者无意义的内容。虽然平台也可以提供数据质量筛选的能力,但不可避免出现错筛的情况。

数据质量可以通过ppl、reward model,文本质量分类模型等方式进行初步评估。经过人工进行后续筛选。

面向不同的企业需求,文心千帆提供不同的功能服务,通过文心一言企业级推理云服务,并进行业务集成。其平台适用于对话沟通、内容创作、分析控制等业务场景,特别是工业级别的场景中,本身百度拥有几十年的搜索引擎,在数据层面的提炼已经精湛高超。

云巴巴作为一家国内领先的企业数字化转型的服务平台,致力于帮助企业实现数字化升级和优化。作为行业佼佼者,云巴巴积累了丰富的实践经验和深刻的行业洞察力,为不同行业、不同规模的企业提供个性化的解决方案。

客户群体广泛,包括金融、医疗、零售、制造等多个行业,并为众多企业创造了数字化转型的成功案例。为了更好地服务客户,云巴巴组建了一支专业的团队,具备多年的行业经验和专业技能,同时也与多个合作伙伴建立了紧密的合作关系。

百度作为云巴巴重要的合作伙伴,双方携手共同为企业用户提供更多优质的产品与服务。目前百度文心千帆的产品已在云巴巴平台上线,从云小巴平台采购文心大模型产品,可有200元福利优惠券免费领取!!如需了解更多产品信息,请扫描下方二维码与我们联系!

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

热门数字化产品

壹悟科技智能物流仿真系统Simulator壹悟科技智能物流仿真系统(Simulator)可以实现对仓储场景和工厂场景的业务流程仿真。支持用户导入项目现场运行地图,自定义移动机器人的参数和数量,以真实的物流业务调度系统(WCS)和机器人调度系统(RCS)为内核,驱动仿真运行,高度还原业务实际场景的作业流程和节拍。支持2D和3D实时运行显示,并提供完善的运行数据统计分析。
京东科技言犀数字人京东科技言犀数字人提供产品、服务、运营、营销场景的智能化方案。言犀虚拟主播电商应用场景及数据沉淀,保障品牌直播效果。言犀虚拟主播操作简单,功能强大,拥有业界一流智能化水平。库内通用形象丰富,且持续更新,可按需定制品牌专属数字人。
内训宝企业在线培训系统内训宝企业在线培训系统拥有清晰、流畅、稳定的视频课程播放功能,视频/讲义-键切换的播放模式,满足不限终端、不限地点的学习需求,支持视频课程及PDF、PPT等文本课程学习,视频支持MPEG1、AVI、 FLV、 MPEG4、WMV、RM、QUICKTIME等主流视频格式。深入教育培训场景,体验全新学习形式。全面多终端智能学习及量身定制服务。
分贝通企业支出管理平台分贝通企业支出管理方案,全面满足企业费用支出管理需求。一站式企业支出管理平台,体验全新企业支出体验,全流程费控,全场景支付,提供整合的数据及流转。为高成长企业带来一站式的企业支付体验,帮助财务更高效、更数字化的管理费用支出。
基调听云智能可观测性平台基调听云新一代贯通全栈IT与业务的智能可观测性平台,涵盖五个层面的能力升级:一是全栈数据采集,二是多维多源智能分析,三是以应用和业务为中心,四是可观测数据的纵横融合打通,五是全方位可观测,帮助企业从容应对数字化时代挑战,助力业务增长。
为你推荐
2025腾讯产业合作伙伴大会|云巴巴荣获双项大奖,载誉而归

1月16日,2025腾讯产业合作伙伴大会在三亚召开。云巴巴,荣膺“2024腾讯云卓越合作伙伴奖—星云奖”和“2024腾讯云AI产品突出贡献奖”双项大奖

2025-01-17
信创适配难×多端效率低?Testin云测AI自动化测试重塑企业测试效能边界

Testin云测自动化测试解决方案,以零代码降低门槛、全栈兼容打破生态壁垒、云端集约提升资源效能,助力企业跨越测试鸿沟,赢在数智化时代。

2025-04-30
如何破局金融合规与敏捷难题?TAPD双引擎方案实测揭秘!

如何构建安全合规、敏捷高效的研发管理体系,已成为金融业高质量发展的关键命题。

2025-04-30
跨部门协作总卡壳?TAPD让互联网企业需求交付周期缩短80%

腾讯TAPD正在凭借着三大亮点帮助众多互联网企业打破传统管理模式的束缚,实现更加透明、高效的协作。

2025-04-30
智能航运管理平台如何选型?揭秘洞隐智能航运助力企业数字化转型的“航海秘籍”

云巴巴基于多年行业深耕,为大家推荐洞隐科技的智能航运管理平台,为企业开启“智慧航海”新篇章——这不仅是技术的升级,更是一场管理模式的革新。

2025-04-30
查看更多