文心千帆大模型平台操作指南揭秘!

来源: 云巴巴 2024-04-08 17:37:24

从八月底开始,国内11家首批通过《生成式人工智能服务管理暂行办法》备案的大模型获批上线,将通过Web、APP、API等方式,为全社会提供多种生成式AI服务。这也标志着在ChatGPT之后,我国自主研发的大模型产品进入快速迭代和应用阶段。

很多企业已经感受到了大模型带来的智能力量,也在积极寻找适用的大模型平台。百度一直走在大模型研发的前沿,全新升级的百度智能云千帆大模型平台,基于文心大模型重构数字政府、金融、工业、交通四大行业解决方案,发布覆盖服务营销、办公提效、生产优化三大领域的11款面向通用场景的AI原生应用。

文心千帆不仅提供了包括文心一言底层模型(ERNIE-Bot)和第三方开源大模型,还提供了各种AI开发工具和整套开发环境,方便客户轻松使用和开发大模型应用。在使用过程中,用户对于操作问题还是一知半解,云小巴选型顾问为您带来千帆大模型平台的操作指南,还不懂的快收藏起来吧!

icon平台使用快速开始

一、前提条件

要使用百度千帆大模型平台,首先需要注册成为百度智能云用户。如您已经是开发者,可直接登录使用。

二、流程说明

千帆大模型平台覆盖从数据管理、数据标注、模型开发、模型纳管、部署上线的AI能力研发与应用全生命周期建设和管理。接入文心大模型算法和开放第三方业内知名的模型算法,降低全流程AI开发门槛。

三、实现步骤

在您完成注册后,可以登录到千帆大模型操作台,只要以下6个步骤即可快速完成大模型定制及测试效果的全过程。数据导入-> 数据标注-> 训练配置-> 模型纳管-> 发布服务-> 体验测试。

Step1:数据导入

1、需要您在左侧功能栏选择“数据管理 > 数据集管理”,进入数据总览界面,选择创建数据集。

2、进入“创建数据集”界面,填写数据集名称后,标注类型选择文本对话-非排序类型,选择平台存储,“创建并导入”,选择手动构建。

3、在导入配置中,按实际需求填写导入方式以及对应的格式或路径,上传无标注文件或者链接内容等,确认即可。

Step2:数据标注

在数据集列表中,找到以上创建的数据集,点击操作列的“标注”按钮。当光标移动至回答框,会有“自动生成”按钮,回答支持调用平台的LLM模型为问题生成对应回答,可在左上角切换模型。

Step3:训练配置

1、需要您在左侧功能栏中选择“模型精调> SFT”中创建调优任务,调整训练配置及参数(BLOOMZ-7B为例),不开启增量训练。

2、选择Step1中创建的数据集进行导入,并填入数据拆分比例。

以上步骤都完成后,点击“确定”按钮,即可进入自定义模型的训练,当任务详情中的模

3、运行显示“运行完成”,则表示模型训练成功。

Step4:模型纳管

选择Step3运行中的“发布”,填写新模型发布相关内容,将模型纳入模型管理模块。

Step5:发布服务

1、需要您在左侧功能栏中选择“模型服务 > 在线服务”,选择“创建服务”按钮,或者直接在Step4模型详情中的版本列表页,选择指定模型“部署”。

2、按照实际需要,进行服务配置和资源配置。

3、发布成功后,“模型服务 > 在线服务”中即可列表展示服务内容。

Step6:体验测试

在左侧功能列的体验中心,选择自训练模型和参数配置,进行在线测试。

iconSFT调优快速手册

SFT概述

什么是SFT?

有监督微调(SFT)是指采用预先训练好的神经网络模型,并针对你自己的专门任务在少量的监督数据上对其进行重新训练的技术。在千帆平台上已经预置了ERNIE-Bot系列大模型和BLOOM系列大模型。

SFT在大语言模型中的应用有以下重要原因:

任务特定性能提升:预训练语言模型通过大规模的无监督训练学习了语言的统计模式和语义表示。然而它在特定任务下的效果可能并不令人满意。通过在任务特定的有标签数据上进行微调,模型可以进一步学习任务相关的特征和模式,从而提高性能。

领域适应性:预训练语言模型可能在不同领域的数据上表现不一致。通过在特定领域的有标签数据上进行微调,可以使模型更好地适应该领域的特殊术语、结构和语义,提高在该领域任务上的效果。

数据稀缺性:某些任务可能受制于数据的稀缺性,很难获得大规模的标签数据。监督微调可以通过使用有限的标签数据来训练模型,从而在数据有限的情况下取得较好的性能。

防止过拟合:在监督微调过程中,通过使用有标签数据进行有监督训练,可以减少模型在特定任务上的过拟合风险。这是因为监督微调过程中的有标签数据可以提供更具体的任务信号,有助于约束模型的学习,避免过多地拟合预训练过程中的无监督信号。

准备数据

1、LLM大语言模型所需SFT数据

为每个示例准备文本输入和标签,以问答形式呈现。问答格式可以处理成多种文件格式, 例如JSONL, Excel File, CSV;核心是要保持两个独立的字段,即问题和答案。

2、Prompt优化

prompt优化主要在训练阶段,用于增强指令的多样性,让模型更好的理解指令。

3、数据规模、数据多样性

在SFT上数据规模的重要性低于数据质量, 通常1万条左右的精标数据即可发挥良好的效果。

在扩充数据规模时需要注意数据多样性,多样性的数据可以提高模型性能。

多样性除了从原始数据中获取,也可以通过prompt_template方式构建,对prompt指令进行数据增强,比如中文翻译英文的指令可以拓展为,中译英,翻译中文为英文等相同语义的指令。

在不扩大提示多样性的情况下扩大数据量时,收益会大大减少,而在优化数据质量时,收益会显著增加。

4、数据质量

挑选质量较高的数据,可以有效提高模型的性能。

数据质量用户需尽量自己把控,避免出现一些错误,或者无意义的内容。虽然平台也可以提供数据质量筛选的能力,但不可避免出现错筛的情况。

数据质量可以通过ppl、reward model,文本质量分类模型等方式进行初步评估。经过人工进行后续筛选。

面向不同的企业需求,文心千帆提供不同的功能服务,通过文心一言企业级推理云服务,并进行业务集成。其平台适用于对话沟通、内容创作、分析控制等业务场景,特别是工业级别的场景中,本身百度拥有几十年的搜索引擎,在数据层面的提炼已经精湛高超。

云巴巴作为一家国内领先的企业数字化转型的服务平台,致力于帮助企业实现数字化升级和优化。作为行业佼佼者,云巴巴积累了丰富的实践经验和深刻的行业洞察力,为不同行业、不同规模的企业提供个性化的解决方案。

客户群体广泛,包括金融、医疗、零售、制造等多个行业,并为众多企业创造了数字化转型的成功案例。为了更好地服务客户,云巴巴组建了一支专业的团队,具备多年的行业经验和专业技能,同时也与多个合作伙伴建立了紧密的合作关系。

百度作为云巴巴重要的合作伙伴,双方携手共同为企业用户提供更多优质的产品与服务。目前百度文心千帆的产品已在云巴巴平台上线,从云小巴平台采购文心大模型产品,可有200元福利优惠券免费领取!!如需了解更多产品信息,请扫描下方二维码与我们联系!

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

大数据产业生态助力小企业走向大舞台

大数据产业生态助力小企业走向大舞台

大数据的出现,给我们的和生活都带来了学对的不同,对于一些中小企业来说,大数据亦给其带来了机遇,现如今,更是助力小企业走向大舞台。目前,推动大数据技术发展中国已成为影响我国各省市的共识。 改革国家机构,“大数据”已经成为一大亮点。比如,山东、福建、浙江、广

2022-11-22 15:12:05

Tableau宣布退出中国市场,中国用户该何去何从?

Tableau宣布退出中国市场,中国用户该何去何从?

对Tableau来说,只要数据不过时,未来的路就不会就此止步。

2022-03-31 19:53:33

你知道电话营销中如何进行数据的应用吗?

你知道电话营销中如何进行数据的应用吗?

就让我们从理论动手,去看看电话营销中“数据管理”需求需要关注的那些环节!   由于不同的TSR对数据的运用状况不同,经历通知我们,数据是不需求均匀分配给每一个TSR的。在分配数据时我们应该依据每一个TSR对数据的运用状况来实时停止有效的调控。这时,有两个

2022-11-21 11:15:28

大数据在人力资源的作用

大数据在人力资源的作用

大数据在教育,金融,政府,等都有着不一样的应用,在人力资源的应用当然也不同,详细分析下大数据在人力资源下的那些应用。

2020-03-12 17:51:00

金山云大数据和人工智能助力新零售实现“千人千面”

金山云大数据和人工智能助力新零售实现“千人千面”

在2019数字智能零售峰会上,金山云解决方案总经理于涛与听众分享金山云在零售行业的种种思考和探索。

2019-09-17 13:35:59

简谈大数据与数字化之间的那些关系

简谈大数据与数字化之间的那些关系

大的大数据,大静的后大,动态大,运营商的叠加。数据量非常之大有三个基本要点,一是数据量大,如大英博物馆的藏品可以以数字形式存储。二是大型实时动态变量。每一秒钟、每 一分钟、每一小时、每一天,数据技术都在发展产生巨大变化。 世界七大十亿人,约67十亿的手机

2022-11-22 11:11:13

严选云产品

阿里云负载均衡SLB 阿里云负载均衡是云原生时代应用高可用的基本要素。通过对多台云服务器进行均衡的流量分发调度,消除单点故障提升应用系统的可靠性与吞吐力。阿里云SLB包含面向4层(TCP/UDP)的传统型负载均衡CLB和面向7层(HTTP/HTTPS/QUIC)的应用型负载均衡ALB,是阿里云官方云原生网关。
腾讯云 京腾云仓解决方案 京腾云仓京腾云仓解决方案是腾讯智慧零售和京东物流联手打造的一站式私域营销&物流履约SaaS解决方案,旨在以腾讯智慧零售的电商私域场、以京东云仓的商品和物流生态场,为用户拓展私域生态新生意、新增长。
竹间智能Bot Factory对话式AI平台 竹间智能Bot Factory对话式AI平台提供7*24小时不间断的在线服务,保持各渠道回复的一致性,同时平台化架构,为智能客服,智能交互,智能辅助等一些列场景提供统一的知识和能力平台。达到降低人工负荷,基于智能语义提供对话交互理解能力,实现情绪判定,同时与人工服务无缝集成,可以在对话中实现核身,查询,咨询,购买等一系列复核营销服务,针对客户画像实现精准推荐和营销。
四度科技中石化三维虚拟仿真系统 四度科技中石化三维虚拟仿真系统,通过软件系统模拟管道和装备装置的运行细节情况、组成部件情况、资产情况、项目监理、财务数据模拟、报警数据提示等,可视化地总观全局,看到项目整体运行的数据情况,便于更好更快地做出决策。
指掌易 移动业务审计解决方案 指掌易移动业务审计平台是针对移动端的上网和通讯、业务行为进行完整的行为管控和过程记录的工具。出于监管和信息泄露,对信息交互进行审查、分析,对业务人员的上网和通讯的形式、通道和内容都进行管控和记录。
京东科技云原生统一存储解决方案 京东科技云原生统一存储解决方案,通过技术手段优化长尾时延,百万IOPS 时,时延低于200us,延迟指标优于多数竞品。全面使用QLC存储介质,厂商认证为国内最大规模应用QLC SSD的云厂商;云海采用无Leader、无复制组机制、多副本皆可读,保障系统连续性。

甄选10000+数字化产品 为您免费使用

申请试用