文心千帆大模型平台操作指南揭秘!

来源: 云巴巴 2024-04-08 17:37:24

从八月底开始,国内11家首批通过《生成式人工智能服务管理暂行办法》备案的大模型获批上线,将通过Web、APP、API等方式,为全社会提供多种生成式AI服务。这也标志着在ChatGPT之后,我国自主研发的大模型产品进入快速迭代和应用阶段。

很多企业已经感受到了大模型带来的智能力量,也在积极寻找适用的大模型平台。百度一直走在大模型研发的前沿,全新升级的百度智能云千帆大模型平台,基于文心大模型重构数字政府、金融、工业、交通四大行业解决方案,发布覆盖服务营销、办公提效、生产优化三大领域的11款面向通用场景的AI原生应用。

文心千帆不仅提供了包括文心一言底层模型(ERNIE-Bot)和第三方开源大模型,还提供了各种AI开发工具和整套开发环境,方便客户轻松使用和开发大模型应用。在使用过程中,用户对于操作问题还是一知半解,云小巴选型顾问为您带来千帆大模型平台的操作指南,还不懂的快收藏起来吧!

icon平台使用快速开始

一、前提条件

要使用百度千帆大模型平台,首先需要注册成为百度智能云用户。如您已经是开发者,可直接登录使用。

二、流程说明

千帆大模型平台覆盖从数据管理、数据标注、模型开发、模型纳管、部署上线的AI能力研发与应用全生命周期建设和管理。接入文心大模型算法和开放第三方业内知名的模型算法,降低全流程AI开发门槛。

三、实现步骤

在您完成注册后,可以登录到千帆大模型操作台,只要以下6个步骤即可快速完成大模型定制及测试效果的全过程。数据导入-> 数据标注-> 训练配置-> 模型纳管-> 发布服务-> 体验测试。

Step1:数据导入

1、需要您在左侧功能栏选择“数据管理 > 数据集管理”,进入数据总览界面,选择创建数据集。

2、进入“创建数据集”界面,填写数据集名称后,标注类型选择文本对话-非排序类型,选择平台存储,“创建并导入”,选择手动构建。

3、在导入配置中,按实际需求填写导入方式以及对应的格式或路径,上传无标注文件或者链接内容等,确认即可。

Step2:数据标注

在数据集列表中,找到以上创建的数据集,点击操作列的“标注”按钮。当光标移动至回答框,会有“自动生成”按钮,回答支持调用平台的LLM模型为问题生成对应回答,可在左上角切换模型。

Step3:训练配置

1、需要您在左侧功能栏中选择“模型精调> SFT”中创建调优任务,调整训练配置及参数(BLOOMZ-7B为例),不开启增量训练。

2、选择Step1中创建的数据集进行导入,并填入数据拆分比例。

以上步骤都完成后,点击“确定”按钮,即可进入自定义模型的训练,当任务详情中的模

3、运行显示“运行完成”,则表示模型训练成功。

Step4:模型纳管

选择Step3运行中的“发布”,填写新模型发布相关内容,将模型纳入模型管理模块。

Step5:发布服务

1、需要您在左侧功能栏中选择“模型服务 > 在线服务”,选择“创建服务”按钮,或者直接在Step4模型详情中的版本列表页,选择指定模型“部署”。

2、按照实际需要,进行服务配置和资源配置。

3、发布成功后,“模型服务 > 在线服务”中即可列表展示服务内容。

Step6:体验测试

在左侧功能列的体验中心,选择自训练模型和参数配置,进行在线测试。

iconSFT调优快速手册

SFT概述

什么是SFT?

有监督微调(SFT)是指采用预先训练好的神经网络模型,并针对你自己的专门任务在少量的监督数据上对其进行重新训练的技术。在千帆平台上已经预置了ERNIE-Bot系列大模型和BLOOM系列大模型。

SFT在大语言模型中的应用有以下重要原因:

任务特定性能提升:预训练语言模型通过大规模的无监督训练学习了语言的统计模式和语义表示。然而它在特定任务下的效果可能并不令人满意。通过在任务特定的有标签数据上进行微调,模型可以进一步学习任务相关的特征和模式,从而提高性能。

领域适应性:预训练语言模型可能在不同领域的数据上表现不一致。通过在特定领域的有标签数据上进行微调,可以使模型更好地适应该领域的特殊术语、结构和语义,提高在该领域任务上的效果。

数据稀缺性:某些任务可能受制于数据的稀缺性,很难获得大规模的标签数据。监督微调可以通过使用有限的标签数据来训练模型,从而在数据有限的情况下取得较好的性能。

防止过拟合:在监督微调过程中,通过使用有标签数据进行有监督训练,可以减少模型在特定任务上的过拟合风险。这是因为监督微调过程中的有标签数据可以提供更具体的任务信号,有助于约束模型的学习,避免过多地拟合预训练过程中的无监督信号。

准备数据

1、LLM大语言模型所需SFT数据

为每个示例准备文本输入和标签,以问答形式呈现。问答格式可以处理成多种文件格式, 例如JSONL, Excel File, CSV;核心是要保持两个独立的字段,即问题和答案。

2、Prompt优化

prompt优化主要在训练阶段,用于增强指令的多样性,让模型更好的理解指令。

3、数据规模、数据多样性

在SFT上数据规模的重要性低于数据质量, 通常1万条左右的精标数据即可发挥良好的效果。

在扩充数据规模时需要注意数据多样性,多样性的数据可以提高模型性能。

多样性除了从原始数据中获取,也可以通过prompt_template方式构建,对prompt指令进行数据增强,比如中文翻译英文的指令可以拓展为,中译英,翻译中文为英文等相同语义的指令。

在不扩大提示多样性的情况下扩大数据量时,收益会大大减少,而在优化数据质量时,收益会显著增加。

4、数据质量

挑选质量较高的数据,可以有效提高模型的性能。

数据质量用户需尽量自己把控,避免出现一些错误,或者无意义的内容。虽然平台也可以提供数据质量筛选的能力,但不可避免出现错筛的情况。

数据质量可以通过ppl、reward model,文本质量分类模型等方式进行初步评估。经过人工进行后续筛选。

面向不同的企业需求,文心千帆提供不同的功能服务,通过文心一言企业级推理云服务,并进行业务集成。其平台适用于对话沟通、内容创作、分析控制等业务场景,特别是工业级别的场景中,本身百度拥有几十年的搜索引擎,在数据层面的提炼已经精湛高超。

云巴巴作为一家国内领先的企业数字化转型的服务平台,致力于帮助企业实现数字化升级和优化。作为行业佼佼者,云巴巴积累了丰富的实践经验和深刻的行业洞察力,为不同行业、不同规模的企业提供个性化的解决方案。

客户群体广泛,包括金融、医疗、零售、制造等多个行业,并为众多企业创造了数字化转型的成功案例。为了更好地服务客户,云巴巴组建了一支专业的团队,具备多年的行业经验和专业技能,同时也与多个合作伙伴建立了紧密的合作关系。

百度作为云巴巴重要的合作伙伴,双方携手共同为企业用户提供更多优质的产品与服务。目前百度文心千帆的产品已在云巴巴平台上线,从云小巴平台采购文心大模型产品,可有200元福利优惠券免费领取!!如需了解更多产品信息,请扫描下方二维码与我们联系!

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

简单了解一下大数据未来的发展趋势吧(二)

简单了解一下大数据未来的发展趋势吧(二)

在上篇文章中,小编已经经介绍过了很多关于大数据未来的发展趋势,但是不至于那些,本篇文章,小编会继续针对大数据未来的发展趋势进行介绍。 数据的资源化 什么是资源,是指大型企业数据已经成为一种重要的战略资源和社会问题,大数据已在成为争夺的新焦点。因而,企业

2022-11-22 10:08:45

Tableau退出中国市场,这款BI工具你不得不知!

Tableau退出中国市场,这款BI工具你不得不知!

Sugar BI是百度云推出的敏捷BI 和数据可视化平台,目标是解决报表和大屏的数据 BI 分析和可视化问题,减轻数据可视化系统的开发压力。利用Sugar可以方便进行数据可视化操作,只需要进行简单的拖拽功能,不要求用户的编程能力,就能实现大屏的设计呈现。

2024-03-27 14:28:24

媲美GPT-4!深度解析文心大模型4.0四大亮点

媲美GPT-4!深度解析文心大模型4.0四大亮点

就在今年10月,百度文心大模型4.0版本正式发布,4大亮点颇受关注,并带来了十多款AI原生应用。

2024-03-27 15:04:25

IDC Marketscape:阿里云,政务大数据领导者

IDC Marketscape:阿里云,政务大数据领导者

近日,市场研究机构IDC发布最新MarketScape报告 《中国政务大数据管理平台市场厂商评估2021》 阿里云位居领导者位置,在产品能力、市场份额上均领先行业。

2021-12-10 10:51:10

傲林科技:实施数字化转型,汽车零部件企业最关心哪些问题?

傲林科技:实施数字化转型,汽车零部件企业最关心哪些问题?

针对汽车零部件行业企业面临的“信息孤岛”、缺乏基于数据分析开展科学决策等问题,利用首创的“事件网”和“企业级数字孪生”,从企业“供产销”经营铁三角切入,结合企业生产运营“人机料法环财”等全局数据,提供关键业务场景下针对不同业务目标的动态最优方案,为企业管理者提供决策辅助支持,最终实现降本增效。

2022-07-11 13:40:42

艺赛旗CDA桌面行为分析:提升企业安全与效率的利器

艺赛旗CDA桌面行为分析:提升企业安全与效率的利器

在信息化快速发展的时代,企业面临着越来越多的信息安全挑战。为了保障企业的信息安全,提高业务操作效率和客户服务质量,艺赛旗推出了一款功能全面、安全高效的桌面行为分析系统——CDA(Centralized Desktop Analysis)。本文将详细介绍CDA的功能特点、优势以及如何帮助企业实现合规安全地利用终端资源,提升企业的自动化水平。

2024-03-27 11:17:38

严选云产品

McAfee网络安全平台NSP McAfee网络安全平台NSP,检测针对WEB服务器的SSL加密流量攻击,无需增加额外的解密设备,Agent代理方式或导入密钥,支持RSA、DHE、ECDHE等加密算法,支持Apache、Tomcat、Nginx、IIS、Websphere等WEB服务器,对于IPS没有性能影响!
腾讯乐享零售行业企业培训解决方案 腾讯乐享零售行业企业培训解决方案,移动端快速学习,业务知识定期考核,产品宣传、客户咨询,乐享快速搞定。促进交流氛围,负责人快速答疑,导购福利关怀:让门店员工一样感受到公司温暖。
档案 Nutanix文件可立即使用,提供软件定义的高可用性,大规模,轻松的自助服务管理,自调整和自修复功能。独立部署或作为Nutanix企业云的一部分进行部署。
保融科技企业财资云 保融科技企业财资云,企业通过多银行账户管理登记和维护需要管理的各成员单位银行账户信息,将管理架构体系“复制”到系统中,准确体现多层级账户管理及授权关系。系统可支持自动处理,实现跨行收付结算系统自动运行;系统可支持高频结算,日处理量可达百万笔交易量级。
天威诚信手机盾TopMKEY 天威诚信手机盾(TopMKEY)是基于密钥分割、协同运算等安全技术的移动证书应用协同签名系统,与智能手机结合实现免介质的应用方式,且其密钥安全性和应用效果等同于传统USBKey安全等级,有效解决传统介质不便携带、难以使用问题。
UCloud优刻得混合云解决方案 UCloud优刻得混合云解决方案,构建高可用、低延时的混合云架构,支持资源弹性扩容和计费,降低成本;灵活的架构满足各个行业对上云业务的稳定性,平滑过渡的要求;安全符合金融等保三级合规性的要求,满足用户数据中心双活/容灾等场景的需求。

甄选10000+数字化产品 为您免费使用

申请试用