
语音全景架构图
大模型驱动的新一代语音技术,识别更精准 交互更拟人。

应用场景 | 语音识别
将语音快速准确识别为文字,支持手机应用语音搜索、语音内容分析、音视频直播字幕等多个场景。


应用场景 | 语音合成
支持在线、离线多种调用方式,满足阅读听书、订单播报、智能硬件等场景的语音播报需求。

语音识别
采用国际领先的流式端到端语音语言一体化建模算法,将语音快速准确识别为文字,支持手机应用语音交互、语音内容分析、机器人对话等多个场景。
产品功能 | 短语音识别
将60秒以内的语音精准识别为文字,识别准确率高达98%。
收费模式:
· 短语音识别标准版:按调用次数计费,基于语言类型购买
· 短语音识别极速版:按调用次数计费,支持中文普通话。
产品功能 | 实时语音识别
将音频流实时识别为文字,并返回每句话的开始和结束时间,识别准确率高达98%。
收费模式:
按调用时长计费,支持预付费与后付费两种付费方。式。并基于中文普通话、英语等模型购买。
产品功能 | 音频文件转写
将批量上传的音频文件识别为文字,12小时内返回识别结果,识别准确率高达98%。
收费模式:
按调用时长计费,支持预付费和后付费两种付费方。式。并基于中文普通话、英语等模型购买。
产品功能 | 语音字幕服务
音视频场景专属模型,支持智能分析标点、断句,准确匹配时间轴,助力字幕生产降本增效。
收费模式:结合实时语音识别、音频文件转写使用。

语音合成
基于业内领先的深度学习技术,提供高度拟人、流畅自然的语音合成服务,支持在线、离线多种调用方式,满足泛阅读、订单播报、智能硬件等场景的语音播报需求。
产品功能 | 短文本&长文本在线合成
让应用、设备开口说话,更具个性。
收费模式:
·按次数包预付费:按次数/字符计费,用户可同时购买多个次数包叠加使用。
·按调用量后付费:可作为"按次数包预付费”付费方式的兜底方案。
·按并发预付费:特殊业务场景或需求,可支持按并。发方式合作。

产品功能 | 大模型语音合成构
让声音更加拟人、情感更加丰富、韵律更加自然。
收费模式:
·按次数包预付费:按次数计费,用户可同时购买多个次数包叠加使用。
·按调用量后付费:可作为"按次数包预付费”付费方式的兜底方案。
·按并发预付费:特殊业务场景或需求,可支持按并发方式合作。

产品功能|流式文本在线合成
毫秒级实时生成,0延迟响应,高效实时合成。
收费模式:支持按调用或并发计费
产品功能 | 离线合成SDK
无网也可使用的高性价比产品。
收费模式:
按设备数授权(授权序列号与终端设备是1:1的关系)适用于智能硬件设备;
按产品线授权(授权序列号与终端设备是1:N的关系)适用于阅读类、订单播报类APP。

产品功能 | 大模型声音复刻
超低门槛,5秒即可完成逼真声音复刻。
收费模式:声音复刻费 + 发音人存储 + 服务调用费
超低门槛 - 无需专业设备与场地,极大提升效率,降低使用门槛。
精准还原 - 精准还原音色特点、说话风格、韵律起伏、声学环境。
极速复刻 - 最低5秒即可完成高品质复刻,精准呈现音色细节,高效逼真。
跨语种复刻 - 支持仅输入中文,即可准确复刻英语、日语等语种。

产品功能 | 定制音库
最低仅需200句录音,即可生成专属定制化音库。
收费模式:模型定制费 + 服务调用费

产品功能 | 多角色多情感
更低的成本,更爽的选择,生动演绎小说文本。
收费模式参考:书籍生产+合成调用+书籍更新

端到端语音语言大模型
基于业内首创的Cross-Attention跨模态语音大模型,开启语音交互新纪元。广泛应用于实时语音交互的情感陪伴、社交娱乐以及知识问答等场景。
传统语音交互的痛点
多环节有延迟 成本高效果提升难。
产品功能 | 端到端语音语言大模型

端到端语音语言大模型交互架构图

端到端语音语言大模型主要创新点
场景方案一 | 有声阅读场景方案
大幅提升阅读体验,更低成本,更爽选择。
场景方案二 | 音视频直播方案
高精度识别提升观看体验,敏感词库提供审核保障。
场景方案三 | 出行导航&订单播报场景方案
低成本实时播报订单信息,提升效率。
案例一 | 百度语音合成音库提升阅读听书体验
案例背景:小说阅读类APP用户对听书功能的需求日益增长,追求更加优质的情感阅读体验。
使用产品:在线语音合成、离线语音合成、短语音识别
核心价值:臻品音库助力用户体验升级,让用户爱上听书:某五百万级以上的DAU客户将基础音库升级至臻品音库,用户好评率98%以上,DAU环比增加近10%、人均阅读时长环比提升近15%;该客户进一步将臻品音库设置为默认音库,人均阅读时长再次环比进一步提升近10%
多角色多情感助力VIP转化,让用户为爽买单:某千万级DAU产品采用多角色多情感合成,向VIP用户提供多角色、多情感听书体验,上线后VIP用户中听书用户增长近15%,VIP付费转化率环比提升近10%。

案例二 | 百度语音识别让音视频直播更具吸引力

案例三 | 百度语音合成提升行车安全性与抢单便捷性
案例背景:嘀嗒出行提供出租车、顺风车出行服务,需要将实时订单发送给司机,通过语音播报的形式,减少与手机的视觉交互,确保司乘安全,提升接单效率。
使用产品:短文本语音合成、离线语音合成、短语音识别
核心价值:
确保安全性:绝大多数司机是在行车过程中听单,视觉交互存在极高的安全风险,在很多国家的安全法规中都是不允许的。使用语音交互可确保司乘的行车安全。
提升交互体验:出租车司机人群,对于数字设备的使用熟练程度上有一定的学习成本,增加语音作为交互方式可以增强司机对订单信息的辨识力与获取效率。

案例四 | 打造揽件、派件、质检全链路语音方案
案例背景:客户业务涵盖快递/物流的派件、揽件语音通话,行车中的订单信息播报,以及线上呼叫中心外呼、热线等,涉及大量离线、实时音频通话转写,以及智能客服语音对话。
使用产品:呼叫中心语音识别、呼叫中心语音合成、短文本语音合成
核心价值:
高识别准确率 - 精准识别各类行业专有名词、术语等,有效提升转写结果,提升质检准确性+降低争议性交易判定的错误率
服务稳定流畅 - 面对高并发业务,通过提供专属集群、模型服务,有效确保海量业务调用下的服务稳定流畅。




