icon产品概述:应用场景icon

腾讯云语音识别产品满足将语音转化成文字的需求,提供丰富的产品形态供客户选择。在业务场景上,适用于智能客服、录音质检、会议纪要、实时字幕、面对面销售、法庭转写等多种场景。

智能客服质检
在智能客服场景中,使用腾讯云语音识别可以将客服通话录音转化成文本,对可能出现的违规用语、危险用语等进行及时的干预处理,避免造成公司损失。支持实时监控和离线录音异步质检等多种质检方式。
会议实时转写
通过腾讯云语音识别实现实时对会议内容进行转写,免除了大量人工记录的工作,并通过产品的自动分段功能减轻后续人工编辑的工作量,辅助会议记录快速生成,提升稿件整理效率。
实时字幕
支持对视频进行实时字幕转写,产品提供时间戳功能,其精细度可到字级别,帮助客户更好地定位定位字幕持续时间,实现在线会议、在线视频的实时字幕功能。
icon产品概述:应用场景icon

腾讯云语音识别产品满足将语音转化成文字的需求,提供丰富的产品形态供客户选择。在业务场景上,适用于智能客服、录音质检、会议纪要、实时字幕、面对面销售、法庭转写等多种场景。

法庭转写
传统场景的书记员人工记录方式有可能影响庭审效率,或出现错误需要二次修改。使用腾讯云语音识别,可以自动地实现庭审记录的转写,大量降低了人工工作,避免了人为错误、人为篡改等人工因素,维护了法庭记录的合规性,有效提升庭审记录效率。
面对面销售
腾讯云语音识别对面对面销售场景、尤其是车企、药企等需要重点依赖面对面销售的场景有很好的支持力度,能够通过近远场识别技术准确地转写客户和销售人员的对话内容,帮助销售人员回顾工作过程,或帮助管理者进行销售人员规范用语质检。
语音输入法
腾讯云语音识别能够帮助各大输入法厂商实现语音转写,通过多方言、多语种、实时性等特性的支持,能够覆盖大部分终端客户语音转写的场景,可用性高达95%。
icon产品概述:语音识别(ASR)技术与应用架构icon
icon产品功能:产品矩阵icon

腾讯云语音识别(ASR)产品种类丰富,支持录音文件识别、录音文件识别(极速版)、实时语音识别、一句话识别等四款主流产品,可覆盖绝大部分ASR使用需求。还提供语音流异步识别等专有产品供特殊客户使用。此外,还有嵌入式版本供离线环境使用。腾讯云ASR识别准确率业界领先,支持的方言、语种也十分丰富。腾讯云语音识别(ASR)目前有六个产品类型:录音文件识别、录音文件识别(极速版)、实时语音识别、一句话识别、语音流异步识别、离线语音识别。

icon产品功能:特色功能介绍icon

腾讯云语音识别(ASR)除常规识别功能外,还支持部分特色功能,帮助客户更好地使用产品。

分段方式自定义
腾讯云ASR支持根据语义自动分段,但如果客户有特殊需要,可以开启按标点符号分段的功能,尤其适用于字幕场景
阿拉伯数字智能转换
开启后可以进行阿拉伯数字、中文汉字智能转换(目前仅支持中文普通话引擎)
语气词过滤
开启后可以支持过滤语气词(如:嗯、啊、哦)
脏字过滤
开启后可以过滤脏字、脏词
热词和自学习
热词:支持客户传入最多128个热词,自学习:支持客户上传最大2M的自学习语料(关于热词和自学习的详细描述,请见下一页)
icon产品功能:热词和自学习icon

腾讯云语音识别(ASR)支持客户在控制台进行热词和自学习词表配置,以实现在某个专有领域(如金融、法庭、客服等)快速进行识别效果提升。客户可以自行上传热词和自学习语料,自助达到模型定向优化、识别准确率提升的问题。关于热词和自学习的详细介绍可以点击此处进行查看。

icon产品功能:热词和自学习icon

腾讯云语音识别(ASR)支持客户在控制台进行热词和自学习词表配置,以实现在某个专有领域(如金融、法庭、客服等)快速进行识别效果提升。客户可以自行上传热词和自学习语料,自助达到模型定向优化、识别准确率提升的问题。关于热词和自学习的详细介绍可以点击此处进行查看。

icon产品功能:离线语音识别icon

腾讯云语音合成(TTS)离线版目前有一个产品类型:离线语音识别,主要的接入方式为客户端(Android)SDK。离线语音识别适用于无网络、弱网情况下的语音识别场景,目前仅支持中文普通话和英语,支持Android平台进行接入。适用场景为:智能硬件(尤其是没有联网条件的智能家居)、语音输入法、游戏娱乐、离线命令词识别等。

步骤一:购买离线SDK授权
(免费版需申请)
登录离线SDK控制台,购买离线SDK授权(离线语音识别SDK提供5个免费额度,有更多额度需求需要进入购买流程)
步骤二:
下载离线SDK
进入控制台离线SDK下载列表,下载离线SDK(含授权license)
步骤三:
激活离线SDK
将下载后的SDK进行一次联网激活,后续即可在无网络情况下使用该SDK
步骤四:
查看用量
用户可在控制台查看、分配SDK激活设备数或已绑定的应用
icon产品优势icon

腾讯云语音识别(ASR)在识别效果、适用场景、性价比和自助训练上都处于业界领先地位,可为不同行业、不同需求的客户提供高质量的识别服务。ASR是AI最早的应用场景之一,距今已有数余年,目前语音产品已经形成几家巨头,如何突破巨头垄断、实现客户成功成为许多伙伴的售前难题。本章也会对行业趋势进行介绍。腾讯云语音识别(ASR)在识别效果、适用场景、性价比和自助训练上都处于业界领先地位,可为不同行业、不同需求的客户提供高质量的识别服务。

技术先进

语音识别技术采用自主研发的Transformer技术,具备较好的鲁棒性。具备声音和文本层面的自适应能力,具备多语言混合识别能力。中文普通话识别准确率可达99.9%。

性价比高

腾讯云提供预付费、后付费等多种灵活计费模式,在预付费包提供了较大优惠,识别1小时语音不到1元。每月赠送免费额度,最大程度降低客户成本。

多语种、多方言

目前支持中文普通话、英语、粤语、日语、泰语和含上海话、四川话在内的23种方言,后续将持续开放其他语种和方言的识别能力。

适用多领域、多场景

可广泛适用于客服质检、外呼中心、智能家居、游戏直播、会议转写、语音输入法、法庭、房地产、教育等多个行业,基于海量数据实现分场景优化,积累了多行业的最佳实践。

支持热词和自助训练

针对垂直领域,客户可自助上传热词词表或自训练语料轻松完成模型自助训练,不懂算法也可以轻松实现模型调优,有效提升专有领域的识别准确率。

高性能

实时识别模式时延可达到100ms左右,对资源的消耗极少。

icon产品趋势icon

语音识别业界整体的大趋势有以下几点:垂直领域模型、远场语音识别、多语种+多方言趋势。

垂直领域模型趋势

市场背景:当前市场对能够成熟使用的ASR产品的识别准确率要求基本都在95%以上,因此针对部分垂类场景如客服、游戏、法庭、医疗等场景的ASR模型成为解决这一市场要求的最佳方案。腾讯云TTS:我们在2022年10月底上线针对客服、法庭的垂类场景,并且支持客户通过热词和自学习平台配置拼音(尤其适配游戏等原创名词较多的场景),帮助客户实现“垂类场景高识别准确率”这一行业需求。

远场语音识别趋势

市场背景:随着智能家居、智能硬件和线下销售、话务等市场的兴起,市场对ASR的远场识别准确率也有了进一步的要求,而远场识别准确率长久以来都是ASR技术领域中的一大难题。腾讯云TTS:我们将在2022年10月底上线基于远场识别的垂类模型【面对面销售】,有效解决远场销售识别准确率的问题。此外,我们还会在近期上线基于智能家居场景的远场识别模型。

多语种、多方言趋势

市场背景:随着短视频配音、企业出海等市场趋势的兴起,目前企业对ASR的多语种、多方言的应用需求也逐渐加大。腾讯云TTS:目前我们已经支持包括粤语、四川话等在内的23种主流方言,也支持日语、韩语、泰语等小语种,预计在2022年底即将支持中英粤混合模型,以及马来语、越南语、印第安语、阿拉伯语、土耳其语等具有增长趋势的小语种识别模型。

icon产品路线图icon

腾讯云语音识别(ASR)致力于在支持基础识别功能的基础上,为客户提供垂直领域模型、远场识别能力、多方言+语种的行业技术解决方案。

2022.10
上线ASR离线嵌入式版本(通用版),支持离线版实时语音识别。上线【面对面销售】垂类模型。更新8k和16k两个普通话模型,提升识别准确性。
2022.11
上线新版日语、新版韩语ASR模型,对通用识别场景效果更好。更新热词和自学习模型,使其对垂类场景的调优属性提升。进一步提升8k客服、16k法庭和16k视频三个垂类场景的模型。
2022.12
支持并发扩容计费,上线马来语、越南语、印第安语、阿拉伯语、土耳其语等小语种。更新后的多方言模型(23种方言)重新上线,极大提升方言识别准确性。
2023.1
上线ASR离线嵌入式版本(中文命令词版),用于适配智能硬件和智能家居。上线语音分析产品(如背景声音分析、男女分析)。
icon竞品分析icon
icon标杆案例icon

腾讯云语音识别(ASR)在客服质检、外呼中心、智能家居、游戏直播、会议转写、语音输入法、法庭、房地产、教育等多个行业有落地经验,积累了丰富的行业词库和标杆案例。

百应科技:电话外呼、智能客服
项目背景:
• 百应科技作为国内首批大数据技术商用企业,核心业务是为政府和企业提供数字化劳动力,其中电话机器人、智能工作手机是其核心业务,为全球42000+企业提供服务。
解决方案:
• 电话外呼、智能外呼场景的录音文件识别、实时语音识别。
客户价值:
• 大幅提升呼叫中心工作质量管控能力,完成人力不可能完成的超大规模呼叫中心的电话录音质检问题。
互盾科技:会议转写
项目背景:
• 互盾科技主营业务为移动办公领域和多媒体领域,其明星产品“录音转文字助手app”的核心功能是帮用户解决会议实时记录的问题,因此需要调用ASR服务实现此功能。
解决方案:
• 实时语音识别的中文普通话和英文版本(客户端SDK)。
客户价值:
• 以高识别准确性为客户提高高效的会议转写功能,帮助客户实现该功能收费的增长,提升公司业绩。
KK键盘:语音输入法
项目背景:
• KK键盘的定位是以“让输入更有趣”为核心理念,围绕Z世代的价值观推出的一款趣味性输入法产品。客户需要在产品中加入语音输入法功能,提升产品竞争力。
解决方案:
• 实时语音输入法
客户价值:
• 客户通过语音输入法进一步提升其产品的趣味性,满足了其语弹聊天、游戏键盘、趣聊等核心功能的设计,提升了产品的留存和转化,有效提升品牌商业价值。
美颜相机:视频字幕生成
项目背景:
• 在录制过程中进行开启语音识别,自动生成字幕
• 生成字幕可编辑,提高ASR容错率。
解决方案:
• 实时语音识别
客户价值
• 目前美颜相机日均调用量超过1500小时。
喜马拉雅:音视频领域音频转写(标签)
项目背景:
• 对于UGC音频内容,中长尾用户上传的材料,标签是缺失或错误的,无法做对应的内容挖掘及推荐。
解决方案:
• 录音文件识别
客户价值:
• 依赖语音识别的能力,可以把语音转成文字,再依靠后端语义的能力形成内容标签,把中长尾用户的UGC内容整合入推荐系统。
中信银行:语音手机银行IVR
项目背景:
• 中信银行希望将语音功能加入APP,丰富APP的人机交互体验。
解决方案:
• 腾讯云 实时语音识别 + 语音合成 + 客服机器人。
客户价值:
• 用户打开中信银行手机银行APP,按住语音服务键,根据语音操作提示,即可完成转账、查询、理财等日常金融交易。
icon更多标杆客户合集icon
 

云巴巴

产品推荐 查看更多>>
    腾讯云 智慧油站/充电站数字化运营解决方案

    腾讯云智慧油站/充电站数字化运营解决方案通过互联网数字化技术为加油站与充电站提供零接触加油、购物服务、智能获客、线上积分的运营能力,全面提升加油站与充电站的营销体验,大幅提高加油站与充电站的运营效率,增加业务收入。

    满足加油站/充电站多样性的数字化运营业务需求

    智能获得客户,高效数字化运营

    构建异业合作体系,拓展异业合作渠道

    支持对外服务,打破孤立应用和数据孤岛

    腾讯云对象存储COS数据湖解决方案

    数据湖解决方案以 COS 为数据湖底座,支持多种格式数据海量存储;通过数据湖加速器 GooseFS 无缝对接各类计算和机器学习平台,打破数据孤岛。

    以 COS 为数据湖底座

    支持多种格式数据海量存储

    无缝对接各类计算和机器学习平台

    打破数据孤岛

    腾讯云神图人脸融合Face Fusion

    腾讯云神图·人脸融合(Face Fusion)是由腾讯云与优图实验室、天天P图联合打造的 AI 变脸玩法。通过快速精准地定位人脸关键点,将用户上传的照片与特定形象进行面部层面融合,使生成的图片同时具备用户与特定形象的外貌特征,支持单脸、多脸、选脸融合,满足不同的营销活动需求。

    融合效果自然,对真人、油画、水彩等风格兼容性好

    支持修改融合相似度,通过接口或控制台调整五官和脸型参数

    支持多脸、选脸融合,最多支持指定融合6张人脸

    平均处理时长仅需数百毫秒