icon产品概述:应用场景icon

腾讯云语音识别产品满足将语音转化成文字的需求,提供丰富的产品形态供客户选择。在业务场景上,适用于智能客服、录音质检、会议纪要、实时字幕、面对面销售、法庭转写等多种场景。

智能客服质检
在智能客服场景中,使用腾讯云语音识别可以将客服通话录音转化成文本,对可能出现的违规用语、危险用语等进行及时的干预处理,避免造成公司损失。支持实时监控和离线录音异步质检等多种质检方式。
会议实时转写
通过腾讯云语音识别实现实时对会议内容进行转写,免除了大量人工记录的工作,并通过产品的自动分段功能减轻后续人工编辑的工作量,辅助会议记录快速生成,提升稿件整理效率。
实时字幕
支持对视频进行实时字幕转写,产品提供时间戳功能,其精细度可到字级别,帮助客户更好地定位定位字幕持续时间,实现在线会议、在线视频的实时字幕功能。
icon产品概述:应用场景icon

腾讯云语音识别产品满足将语音转化成文字的需求,提供丰富的产品形态供客户选择。在业务场景上,适用于智能客服、录音质检、会议纪要、实时字幕、面对面销售、法庭转写等多种场景。

法庭转写
传统场景的书记员人工记录方式有可能影响庭审效率,或出现错误需要二次修改。使用腾讯云语音识别,可以自动地实现庭审记录的转写,大量降低了人工工作,避免了人为错误、人为篡改等人工因素,维护了法庭记录的合规性,有效提升庭审记录效率。
面对面销售
腾讯云语音识别对面对面销售场景、尤其是车企、药企等需要重点依赖面对面销售的场景有很好的支持力度,能够通过近远场识别技术准确地转写客户和销售人员的对话内容,帮助销售人员回顾工作过程,或帮助管理者进行销售人员规范用语质检。
语音输入法
腾讯云语音识别能够帮助各大输入法厂商实现语音转写,通过多方言、多语种、实时性等特性的支持,能够覆盖大部分终端客户语音转写的场景,可用性高达95%。
icon产品概述:语音识别(ASR)技术与应用架构icon
icon产品功能:产品矩阵icon

腾讯云语音识别(ASR)产品种类丰富,支持录音文件识别、录音文件识别(极速版)、实时语音识别、一句话识别等四款主流产品,可覆盖绝大部分ASR使用需求。还提供语音流异步识别等专有产品供特殊客户使用。此外,还有嵌入式版本供离线环境使用。腾讯云ASR识别准确率业界领先,支持的方言、语种也十分丰富。腾讯云语音识别(ASR)目前有六个产品类型:录音文件识别、录音文件识别(极速版)、实时语音识别、一句话识别、语音流异步识别、离线语音识别。

icon产品功能:特色功能介绍icon

腾讯云语音识别(ASR)除常规识别功能外,还支持部分特色功能,帮助客户更好地使用产品。

分段方式自定义
腾讯云ASR支持根据语义自动分段,但如果客户有特殊需要,可以开启按标点符号分段的功能,尤其适用于字幕场景
阿拉伯数字智能转换
开启后可以进行阿拉伯数字、中文汉字智能转换(目前仅支持中文普通话引擎)
语气词过滤
开启后可以支持过滤语气词(如:嗯、啊、哦)
脏字过滤
开启后可以过滤脏字、脏词
热词和自学习
热词:支持客户传入最多128个热词,自学习:支持客户上传最大2M的自学习语料(关于热词和自学习的详细描述,请见下一页)
icon产品功能:热词和自学习icon

腾讯云语音识别(ASR)支持客户在控制台进行热词和自学习词表配置,以实现在某个专有领域(如金融、法庭、客服等)快速进行识别效果提升。客户可以自行上传热词和自学习语料,自助达到模型定向优化、识别准确率提升的问题。关于热词和自学习的详细介绍可以点击此处进行查看。

icon产品功能:热词和自学习icon

腾讯云语音识别(ASR)支持客户在控制台进行热词和自学习词表配置,以实现在某个专有领域(如金融、法庭、客服等)快速进行识别效果提升。客户可以自行上传热词和自学习语料,自助达到模型定向优化、识别准确率提升的问题。关于热词和自学习的详细介绍可以点击此处进行查看。

icon产品功能:离线语音识别icon

腾讯云语音合成(TTS)离线版目前有一个产品类型:离线语音识别,主要的接入方式为客户端(Android)SDK。离线语音识别适用于无网络、弱网情况下的语音识别场景,目前仅支持中文普通话和英语,支持Android平台进行接入。适用场景为:智能硬件(尤其是没有联网条件的智能家居)、语音输入法、游戏娱乐、离线命令词识别等。

步骤一:购买离线SDK授权
(免费版需申请)
登录离线SDK控制台,购买离线SDK授权(离线语音识别SDK提供5个免费额度,有更多额度需求需要进入购买流程)
步骤二:
下载离线SDK
进入控制台离线SDK下载列表,下载离线SDK(含授权license)
步骤三:
激活离线SDK
将下载后的SDK进行一次联网激活,后续即可在无网络情况下使用该SDK
步骤四:
查看用量
用户可在控制台查看、分配SDK激活设备数或已绑定的应用
icon产品优势icon

腾讯云语音识别(ASR)在识别效果、适用场景、性价比和自助训练上都处于业界领先地位,可为不同行业、不同需求的客户提供高质量的识别服务。ASR是AI最早的应用场景之一,距今已有数余年,目前语音产品已经形成几家巨头,如何突破巨头垄断、实现客户成功成为许多伙伴的售前难题。本章也会对行业趋势进行介绍。腾讯云语音识别(ASR)在识别效果、适用场景、性价比和自助训练上都处于业界领先地位,可为不同行业、不同需求的客户提供高质量的识别服务。

技术先进

语音识别技术采用自主研发的Transformer技术,具备较好的鲁棒性。具备声音和文本层面的自适应能力,具备多语言混合识别能力。中文普通话识别准确率可达99.9%。

性价比高

腾讯云提供预付费、后付费等多种灵活计费模式,在预付费包提供了较大优惠,识别1小时语音不到1元。每月赠送免费额度,最大程度降低客户成本。

多语种、多方言

目前支持中文普通话、英语、粤语、日语、泰语和含上海话、四川话在内的23种方言,后续将持续开放其他语种和方言的识别能力。

适用多领域、多场景

可广泛适用于客服质检、外呼中心、智能家居、游戏直播、会议转写、语音输入法、法庭、房地产、教育等多个行业,基于海量数据实现分场景优化,积累了多行业的最佳实践。

支持热词和自助训练

针对垂直领域,客户可自助上传热词词表或自训练语料轻松完成模型自助训练,不懂算法也可以轻松实现模型调优,有效提升专有领域的识别准确率。

高性能

实时识别模式时延可达到100ms左右,对资源的消耗极少。

icon产品趋势icon

语音识别业界整体的大趋势有以下几点:垂直领域模型、远场语音识别、多语种+多方言趋势。

垂直领域模型趋势

市场背景:当前市场对能够成熟使用的ASR产品的识别准确率要求基本都在95%以上,因此针对部分垂类场景如客服、游戏、法庭、医疗等场景的ASR模型成为解决这一市场要求的最佳方案。腾讯云TTS:我们在2022年10月底上线针对客服、法庭的垂类场景,并且支持客户通过热词和自学习平台配置拼音(尤其适配游戏等原创名词较多的场景),帮助客户实现“垂类场景高识别准确率”这一行业需求。

远场语音识别趋势

市场背景:随着智能家居、智能硬件和线下销售、话务等市场的兴起,市场对ASR的远场识别准确率也有了进一步的要求,而远场识别准确率长久以来都是ASR技术领域中的一大难题。腾讯云TTS:我们将在2022年10月底上线基于远场识别的垂类模型【面对面销售】,有效解决远场销售识别准确率的问题。此外,我们还会在近期上线基于智能家居场景的远场识别模型。

多语种、多方言趋势

市场背景:随着短视频配音、企业出海等市场趋势的兴起,目前企业对ASR的多语种、多方言的应用需求也逐渐加大。腾讯云TTS:目前我们已经支持包括粤语、四川话等在内的23种主流方言,也支持日语、韩语、泰语等小语种,预计在2022年底即将支持中英粤混合模型,以及马来语、越南语、印第安语、阿拉伯语、土耳其语等具有增长趋势的小语种识别模型。

icon产品路线图icon

腾讯云语音识别(ASR)致力于在支持基础识别功能的基础上,为客户提供垂直领域模型、远场识别能力、多方言+语种的行业技术解决方案。

2022.10
上线ASR离线嵌入式版本(通用版),支持离线版实时语音识别。上线【面对面销售】垂类模型。更新8k和16k两个普通话模型,提升识别准确性。
2022.11
上线新版日语、新版韩语ASR模型,对通用识别场景效果更好。更新热词和自学习模型,使其对垂类场景的调优属性提升。进一步提升8k客服、16k法庭和16k视频三个垂类场景的模型。
2022.12
支持并发扩容计费,上线马来语、越南语、印第安语、阿拉伯语、土耳其语等小语种。更新后的多方言模型(23种方言)重新上线,极大提升方言识别准确性。
2023.1
上线ASR离线嵌入式版本(中文命令词版),用于适配智能硬件和智能家居。上线语音分析产品(如背景声音分析、男女分析)。
icon竞品分析icon
icon标杆案例icon

腾讯云语音识别(ASR)在客服质检、外呼中心、智能家居、游戏直播、会议转写、语音输入法、法庭、房地产、教育等多个行业有落地经验,积累了丰富的行业词库和标杆案例。

百应科技:电话外呼、智能客服
项目背景:
• 百应科技作为国内首批大数据技术商用企业,核心业务是为政府和企业提供数字化劳动力,其中电话机器人、智能工作手机是其核心业务,为全球42000+企业提供服务。
解决方案:
• 电话外呼、智能外呼场景的录音文件识别、实时语音识别。
客户价值:
• 大幅提升呼叫中心工作质量管控能力,完成人力不可能完成的超大规模呼叫中心的电话录音质检问题。
互盾科技:会议转写
项目背景:
• 互盾科技主营业务为移动办公领域和多媒体领域,其明星产品“录音转文字助手app”的核心功能是帮用户解决会议实时记录的问题,因此需要调用ASR服务实现此功能。
解决方案:
• 实时语音识别的中文普通话和英文版本(客户端SDK)。
客户价值:
• 以高识别准确性为客户提高高效的会议转写功能,帮助客户实现该功能收费的增长,提升公司业绩。
KK键盘:语音输入法
项目背景:
• KK键盘的定位是以“让输入更有趣”为核心理念,围绕Z世代的价值观推出的一款趣味性输入法产品。客户需要在产品中加入语音输入法功能,提升产品竞争力。
解决方案:
• 实时语音输入法
客户价值:
• 客户通过语音输入法进一步提升其产品的趣味性,满足了其语弹聊天、游戏键盘、趣聊等核心功能的设计,提升了产品的留存和转化,有效提升品牌商业价值。
美颜相机:视频字幕生成
项目背景:
• 在录制过程中进行开启语音识别,自动生成字幕
• 生成字幕可编辑,提高ASR容错率。
解决方案:
• 实时语音识别
客户价值
• 目前美颜相机日均调用量超过1500小时。
喜马拉雅:音视频领域音频转写(标签)
项目背景:
• 对于UGC音频内容,中长尾用户上传的材料,标签是缺失或错误的,无法做对应的内容挖掘及推荐。
解决方案:
• 录音文件识别
客户价值:
• 依赖语音识别的能力,可以把语音转成文字,再依靠后端语义的能力形成内容标签,把中长尾用户的UGC内容整合入推荐系统。
中信银行:语音手机银行IVR
项目背景:
• 中信银行希望将语音功能加入APP,丰富APP的人机交互体验。
解决方案:
• 腾讯云 实时语音识别 + 语音合成 + 客服机器人。
客户价值:
• 用户打开中信银行手机银行APP,按住语音服务键,根据语音操作提示,即可完成转账、查询、理财等日常金融交易。
icon更多标杆客户合集icon
 

云巴巴

产品推荐 查看更多>>
    腾讯云AIGC教育行业解决方案

    腾讯云AIGC教育行业解决方案,是一站式机器学习平台,是数据,模型,服务生产和管理的工具箱。TI-ONE是基于腾讯云强大计算能力的一站式机器学习平台,为用户提供从数据预处理、模型构建、模型训练、模型评估到模型服务的全流程支持。

    是数据,模型,服务生产和管理的工具箱

    基于腾讯云强大计算能力的一站式机器学习平台

    为用户提供从数据预处理

    模型评估到模型服务的全流程支持

    腾讯乐享医疗企业培训社区平台

    腾讯乐享医疗企业培训社区平台,14大核心功能模块,提供文化建设、培训学习、知识管理、沟通交流多样化应用,满足企业/组织建设对内、对外一站式社区需求。

    提升医院软实力的三个维度

    满足医院多样化需求场景

    可根据实际需要灵活扩展、自定义

    建立医院统一高效信息发布中心

    Udesk智能AI交互语音机器人

    Udesk经过2年潜心研发,智能AI语音机器人系统震撼上市!通过精准语音平台,群呼潜在客户群体,并模拟销售专家沟通进行信息筛选的人工智能语音机器人

    安全可靠

    高效稳定