腾讯云语音识别ASR_实时语音识别_智能客服质检

申请试用

腾讯云语音识别ASR

腾讯云语音识别（Automatic Speech Recognition，ASR）为企业提供极具性价比的语音识别服务。被微信、王者荣耀、腾讯视频等大量内部业务使用，外部落地录音质检、会议实时转写、语音输入法等多个场景。

立即咨询

首页 > 产品中心 > AI人工智能 > 腾讯云语音识别ASR

产品概述：应用场景

腾讯云语音识别产品满足将语音转化成文字的需求，提供丰富的产品形态供客户选择。在业务场景上，适用于智能客服、录音质检、会议纪要、实时字幕、面对面销售、法庭转写等多种场景。

智能客服质检
在智能客服场景中，使用腾讯云语音识别可以将客服通话录音转化成文本，对可能出现的违规用语、危险用语等进行及时的干预处理，避免造成公司损失。支持实时监控和离线录音异步质检等多种质检方式。

会议实时转写
通过腾讯云语音识别实现实时对会议内容进行转写，免除了大量人工记录的工作，并通过产品的自动分段功能减轻后续人工编辑的工作量，辅助会议记录快速生成，提升稿件整理效率。

实时字幕
支持对视频进行实时字幕转写，产品提供时间戳功能，其精细度可到字级别，帮助客户更好地定位定位字幕持续时间，实现在线会议、在线视频的实时字幕功能。

产品概述：应用场景

法庭转写
传统场景的书记员人工记录方式有可能影响庭审效率，或出现错误需要二次修改。使用腾讯云语音识别，可以自动地实现庭审记录的转写，大量降低了人工工作，避免了人为错误、人为篡改等人工因素，维护了法庭记录的合规性，有效提升庭审记录效率。

面对面销售
腾讯云语音识别对面对面销售场景、尤其是车企、药企等需要重点依赖面对面销售的场景有很好的支持力度，能够通过近远场识别技术准确地转写客户和销售人员的对话内容，帮助销售人员回顾工作过程，或帮助管理者进行销售人员规范用语质检。

语音输入法
腾讯云语音识别能够帮助各大输入法厂商实现语音转写，通过多方言、多语种、实时性等特性的支持，能够覆盖大部分终端客户语音转写的场景，可用性高达95%。

产品概述：语音识别（ASR）技术与应用架构 icon

产品功能：产品矩阵

腾讯云语音识别（ASR）产品种类丰富，支持录音文件识别、录音文件识别（极速版）、实时语音识别、一句话识别等四款主流产品，可覆盖绝大部分ASR使用需求。还提供语音流异步识别等专有产品供特殊客户使用。此外，还有嵌入式版本供离线环境使用。腾讯云ASR识别准确率业界领先，支持的方言、语种也十分丰富。腾讯云语音识别（ASR）目前有六个产品类型：录音文件识别、录音文件识别（极速版）、实时语音识别、一句话识别、语音流异步识别、离线语音识别。

产品功能：特色功能介绍 icon

腾讯云语音识别（ASR）除常规识别功能外，还支持部分特色功能，帮助客户更好地使用产品。

分段方式自定义
腾讯云ASR支持根据语义自动分段，但如果客户有特殊需要，可以开启按标点符号分段的功能，尤其适用于字幕场景

阿拉伯数字智能转换
开启后可以进行阿拉伯数字、中文汉字智能转换（目前仅支持中文普通话引擎）

语气词过滤
开启后可以支持过滤语气词（如：嗯、啊、哦）

脏字过滤
开启后可以过滤脏字、脏词

热词和自学习
热词：支持客户传入最多128个热词，自学习：支持客户上传最大2M的自学习语料（关于热词和自学习的详细描述，请见下一页）

产品功能：热词和自学习 icon

腾讯云语音识别（ASR）支持客户在控制台进行热词和自学习词表配置，以实现在某个专有领域（如金融、法庭、客服等）快速进行识别效果提升。客户可以自行上传热词和自学习语料，自助达到模型定向优化、识别准确率提升的问题。关于热词和自学习的详细介绍可以点击此处进行查看。

产品功能：热词和自学习 icon

产品功能：离线语音识别 icon

腾讯云语音合成（TTS）离线版目前有一个产品类型：离线语音识别，主要的接入方式为客户端（Android）SDK。离线语音识别适用于无网络、弱网情况下的语音识别场景，目前仅支持中文普通话和英语，支持Android平台进行接入。适用场景为：智能硬件（尤其是没有联网条件的智能家居）、语音输入法、游戏娱乐、离线命令词识别等。

步骤一：购买离线SDK授权

（免费版需申请）
登录离线SDK控制台，购买离线SDK授权（离线语音识别SDK提供5个免费额度，有更多额度需求需要进入购买流程）

步骤二：

下载离线SDK
进入控制台离线SDK下载列表，下载离线SDK（含授权license）

步骤三：

激活离线SDK
将下载后的SDK进行一次联网激活，后续即可在无网络情况下使用该SDK

步骤四：

查看用量
用户可在控制台查看、分配SDK激活设备数或已绑定的应用

产品优势

腾讯云语音识别（ASR）在识别效果、适用场景、性价比和自助训练上都处于业界领先地位，可为不同行业、不同需求的客户提供高质量的识别服务。ASR是AI最早的应用场景之一，距今已有数余年，目前语音产品已经形成几家巨头，如何突破巨头垄断、实现客户成功成为许多伙伴的售前难题。本章也会对行业趋势进行介绍。腾讯云语音识别（ASR）在识别效果、适用场景、性价比和自助训练上都处于业界领先地位，可为不同行业、不同需求的客户提供高质量的识别服务。

技术先进

语音识别技术采用自主研发的Transformer技术，具备较好的鲁棒性。具备声音和文本层面的自适应能力，具备多语言混合识别能力。中文普通话识别准确率可达99.9%。

性价比高

腾讯云提供预付费、后付费等多种灵活计费模式，在预付费包提供了较大优惠，识别1小时语音不到1元。每月赠送免费额度，最大程度降低客户成本。

多语种、多方言

目前支持中文普通话、英语、粤语、日语、泰语和含上海话、四川话在内的23种方言，后续将持续开放其他语种和方言的识别能力。

适用多领域、多场景

可广泛适用于客服质检、外呼中心、智能家居、游戏直播、会议转写、语音输入法、法庭、房地产、教育等多个行业，基于海量数据实现分场景优化，积累了多行业的最佳实践。

支持热词和自助训练

针对垂直领域，客户可自助上传热词词表或自训练语料轻松完成模型自助训练，不懂算法也可以轻松实现模型调优，有效提升专有领域的识别准确率。

高性能

实时识别模式时延可达到100ms左右，对资源的消耗极少。

产品趋势

语音识别业界整体的大趋势有以下几点：垂直领域模型、远场语音识别、多语种+多方言趋势。

垂直领域模型趋势

市场背景：当前市场对能够成熟使用的ASR产品的识别准确率要求基本都在95%以上，因此针对部分垂类场景如客服、游戏、法庭、医疗等场景的ASR模型成为解决这一市场要求的最佳方案。腾讯云TTS：我们在2022年10月底上线针对客服、法庭的垂类场景，并且支持客户通过热词和自学习平台配置拼音（尤其适配游戏等原创名词较多的场景），帮助客户实现“垂类场景高识别准确率”这一行业需求。

远场语音识别趋势

市场背景：随着智能家居、智能硬件和线下销售、话务等市场的兴起，市场对ASR的远场识别准确率也有了进一步的要求，而远场识别准确率长久以来都是ASR技术领域中的一大难题。腾讯云TTS：我们将在2022年10月底上线基于远场识别的垂类模型【面对面销售】，有效解决远场销售识别准确率的问题。此外，我们还会在近期上线基于智能家居场景的远场识别模型。

多语种、多方言趋势

市场背景：随着短视频配音、企业出海等市场趋势的兴起，目前企业对ASR的多语种、多方言的应用需求也逐渐加大。腾讯云TTS：目前我们已经支持包括粤语、四川话等在内的23种主流方言，也支持日语、韩语、泰语等小语种，预计在2022年底即将支持中英粤混合模型，以及马来语、越南语、印第安语、阿拉伯语、土耳其语等具有增长趋势的小语种识别模型。

产品路线图

腾讯云语音识别（ASR）致力于在支持基础识别功能的基础上，为客户提供垂直领域模型、远场识别能力、多方言+语种的行业技术解决方案。

2022.10
上线ASR离线嵌入式版本（通用版），支持离线版实时语音识别。上线【面对面销售】垂类模型。更新8k和16k两个普通话模型，提升识别准确性。

2022.11
上线新版日语、新版韩语ASR模型，对通用识别场景效果更好。更新热词和自学习模型，使其对垂类场景的调优属性提升。进一步提升8k客服、16k法庭和16k视频三个垂类场景的模型。

2022.12
支持并发扩容计费，上线马来语、越南语、印第安语、阿拉伯语、土耳其语等小语种。更新后的多方言模型（23种方言）重新上线，极大提升方言识别准确性。

2023.1
上线ASR离线嵌入式版本（中文命令词版），用于适配智能硬件和智能家居。上线语音分析产品（如背景声音分析、男女分析）。

竞品分析

标杆案例

腾讯云语音识别（ASR）在客服质检、外呼中心、智能家居、游戏直播、会议转写、语音输入法、法庭、房地产、教育等多个行业有落地经验，积累了丰富的行业词库和标杆案例。

百应科技：电话外呼、智能客服

项目背景：

• 百应科技作为国内首批大数据技术商用企业，核心业务是为政府和企业提供数字化劳动力，其中电话机器人、智能工作手机是其核心业务，为全球42000+企业提供服务。

解决方案：

• 电话外呼、智能外呼场景的录音文件识别、实时语音识别。

客户价值：

• 大幅提升呼叫中心工作质量管控能力，完成人力不可能完成的超大规模呼叫中心的电话录音质检问题。

互盾科技：会议转写

项目背景：

• 互盾科技主营业务为移动办公领域和多媒体领域，其明星产品“录音转文字助手app”的核心功能是帮用户解决会议实时记录的问题，因此需要调用ASR服务实现此功能。

解决方案：

• 实时语音识别的中文普通话和英文版本（客户端SDK）。

客户价值：

• 以高识别准确性为客户提高高效的会议转写功能，帮助客户实现该功能收费的增长，提升公司业绩。

KK键盘：语音输入法

项目背景：

• KK键盘的定位是以“让输入更有趣”为核心理念，围绕Z世代的价值观推出的一款趣味性输入法产品。客户需要在产品中加入语音输入法功能，提升产品竞争力。

解决方案：

• 实时语音输入法

客户价值：

• 客户通过语音输入法进一步提升其产品的趣味性，满足了其语弹聊天、游戏键盘、趣聊等核心功能的设计，提升了产品的留存和转化，有效提升品牌商业价值。

美颜相机：视频字幕生成

项目背景：

• 在录制过程中进行开启语音识别，自动生成字幕。

• 生成字幕可编辑，提高ASR容错率。

解决方案：

• 实时语音识别

客户价值

• 目前美颜相机日均调用量超过1500小时。

喜马拉雅：音视频领域音频转写（标签）

项目背景：

• 对于UGC音频内容，中长尾用户上传的材料，标签是缺失或错误的，无法做对应的内容挖掘及推荐。

解决方案：

• 录音文件识别

客户价值：

• 依赖语音识别的能力，可以把语音转成文字，再依靠后端语义的能力形成内容标签，把中长尾用户的UGC内容整合入推荐系统。

中信银行：语音手机银行IVR

项目背景：

• 中信银行希望将语音功能加入APP，丰富APP的人机交互体验。

解决方案：

• 腾讯云实时语音识别 + 语音合成 + 客服机器人。

客户价值：

• 用户打开中信银行手机银行APP，按住语音服务键，根据语音操作提示，即可完成转账、查询、理财等日常金融交易。

更多标杆客户合集

产品推荐查看更多>>

腾讯云实时音视频TRTC

TRTC 源自 QQ 音视频团队，是基于 QQ 20多年来的音视频技术积累，在腾讯云上部署售卖的 RTC 云服务。TRTC 支撑了腾讯会议、微信群直播、微信视频号直播、企业微信直播、腾讯课堂、全民K歌等业务是腾讯集团丰富的音视频场景的最佳实践输出。

低成本、低延时、高品质

多人实时互动场景

每日支撑上行时长达30亿分钟

多人音视频通话和低延时互动直播

立即咨询查看详情

腾讯云声音工坊TTSW

腾讯云声音工坊（ TTSW ）提供定制音色的能力，满足客户定制化需求。通过先进的深度学习技术，根据客户实际业务情况，提供不同的定制方案，从而更有效、更专业地服务实际业务需求。普遍适用于智能客服、智能硬件、在线教育、有声阅读、新闻播报等场景，通过训练专属业务音色，从而更好的服务业务场景，提升交互体验。

基于业界领先的深度学习技术，专业算法人才进行效果调优

在多个行业、场景积累了大量的训练数据，有效降低客户的数据门槛

基于实际业务需求，提供不同程度的定制方案

广泛适用于智能客服、智能硬件、在线教育、有声阅读、新闻播报等也场景

立即咨询查看详情

腾讯云自然语言处理NLP服务

腾讯云自然语言处理NLP服务（Natural Language Process，NLP）深度整合了腾讯内部的 NLP 技术，提供多项智能文本处理和文本生成能力，包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。

积累厚实

服务高效

接口全面

立即咨询查看详情

数字化社区查看更多>>