腾讯云语音识别ASR_实时语音识别SDK_智能客服质检SDK

立即咨询

立即试用

商务合作

腾讯云语音识别ASR

腾讯云语音识别（Automatic Speech Recognition，ASR）为企业提供极具性价比的语音识别服务。被微信、王者荣耀、腾讯视频等大量内部业务使用，外部落地录音质检、会议实时转写、语音输入法等多个场景。

立即咨询

产品概述：应用场景

腾讯云语音识别产品满足将语音转化成文字的需求，提供丰富的产品形态供客户选择。在业务场景上，适用于智能客服、录音质检、会议纪要、实时字幕、面对面销售、法庭转写等多种场景。

智能客服质检
在智能客服场景中，使用腾讯云语音识别可以将客服通话录音转化成文本，对可能出现的违规用语、危险用语等进行及时的干预处理，避免造成公司损失。支持实时监控和离线录音异步质检等多种质检方式。

会议实时转写
通过腾讯云语音识别实现实时对会议内容进行转写，免除了大量人工记录的工作，并通过产品的自动分段功能减轻后续人工编辑的工作量，辅助会议记录快速生成，提升稿件整理效率。

实时字幕
支持对视频进行实时字幕转写，产品提供时间戳功能，其精细度可到字级别，帮助客户更好地定位定位字幕持续时间，实现在线会议、在线视频的实时字幕功能。

产品概述：应用场景

法庭转写
传统场景的书记员人工记录方式有可能影响庭审效率，或出现错误需要二次修改。使用腾讯云语音识别，可以自动地实现庭审记录的转写，大量降低了人工工作，避免了人为错误、人为篡改等人工因素，维护了法庭记录的合规性，有效提升庭审记录效率。

面对面销售
腾讯云语音识别对面对面销售场景、尤其是车企、药企等需要重点依赖面对面销售的场景有很好的支持力度，能够通过近远场识别技术准确地转写客户和销售人员的对话内容，帮助销售人员回顾工作过程，或帮助管理者进行销售人员规范用语质检。

语音输入法
腾讯云语音识别能够帮助各大输入法厂商实现语音转写，通过多方言、多语种、实时性等特性的支持，能够覆盖大部分终端客户语音转写的场景，可用性高达95%。

产品概述：语音识别（ASR）技术与应用架构 icon

产品功能：产品矩阵

腾讯云语音识别（ASR）产品种类丰富，支持录音文件识别、录音文件识别（极速版）、实时语音识别、一句话识别等四款主流产品，可覆盖绝大部分ASR使用需求。还提供语音流异步识别等专有产品供特殊客户使用。此外，还有嵌入式版本供离线环境使用。腾讯云ASR识别准确率业界领先，支持的方言、语种也十分丰富。

腾讯云语音识别（ASR）目前有六个产品类型：录音文件识别、录音文件识别（极速版）、实时语音识别、一句话识别、语音流异步识别、离线语音识别。

腾讯云语音识别在23年6月全新推荐ASR+系列产品，目前支持两个产品：说话人识别、虚拟号真人判定.

产品功能：ASR特色功能介绍 icon

腾讯云语音识别 (ASR) 除常规识别功能外，还支持部分特色功能，帮助客户更好地使用产品。

话者分离

腾讯云ASR的录音文件识别、录音文件识别极速版支持针对客户的声纹特征进行说话人分离。

脏字过滤、语气词过滤

开启后可以过滤脏字、语气词。

情绪识别 (业界首创)

开启后可以识别情绪标签，如：高兴、悲伤、生气等等。

支持多种混合引擎和垂类场景

支持普粤英、23种方言+普通话等多个混合语种引擎，亦支持通用、法庭、金融、医疗、游戏、教育等垂直领域模型，更好地适配不同行业的客户需求。

有效降噪 (业界领先)

针对背景噪音、人声噪音有很强的抑噪能力。8k zh引擎 (电话引擎) 可直接过滤背景音乐、彩铃声，保障精准识别。

热词和自学习、热词增强版 (业界首创)

热词：支持客户传入最多128个热词，共30组，

热词已支持增强版。
自学习：支持客户上传最大2M的自学习语料 (关于热词和自学习的详细描述，请见下一页)。

产品功能：ASR特色功能介绍 -- 口语转书面语 icon

腾讯云语音识别新上线口语转书面语功能，该功能可精简口语表达中的冗余、重复、语气词，并修正发言人口误，实现口语转书面语的效果，适用于线上、线下会议直接总结为书面会议纪要的场景。

产品功能：热词和自学习 icon

腾讯云语音识别（ASR）支持客户在控制台进行热词和自学习词表配置，以实现在某个专有领域（如金融、法庭、客服等）快速进行识别效果提升。客户可以自行上传热词和自学习语料，自助达到模型定向优化、识别准确率提升的问题。关于热词和自学习的详细介绍可以点击此处进行查看。

产品功能：热词和自学习 icon

产品功能：热词增强版 icon

热词增强版利用拼音匹配的方式，可以有效提升热词在识别结果中的命中率。适用于原创名词较多、且需要强适配的场景，如原创游戏、原创小说、广告谐音字等。支持实时语音识别、录音文件识别、一句话识。

产品功能：ASR+产品系列 icon

腾讯云语音识别 (ASR) 除了基础的语音转文字功能外，还提供了部分垂类场景的ASR*产品 (音频特征分析型产品) 供客户选择。

ASR+ 产品系列清单：

说话人识别

通过ASR的声纹识别功能，可以将说话人所读出的连续数字串或中文语音，与语音库中该用户ID所对应的声音特征进行11比对验证，当声音特征比对满足阈值条件时则身份验证成功。

己上线

虚拟号真人判定

现有的外呼手段由于虚拟号的广泛应用，导致无法直接触达用户。我们提供的基于虚拟号的外呼解决方案，其接通判断模型能够在毫秒级的时间内准确判断用户何时接起了电话。

己上线

外呼早媒体分析

针对外呼场景的早媒体环节 (即用户实际接通前的机器人语音环节) 进行分析，可对用户的接通状态进行分析，如：已接通、空号、停机、拒接、话务繁忙、欠费等情况，帮助外呼客户更好的区分未接通场景。

即将上线

轻量质检

在ASR识别语音内容以后，轻量质检能力支持客户通过在控制台配置关键话术、并在接口中开启轻量质检相关参数的形式，用一个ASR-接口实现关键词句的检测，可有效保障客户的服务质量，实现话术规范监控。

即将上线

产品功能：ASR+说话人识别 icon

通过ASR的声纹识别功能，可以将说话人所读出的连续数字串或正常说话语音，与语音库中该用户D所对应的声音特征进行1：1，比对验证，当声音特征比对满足阌值条件时则身份验证成功。对伪造、拼接的音频具备一定的抗攻击能力。

产品功能：ASR+虚拟号真人判定 icon

基于语音识别和声学算法能力，在智能外呼场景下，能够在毫秒级准确判断真人用户何时接起电话，帮助客户判断对话机器人的启动时机。

产品功能：ASR+LLM in音视频场景 icon

针对音视频客户的ASR*大模型产品需求，我们针对以下场景设计了相关方案：

ASR+会议内容摘要/会议观点总结/实时翻译
适用场景：音视频线上多人会议
-可针对会议实现离线、实时内容摘要:
-支持针对发言人的观点、会议待办进行总结:
-支持对会议内容进行实时翻译。
ASR+视频/直播文稿生成
适用场景：音视频线上多人会议纪要、直播课程概括

-可针对一场会议或一场直播的内容实现结构化的文稿总结
ASR+课程I直播内容纲要
适用场景：课程内容配置
-课程运营在上传一段课程视频时，可通过该功能获取视频的纲要，方便课程内容高效配置课程内容。
ASR+课程知识点生成
适用场景：直播课程、录播课程
-支持对视频内容进行解析，对关键段落进行概括性标记-支持对知识点内容进行知识库匹配。

产品功能：离线语音识别 icon

腾讯云语音合成（TTS）离线版目前有一个产品类型：离线语音识别，主要的接入方式为客户端（Android）SDK。离线语音识别适用于无网络、弱网情况下的语音识别场景，目前仅支持中文普通话和英语，支持Android平台进行接入。适用场景为：智能硬件（尤其是没有联网条件的智能家居）、语音输入法、游戏娱乐、离线命令词识别等。

步骤一：购买离线SDK授权

（免费版需申请）
登录离线SDK控制台，购买离线SDK授权（离线语音识别SDK提供5个免费额度，有更多额度需求需要进入购买流程）

步骤二：

下载离线SDK
进入控制台离线SDK下载列表，下载离线SDK（含授权license）

步骤三：

激活离线SDK
将下载后的SDK进行一次联网激活，后续即可在无网络情况下使用该SDK

步骤四：

查看用量
用户可在控制台查看、分配SDK激活设备数或已绑定的应用

产品优势

腾讯云语音识别（ASR）在识别效果、适用场景、性价比和自助训练上都处于业界领先地位，可为不同行业、不同需求的客户提供高质量的识别服务。ASR是AI最早的应用场景之一，距今已有数余年，目前语音产品已经形成几家巨头，如何突破巨头垄断、实现客户成功成为许多伙伴的售前难题。本章也会对行业趋势进行介绍。腾讯云语音识别（ASR）在识别效果、适用场景、性价比和自助训练上都处于业界领先地位，可为不同行业、不同需求的客户提供高质量的识别服务。

技术先进

语音识别技术采用自主研发的Transformer技术，具备较好的鲁棒性。具备声音和文本层面的自适应能力，具备多语言混合识别能力。中文普通话识别准确率可达99.9%。

性价比高

腾讯云提供预付费、后付费等多种灵活计费模式，在预付费包提供了较大优惠，识别1小时语音不到1元。每月赠送免费额度，最大程度降低客户成本。

多语种、多方言

目前支持中文普通话、英语、粤语、日语、泰语和含上海话、四川话在内的23种方言，后续将持续开放其他语种和方言的识别能力。

适用多领域、多场景

可广泛适用于客服质检、外呼中心、智能家居、游戏直播、会议转写、语音输入法、法庭、房地产、教育等多个行业，基于海量数据实现分场景优化，积累了多行业的最佳实践。

支持热词和自助训练

针对垂直领域，客户可自助上传热词词表或自训练语料轻松完成模型自助训练，不懂算法也可以轻松实现模型调优，有效提升专有领域的识别准确率。

高性能

实时识别模式时延可达到100ms左右，对资源的消耗极少。

产品趋势

语音识别业界整体的大趋势有以下几点：垂直领域模型、远场语音识别、多语种+多方言趋势。

垂直领域模型趋势

市场背景：当前市场对能够成熟使用的ASR产品的识别准确率要求基本都在95%以上，因此针对部分垂类场景如客服、游戏、法庭、医疗等场景的ASR模型成为解决这一市场要求的最佳方案。腾讯云TTS：我们在2022年10月底上线针对客服、法庭的垂类场景，并且支持客户通过热词和自学习平台配置拼音（尤其适配游戏等原创名词较多的场景），帮助客户实现“垂类场景高识别准确率”这一行业需求。

远场语音识别趋势

市场背景：随着智能家居、智能硬件和线下销售、话务等市场的兴起，市场对ASR的远场识别准确率也有了进一步的要求，而远场识别准确率长久以来都是ASR技术领域中的一大难题。腾讯云TTS：我们将在2022年10月底上线基于远场识别的垂类模型【面对面销售】，有效解决远场销售识别准确率的问题。此外，我们还会在近期上线基于智能家居场景的远场识别模型。

多语种、多方言趋势

市场背景：随着短视频配音、企业出海等市场趋势的兴起，目前企业对ASR的多语种、多方言的应用需求也逐渐加大。腾讯云TTS：目前我们已经支持包括粤语、四川话等在内的23种主流方言，也支持日语、韩语、泰语等小语种，预计在2022年底即将支持中英粤混合模型，以及马来语、越南语、印第安语、阿拉伯语、土耳其语等具有增长趋势的小语种识别模型。

腾讯云ASR大模型：语音大模型市场 icon

不同于诞生于NP领域的LLM (大语言模型)，语音大模型的训练难度较高，真实业务数据获取手段较少，同时数据标注依赖极强的地域和文化认知，仅有拥有当前区域语言技能的人可以帮助语音AI模型进行优化，因此语音大模型的发展速度比LLM慢很多。
挑战一：语言语音训练数据的获取

数据范围广，需要获取数千种语言的语音数据。在中文语境下，对特定垂类场景和方言场景的语音获取是非常困难的。
腾讯解法：自2016年开始语音实验室对业务的沉淀，每年服务数以万计的公有云客户和上百个私有化项目，在各行各业、各个城市和地域沉淀了多个领域的数据，为开发ASR语音大模型打下了坚实基础。
挑战二：数据预处理
语音时间长，需要将文本和语音对齐。需要经过一定的技术处理才能够实现语音和文本的强制对齐。

腾讯解法：使用腾讯云语音实验室自研的数据预处理工具和对齐算法，保证数据预处理工作高效进行
挑战三：语音数据标注成本高，低资源语种的标注人力严重不足

每种语言32小时的数据不足以训练传统的监督式语音识别模型。

腾讯解法：使用腾讯云语音实验室自研的蒸馏和基于伪标注技术 (pseudo-labeling) 下的半监督和无监督训练技术，仅需要在实验室小模型基础上进行数据微调即可对无监督语音数据进行训练。此种方式大大减少了语音数据的标记需求。

腾讯云ASR大模型：用户痛点 icon

目前客户在市场上虽然有多家 ASR 厂商可以选择，但是基于 ASR 产品的特殊性，多数厂商需要依赖有监督数据进行模型的优化，因此在部分对识别要求较高的场景上，客户无法寻求到好的解决方案。

腾讯云ASR大模型：技术介绍 icon

先进件地利用业界最新的预训练技术，在模型预训练阶段加入文本大语言模型(LLM)，并自研蒸馏算法，结合伪标注技术 (pseudo-labeling) 下的半监督训练与无监督训练技术，利用腾讯云语音行业大数据的优势，同时引入蒸馏模型，让ASR的小参数模型同时学习真值数据和知识蒸馏的输出，让小模型学习到更多数据的相似性，从而提升各自的性能水平，成功构建了多个领域的腾讯云语音识别大模。

腾讯云ASR大模型：模型介绍 icon

先进性地利用业界最新的预训练技术，结合半监督训练与无监督训练技术和语音行业大数据的优势，成功构建了多个领域的腾讯云语音识别大模型。

腾讯云ASR大模型：中文普通话大模型showcase icon

建议使用场景：
1、远场收音，说话人声音比较小 (如：线下大会议室的多人会议场景、线下销售、电子工牌)。

2、环境噪声比较大 (如：车内行驶场景、户外沟通场景)
3、对专有名词识别准确率较高，但是又不想添加过多热词的场景 (如：法院、医疗、学术会议等)

4、说话人语速较快，连接词语气词比较多，说话黏连的情况比较多的情况，可根据大语言模型进行更准确的预测。

5、其它当前通用普通话模型 (16k zh) 无法解决的疑难杂症。

腾讯云ASR大模型：优势描述 icon

准确率高，技术先进，业界首创
腾讯云ASR大模型均采用腾讯自研的高新技术，在低信噪比数据和劣质音频数据集上提升高达20%以上，并支持了多种语言和多方言的混合识别语种，这几款高性能的识别引擎均为业界首创。
性价比高
在现有业内大语言模型、生成模型普遍占用高成本、消耗高资源推理的情况下，腾讯云ASR大模型在性能极大提升的前提下，客户增加的成本范围可控，性价比极高。

场景广泛
腾讯云ASR大模型并不仅覆盖主流的识别场景，在当前业内厂商竞争激烈、开源框架丰富的情况下，进一步提升了ASR引擎的业务场景覆盖率，真正使几乎来自各行各业、各种特征迴异的音频能够获得高性能和高准确度转写。
解决业务痛点
过往客户面临的业务痛点，如:收音不好的情况识别不出来ASR影响了成单转化率、噪音大的情况识别不了、没有多语种混合识别的能力等情况，通过本次ASR大模型的发布均得以解决。