声网 Agora 一站式智能语音识别方案

来源: 云巴巴 2019-09-17 16:17:53

视频直播,语音聊天,音乐社交,这些与“声音”相关的社交场景在过去两年中变得越来越热,并吸引了许多内容创作者和用户。但是,相关的语音内容审查一直是许多平台的头疼问题。这也使得“每日聆听4000种声音”的声音成为头条新闻。现在,市场上的一些厂商已经开始提供智能语音黄变服务,大大减少了人工黄变的工作量。

然而,对于社会产品团队来说,现有的语音内容审计+实时音视频服务、部署、调试、运行和维护成本都很高,许多方案对背景音乐和噪声的音频识别效果都很差。为了解决这个问题,我们正式推出了Agora一站式智能语音识别方案。

所有现有的计划是如何运作的?

一般情况下,一个社会产品需要与三家制造商对接:CDN制造商,用于推送流和拉流,并实现正常直播;RTC制造商用于实现低延迟的实时交互直播;内容审查制造商通过人工智能手动进行审核。Access的体系结构基本如下图所示,可以简单地概括为三个步骤:

1.内容被转码或直接推送到CDN;

2。内容审计供应商从内容交付网络(cdn)中撤出,然后进行人工智能和手动内容审计。

3.审计完成后,将返回到服务器。

图:传统的实时音视频内容评审过程

这种旧方法引起的问题是显而易见的。首先,开发人员需要停靠三个供应商,并且必须多次部署和调试。调试有很多成本和风险。此外,当CDN失败时,需要很长时间来解决问题。此外,在此过程中,开发人员还需要支付额外的拉流成本。

另一方面,目前的方案也需要解决噪声问题。由于音频社会交互的场景很多,如语音调频、语音聊天室、音乐社交、娱乐直播等,这些场景往往伴随着环境噪声和背景音乐,这将影响现有内容审核方案的识别率。

一种用于声音网络的AGORA一站式智能语音识别方案

目前,语音网络已经为业界提供了独一无二的一站式智能语音识别方案.如上述体系结构所示,开发人员只需在应用程序中集成声音Mesh AgoraSDK,就可以使音频在AgoraSD-RTN™网络中实时传输过程中完成语音内容的识别和审查。在原有的现场语音互动直播的基础上,我们整合了业界三大语音识别服务。同时,基于音频网络的人工智能音频降噪引擎,提高了语音质量,优化了语音识别效果。

语音识别过程如下图所示。首先,由声音网络专门开发的AI音频降噪引擎消除了背景声音,优化了音频质量,并使声音更清晰。我们在网络广播,语音约会和其他互联网平台上听到的语音音频通常有两种类型,一种是普通语音,另一种是非文本声音,如娇川和ASMR,后者没有任何语义。因此我们将通过不同的模块检测,将语音转换为文本并进一步过滤内容安全引擎,结合“多意义上下文短文本垃圾邮件检测”,“深度学习垃圾检测”,“规则引擎”和“分类器”模块过滤掉非法内容,如政治,泛黄(包括娇川,ASMR),惶恐不安,以及音频中的辱骂。人工审核团队可以通过网络背景对机器审核结果进行随机检查和审核,并不断优化机器审核的准确性。此过程可以显着降低手动审核的成本并提高效率。

目前,该解决方案可以检测到广告、色情、政治、暴力和滥用等非法内容。适用于直播视频、语音聊天室、娱乐直播、语音调频、音乐社交网络等实时音视频社交场景。

agora一站式智能语音识别计划的优点包括:

1

调用RESTfulAPI,一站式访问

Sound Network Agora目前提供实时音频呼叫SDK。通过在您的应用中集成Agora SDK,开发人员可以通过调用RESTful API为其应用添加语音内容审核。与传统的内容审计解决方案相比,完善的网络解决方案可以节省开发时间,服务器和其他访问成本。

2

AI 降噪,识别率更高

面对语音识别中常见的噪声、背景音乐等音质问题。通过人工智能音频去噪引擎对音频进行优化,提高语音识别率。同时,用户的语音和音频体验也会得到改善。在今年的RTC2019实时互联网会议上,我们将进一步分享人工智能音频去噪背后的技术实践。请期待。

3

语音交互低延时

声网sdk实现了从全球终端到终端76ms的实时音频和视频低延迟传输。声网agora sd-rtntm实时通信网络采用专用的udp协议进行传输,根据软件定义和优化路由选择最优传输路径,自动避开网络拥塞和主干网故障的影响。在保证低延迟传输的同时,声网agora sdk还支持48kz的高质量语音。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

简谈生物识别技术的几种类型介绍

简谈生物识别技术的几种类型介绍

之前小编的文章已经介绍过生物技术的相对一些基础的知识点,本篇文章,就给大家介绍一下生物识别技术的几种类型。 首先是手掌几何学识别,手掌几何学识别就是通过测量使用者的手掌和手指的物理特征来进行识别,高级的产品还可以识别三维图象;作为一种已经确立的方法,手掌

2022-11-21 13:52:45

PaaS时代来临,未来的运维发展之路是怎样的?

PaaS时代来临,未来的运维发展之路是怎样的?

一个严重的误区是认为云计算将彻底取代运维行业,虽说伴随着PaaS时代的来临,对以后运维职业发展将产生深远的影响,实际上在IT发展的过程中,对运维的要求在不断提高。

2022-11-22 16:51:33

如何进行有效部署RPA实施的最佳实践

如何进行有效部署RPA实施的最佳实践

在之前的文章的介绍中,相信小伙伴们已经知道为什么要应用rpa机器人流程自动化,但是我们具体应该要怎么做呢,在本篇文章中,小编就来讲解一下如何进行有效部署RPA实施的最佳实践。 实施RPA的企业组织设立卓越中心(CoE),试探什么可以实现自动化,将是明智之

2022-11-22 15:28:29

RPA+AI解决方案,领先行业需要走对哪几步?

RPA+AI解决方案,领先行业需要走对哪几步?

“市场对于RPA的预期越来越高,不具备 AI 能力的RPA 工具将会被替代。” 2020年5月7日,Forrester分析师卢冠男在“Laiye Lead 2020”的这句话,令不少RPA厂商感到焦虑。   在RPA行业内,还有一个流行的的观点:如果

2022-11-21 11:02:35

聚焦AI开源开放 2020中关村论坛旷视平行论坛即将上线

聚焦AI开源开放 2020中关村论坛旷视平行论坛即将上线

当下,人工智能正成为新一轮科技革命和产业变革的核心驱动力,推动社会走向智能时代。人工智能技术和底层基础设施的开源开放能够有效降低AI研发成本、提高研发效率,加速技术创新和AI应用落地。在此背景下,9月18日,旷视将于2020年中关村论坛期间举办“人工智能开

2022-11-22 15:25:29

虹膜识别技术与智能锁之间的“来世今生”在这里呈现给用户

虹膜识别技术与智能锁之间的“来世今生”在这里呈现给用户

虹膜识别技术虽然出现在我们视野里的时间并不长,而且在手机解锁等相关领域内虹膜识别技术还没有得到相关的普及,但是虹膜识别技术在很多方面有着其他生物识别技术所不具备的优势。虽然虹膜识别技术还并没有得到很普遍的普及,但是在一些对安全系数有着更高的场景下虹膜识别技

2022-11-24 10:31:09

严选云产品

秦丝科技SAAS服饰时尚行业解决方案 秦丝科技SAAS服饰时尚行业解决方案,支持全平台(pc/手机/大屏/收银机/PDA)接入使用成本低,实时库存展示、精准价格记忆,秒速开单卖货。POS终端操作权限可控,让每笔收银都有迹可循。支持批量、多产品一键完成全量客户触达,产品包含数据分析,识别浏览数据。
信大捷安 USB安全存储加密卡 USB安全存储加密卡是信大捷安自主研发、具有独立自主知识产权的密码卡产品,产品具备USB接口,内置经国家密码局认证的高性能安全芯片,实现数据加解密、数字签名、密钥证书管理、自身安全防护等密码服务功能。产品包括信创版本、通用版本等,可满足不同领域的安全需求。
道一云家装行业家居建材ERP管理系统 道一云家装行业家居建材ERP管理系统完成营销、渠道、客户信息的数据化转换。 建立数字化体系,实现信息化管理。信息化渗透施工环节,进一步提升管理颗粒度。基于数据积累与算法迭代,实现流程自动化,降本增效,提高客户体验。
来画数字人视频制作软件 来画平台拥有1800万+正版、可商用素材,同时,融合多渠道音乐与字体,版权合作方包括中央电视台、视觉中国、千图网、方正字体、SOUND STATE等,助力用户无忧创作。
中科智云智慧社区AI识别解决方案 中科智云智慧社区AI识别解决方案是未来社区软件系统的核心技术平台之一,广泛应用在智慧小区、智慧建筑、智慧园区等多种场景解决方案,是社区系统从数字化系统到智能化系统进化的关键。采用先进的Anchor Free算法,能够检测出图片或者视频中大于45像素的行人。1080P视频每帧图片最多可检测3072人。不仅能够检测出行人还能够判断出行人的站立,奔跑等状态。
网康 Web 应用防火墙 网康应用防火墙开发的新一代安全产品针对安全事件发生时序进行安全建模,分别针对安全漏洞、攻击手段及最终攻击结果进行扫描、防护及诊断,提供综合 Web 应用安全解决方案。

甄选10000+数字化产品 为您免费使用

申请试用