声网 Agora 一站式智能语音识别方案

来源: 云巴巴 2019-09-17 16:17:53

视频直播,语音聊天,音乐社交,这些与“声音”相关的社交场景在过去两年中变得越来越热,并吸引了许多内容创作者和用户。但是,相关的语音内容审查一直是许多平台的头疼问题。这也使得“每日聆听4000种声音”的声音成为头条新闻。现在,市场上的一些厂商已经开始提供智能语音黄变服务,大大减少了人工黄变的工作量。

然而,对于社会产品团队来说,现有的语音内容审计+实时音视频服务、部署、调试、运行和维护成本都很高,许多方案对背景音乐和噪声的音频识别效果都很差。为了解决这个问题,我们正式推出了Agora一站式智能语音识别方案。

所有现有的计划是如何运作的?

一般情况下,一个社会产品需要与三家制造商对接:CDN制造商,用于推送流和拉流,并实现正常直播;RTC制造商用于实现低延迟的实时交互直播;内容审查制造商通过人工智能手动进行审核。Access的体系结构基本如下图所示,可以简单地概括为三个步骤:

1.内容被转码或直接推送到CDN;

2。内容审计供应商从内容交付网络(cdn)中撤出,然后进行人工智能和手动内容审计。

3.审计完成后,将返回到服务器。

图:传统的实时音视频内容评审过程

这种旧方法引起的问题是显而易见的。首先,开发人员需要停靠三个供应商,并且必须多次部署和调试。调试有很多成本和风险。此外,当CDN失败时,需要很长时间来解决问题。此外,在此过程中,开发人员还需要支付额外的拉流成本。

另一方面,目前的方案也需要解决噪声问题。由于音频社会交互的场景很多,如语音调频、语音聊天室、音乐社交、娱乐直播等,这些场景往往伴随着环境噪声和背景音乐,这将影响现有内容审核方案的识别率。

一种用于声音网络的AGORA一站式智能语音识别方案

目前,语音网络已经为业界提供了独一无二的一站式智能语音识别方案.如上述体系结构所示,开发人员只需在应用程序中集成声音Mesh AgoraSDK,就可以使音频在AgoraSD-RTN™网络中实时传输过程中完成语音内容的识别和审查。在原有的现场语音互动直播的基础上,我们整合了业界三大语音识别服务。同时,基于音频网络的人工智能音频降噪引擎,提高了语音质量,优化了语音识别效果。

语音识别过程如下图所示。首先,由声音网络专门开发的AI音频降噪引擎消除了背景声音,优化了音频质量,并使声音更清晰。我们在网络广播,语音约会和其他互联网平台上听到的语音音频通常有两种类型,一种是普通语音,另一种是非文本声音,如娇川和ASMR,后者没有任何语义。因此我们将通过不同的模块检测,将语音转换为文本并进一步过滤内容安全引擎,结合“多意义上下文短文本垃圾邮件检测”,“深度学习垃圾检测”,“规则引擎”和“分类器”模块过滤掉非法内容,如政治,泛黄(包括娇川,ASMR),惶恐不安,以及音频中的辱骂。人工审核团队可以通过网络背景对机器审核结果进行随机检查和审核,并不断优化机器审核的准确性。此过程可以显着降低手动审核的成本并提高效率。

目前,该解决方案可以检测到广告、色情、政治、暴力和滥用等非法内容。适用于直播视频、语音聊天室、娱乐直播、语音调频、音乐社交网络等实时音视频社交场景。

agora一站式智能语音识别计划的优点包括:

1

调用RESTfulAPI,一站式访问

Sound Network Agora目前提供实时音频呼叫SDK。通过在您的应用中集成Agora SDK,开发人员可以通过调用RESTful API为其应用添加语音内容审核。与传统的内容审计解决方案相比,完善的网络解决方案可以节省开发时间,服务器和其他访问成本。

2

AI 降噪,识别率更高

面对语音识别中常见的噪声、背景音乐等音质问题。通过人工智能音频去噪引擎对音频进行优化,提高语音识别率。同时,用户的语音和音频体验也会得到改善。在今年的RTC2019实时互联网会议上,我们将进一步分享人工智能音频去噪背后的技术实践。请期待。

3

语音交互低延时

声网sdk实现了从全球终端到终端76ms的实时音频和视频低延迟传输。声网agora sd-rtntm实时通信网络采用专用的udp协议进行传输,根据软件定义和优化路由选择最优传输路径,自动避开网络拥塞和主干网故障的影响。在保证低延迟传输的同时,声网agora sdk还支持48kz的高质量语音。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

眼神科技智慧社区安防方面优势有哪些 ?

眼神科技智慧社区安防方面优势有哪些 ?

近年来,智慧社区解决方案作为化解城市发展难题、实现城市可持续发展的有效途径,而备受社会各界的广泛关注及高度重视。由此可见,在新时代社会治理现代化的背景下,社区安防治理作为其中重要的组成部分,是推进社会治理走向智能化、高效化的必要探索。

2022-11-23 16:42:59

利用蓝鲸标准运维实现持续交付实践案例与总结

利用蓝鲸标准运维实现持续交付实践案例与总结

下面以元鼎在某金融行业客户交付的实际案例为例,简单介绍一下通过标准运维实现应用发版的设计过程。为了演示方便,这里对发版过程进行了一些简化:

2019-09-18 15:43:05

虹膜识别技术,因为安全被我们广泛应用

虹膜识别技术,因为安全被我们广泛应用

虹膜识别技术的不断发展在这背后则是我们对周围安全系数不断提高的需求,而虹膜识别技术也因此被我们广泛的应用在了生活中很多需要进行身份认证的场景。身份认证时我们生活中必不可少的工作,而进行身份认证的同时也能让让我们周围的安全系数提升到一个新的高度,虹膜识别技术

2022-11-24 10:30:26

目前而言生物识别存在的缺点有哪些(一)

目前而言生物识别存在的缺点有哪些(一)

生物识别可能没有我们想象的那么好,它也存在着许多的相关缺点。 大多数人认为中国生物技术特征进行识别非常准确,是因为广而告之,你的指纹、虹膜、视网膜、掌纹独一无二,其他人都没有。“虽然这种说法可能是现实的,但生物特征属性的存储远非如此生物识别因子较不详细的

2022-11-22 16:03:46

人脸识别标准启动,识别的乱象有人管了

人脸识别标准启动,识别的乱象有人管了

9年底,全国信标委生物特征识别工作小组委员会换届大会在北京召开。会上,由商汤科技为组长单位,27家企业单位联合组成的人脸识别技术国标工作组正式成立,人脸识别国家制定工作启动。 据介绍,此次正式成立的人脸识别国家标准工作组,成员单位包括腾讯、中国平安等。

2020-04-14 17:24:37

光学字符识别OCR在数字化过程中的作用

光学字符识别OCR在数字化过程中的作用

随着时代的大趋势,越来越多的企业要进行数字化转型,而在这之中,光学字符识别OCR也起着不一样的作用,小伙伴们想知道是什么吗?那就赶快来了解一下吧。 光学字符识别OCR实现了全文检索,在档案数字化工作中,所谓的全文检索主要可以分为两种:

2022-11-22 16:04:33

严选云产品

ZEGO即构科技元宇宙社交解决方案 ZEGO即构科技元宇宙社交解决方案,后疫情时代,从线下到线上,从信息交换到情景共享,更低成本、更个性化、更多智能的自我形象和表达。多人在线互动,低延迟技术,表现形式多样,承载内容丰富。
亿联网络政企视频会议系统 亿联网络政企视频会议系统,多合一服务,按需部署,SFU&MCU全融合架构,SVC&AVC混合组网,满足宣贯式会议,集中管控,节省MCU资源的同时提升会议并发。私有化多租户模式,支持在会议中扩容业务节点,会议中不断线,无感知扩容。
快鲸智慧园区管理系统 快鲸智慧园区管理系统,搭建科学的招商流程与获客模式,重要节点标准化动作执行,并通过线上管控时刻掌握商机动态,不延迟不漏跟。建立精细的管理操作流程,打造服务闭环,让管理不出错,让工期有效缩短,提高客户满意度。
欧软云设备数据采集集成方案 针对海量设备进行连接、数据采集/转发和远程控制的云服务,可实现设备与云端之间的双向通信、设备数据采集上云。支持上层应用调用API远程控制设备,从采集、存储建模、到分析展示的一体化解决方案,可应用于多种设备物联场景。
深信服企业移动管理EMM 深信服企业移动管理EMM,通过屏幕水印来威慑和追溯拍照泄密行为。通过禁用安全域内的应用截屏API,来防止截屏。通过网络隔离,防止安全域应用访问互联网。通过文件加密和文件隔离来防止病毒、木马窃取安全域数据。
精工智能智能工厂解决方案 精工智能智能工厂解决方案,成为技术先进、政府认可、员工满意的智能工厂,摒弃传统生产模式,减少生产浪费,塑造流程短、周期快,成本低、管理透明化的智能化车间。科学计算产能需求,优化产线布局,提升空间利用率,自动物流协同运作。

甄选10000+数字化产品 为您免费使用

申请试用