首页 > 云巴巴报道 > 伙伴资讯 > 声网 Agora 一站式智能语音识别方案

声网 Agora 一站式智能语音识别方案

来源: 云巴巴 2019-09-17 16:17:53

视频直播，语音聊天，音乐社交，这些与“声音”相关的社交场景在过去两年中变得越来越热，并吸引了许多内容创作者和用户。但是，相关的语音内容审查一直是许多平台的头疼问题。这也使得“每日聆听4000种声音”的声音成为头条新闻。现在，市场上的一些厂商已经开始提供智能语音黄变服务，大大减少了人工黄变的工作量。

然而，对于社会产品团队来说，现有的语音内容审计+实时音视频服务、部署、调试、运行和维护成本都很高，许多方案对背景音乐和噪声的音频识别效果都很差。为了解决这个问题，我们正式推出了Agora一站式智能语音识别方案。

所有现有的计划是如何运作的？

一般情况下，一个社会产品需要与三家制造商对接：CDN制造商，用于推送流和拉流，并实现正常直播；RTC制造商用于实现低延迟的实时交互直播；内容审查制造商通过人工智能手动进行审核。Access的体系结构基本如下图所示，可以简单地概括为三个步骤：

1.内容被转码或直接推送到CDN;

2。内容审计供应商从内容交付网络（cdn）中撤出，然后进行人工智能和手动内容审计。

3.审计完成后，将返回到服务器。

图：传统的实时音视频内容评审过程

这种旧方法引起的问题是显而易见的。首先，开发人员需要停靠三个供应商，并且必须多次部署和调试。调试有很多成本和风险。此外，当CDN失败时，需要很长时间来解决问题。此外，在此过程中，开发人员还需要支付额外的拉流成本。

另一方面，目前的方案也需要解决噪声问题。由于音频社会交互的场景很多，如语音调频、语音聊天室、音乐社交、娱乐直播等，这些场景往往伴随着环境噪声和背景音乐，这将影响现有内容审核方案的识别率。

一种用于声音网络的AGORA一站式智能语音识别方案

目前，语音网络已经为业界提供了独一无二的一站式智能语音识别方案.如上述体系结构所示，开发人员只需在应用程序中集成声音Mesh AgoraSDK，就可以使音频在AgoraSD-RTN™网络中实时传输过程中完成语音内容的识别和审查。在原有的现场语音互动直播的基础上，我们整合了业界三大语音识别服务。同时，基于音频网络的人工智能音频降噪引擎，提高了语音质量，优化了语音识别效果。

语音识别过程如下图所示。首先，由声音网络专门开发的AI音频降噪引擎消除了背景声音，优化了音频质量，并使声音更清晰。我们在网络广播，语音约会和其他互联网平台上听到的语音音频通常有两种类型，一种是普通语音，另一种是非文本声音，如娇川和ASMR，后者没有任何语义。因此我们将通过不同的模块检测，将语音转换为文本并进一步过滤内容安全引擎，结合“多意义上下文短文本垃圾邮件检测”，“深度学习垃圾检测”，“规则引擎”和“分类器”模块过滤掉非法内容，如政治，泛黄（包括娇川，ASMR），惶恐不安，以及音频中的辱骂。人工审核团队可以通过网络背景对机器审核结果进行随机检查和审核，并不断优化机器审核的准确性。此过程可以显着降低手动审核的成本并提高效率。

目前，该解决方案可以检测到广告、色情、政治、暴力和滥用等非法内容。适用于直播视频、语音聊天室、娱乐直播、语音调频、音乐社交网络等实时音视频社交场景。

agora一站式智能语音识别计划的优点包括：

调用RESTfulAPI，一站式访问

Sound Network Agora目前提供实时音频呼叫SDK。通过在您的应用中集成Agora SDK，开发人员可以通过调用RESTful API为其应用添加语音内容审核。与传统的内容审计解决方案相比，完善的网络解决方案可以节省开发时间，服务器和其他访问成本。

AI 降噪，识别率更高

面对语音识别中常见的噪声、背景音乐等音质问题。通过人工智能音频去噪引擎对音频进行优化，提高语音识别率。同时，用户的语音和音频体验也会得到改善。在今年的RTC2019实时互联网会议上，我们将进一步分享人工智能音频去噪背后的技术实践。请期待。

语音交互低延时

声网sdk实现了从全球终端到终端76ms的实时音频和视频低延迟传输。声网agora sd-rtntm实时通信网络采用专用的udp协议进行传输，根据软件定义和优化路由选择最优传输路径，自动避开网络拥塞和主干网故障的影响。在保证低延迟传输的同时，声网agora sdk还支持48kz的高质量语音。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里！

话题:

人工智能

语音识别

评论列表

2022-11-22 16:04:33

严选云产品

ZEGO即构科技元宇宙社交解决方案 ZEGO即构科技元宇宙社交解决方案，后疫情时代，从线下到线上，从信息交换到情景共享，更低成本、更个性化、更多智能的自我形象和表达。多人在线互动，低延迟技术，表现形式多样，承载内容丰富。

亿联网络政企视频会议系统亿联网络政企视频会议系统，多合一服务，按需部署，SFU&MCU全融合架构，SVC&AVC混合组网，满足宣贯式会议，集中管控，节省MCU资源的同时提升会议并发。私有化多租户模式，支持在会议中扩容业务节点，会议中不断线，无感知扩容。

快鲸智慧园区管理系统快鲸智慧园区管理系统，搭建科学的招商流程与获客模式，重要节点标准化动作执行，并通过线上管控时刻掌握商机动态，不延迟不漏跟。建立精细的管理操作流程，打造服务闭环，让管理不出错，让工期有效缩短，提高客户满意度。

欧软云设备数据采集集成方案针对海量设备进行连接、数据采集/转发和远程控制的云服务，可实现设备与云端之间的双向通信、设备数据采集上云。支持上层应用调用API远程控制设备，从采集、存储建模、到分析展示的一体化解决方案，可应用于多种设备物联场景。

深信服企业移动管理EMM 深信服企业移动管理EMM，通过屏幕水印来威慑和追溯拍照泄密行为。通过禁用安全域内的应用截屏API，来防止截屏。通过网络隔离，防止安全域应用访问互联网。通过文件加密和文件隔离来防止病毒、木马窃取安全域数据。

精工智能智能工厂解决方案精工智能智能工厂解决方案，成为技术先进、政府认可、员工满意的智能工厂，摒弃传统生产模式，减少生产浪费，塑造流程短、周期快，成本低、管理透明化的智能化车间。科学计算产能需求，优化产线布局，提升空间利用率，自动物流协同运作。

数字化社区

声网 Agora 一站式智能语音识别方案

评论列表

为你推荐

眼神科技智慧社区安防方面优势有哪些 ？

利用蓝鲸标准运维实现持续交付实践案例与总结

虹膜识别技术，因为安全被我们广泛应用

目前而言生物识别存在的缺点有哪些（一）

人脸识别标准启动，识别的乱象有人管了

光学字符识别OCR在数字化过程中的作用

严选云产品

推荐视频

眼神科技智慧社区安防方面优势有哪些？