DUI 平台集成了公司的全链路智能语音语言交互技术,同时具备支撑人工智 能产品开发的大规模场景化定制能力, 可以快速搭建产品原型,并进行场景化、 个性化定制。
公司芯片产品实现了算法及硬件协同优化,最多支持六个麦克风拾音,抗干扰能力强、唤醒识别率高、功耗低,支持全离线识别及命令词选择, 也可与云端配合支持全链路语音交互。 TH1520已通过美国亚马逊Alexa认证和微软Teams认证测试,2021年入选国家工信部《AI芯片推荐目录》,获得国际级SGS三体系认证。
从感知智能到认知智能,从信号处理到识别到理解到交互,思必驰拥有全面的智能语音语言交互技术。
思必驰使用传统信号处理结合深度神经网络算法,兼顾传统信号处理的保真性和深度神经网络算法的非稳态噪声抑制能力, 在通话场景中保证去降噪效果的同时,保证语音较小的失真性;在人机交互场景中能大幅提升识别准确率。
实时语音转写(LASR-online)通过与服务端建立websocket长连接,对连续的音频流进行实时识别,获取返回的文字流识别结果,达到“边说边出文字”的效果,内置智能断句,可用于大会演讲投屏、实时直播字幕、实时法庭庭审记录等场景。整个识别过程是实时的,支持:
支持wav, ogg, opus以及mp3格式的音频文件转写;
采样率16k、位长16bits、单声道;
支持的中文普通话,兼容多种口音;
热词配置、敏感词 ;
首字延时<800ms。
录音文件转写(LASR-offline),是将已经录制好的录音文件, 通过识别服务,将长段音频数据转写成文本数据,可用于采访录音转写、音频数据录入、会议记录总结等场景。整个识别过程是非实时的,支持:
支持wav, ogg_speex, ogg_opus, mp3, opus格式的录音文件转写;
支持中文普通话、1小时音频最快5分钟出结果
支持声纹聚类(最大8人)
支持热词配置.
阿里智能语音交互(Intelligent Speech Interaction),是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。
安全可靠
功能完备
语音合成(TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
合成语音拟真度高,能够符合多样的应用场景
语音合成支持中文、英文、粤语、四川话,也可以合成中英混读语音
支持多种男声、女声的选择,使得音色能够覆盖多样化的应用场景
支持电话、移动 App 等多种场景和合成效果选择。