DUI 平台集成了公司的全链路智能语音语言交互技术,同时具备支撑人工智 能产品开发的大规模场景化定制能力, 可以快速搭建产品原型,并进行场景化、 个性化定制。
公司芯片产品实现了算法及硬件协同优化,最多支持六个麦克风拾音,抗干扰能力强、唤醒识别率高、功耗低,支持全离线识别及命令词选择, 也可与云端配合支持全链路语音交互。 TH1520已通过美国亚马逊Alexa认证和微软Teams认证测试,2021年入选国家工信部《AI芯片推荐目录》,获得国际级SGS三体系认证。
从感知智能到认知智能,从信号处理到识别到理解到交互,思必驰拥有全面的智能语音语言交互技术。
思必驰使用传统信号处理结合深度神经网络算法,兼顾传统信号处理的保真性和深度神经网络算法的非稳态噪声抑制能力, 在通话场景中保证去降噪效果的同时,保证语音较小的失真性;在人机交互场景中能大幅提升识别准确率。
实时语音转写(LASR-online)通过与服务端建立websocket长连接,对连续的音频流进行实时识别,获取返回的文字流识别结果,达到“边说边出文字”的效果,内置智能断句,可用于大会演讲投屏、实时直播字幕、实时法庭庭审记录等场景。整个识别过程是实时的,支持:
支持wav, ogg, opus以及mp3格式的音频文件转写;
采样率16k、位长16bits、单声道;
支持的中文普通话,兼容多种口音;
热词配置、敏感词 ;
首字延时<800ms。
录音文件转写(LASR-offline),是将已经录制好的录音文件, 通过识别服务,将长段音频数据转写成文本数据,可用于采访录音转写、音频数据录入、会议记录总结等场景。整个识别过程是非实时的,支持:
支持wav, ogg_speex, ogg_opus, mp3, opus格式的录音文件转写;
支持中文普通话、1小时音频最快5分钟出结果
支持声纹聚类(最大8人)
支持热词配置.