核心算法基于传统信号处理+深度学习技术,结合麦克风阵列进行前端降噪,不受限于噪声类型,覆盖低信噪比全场景,大幅提升通话清晰度,改善噪声环境下的通话质量;双麦/四麦算法,分全向模式和定向模式,最远支持双麦3m/四麦5m拾音降噪。定向模式可以针对固定角度 进行音频增强。单麦算法,适合近场,可搭配耳机一起使用。
只保留扇形区域主说话人声音,去掉扇形区域外背景噪声和干扰人声,最左最右麦克风间距240mm,扇形区域半径50cm。
目前业界语音降噪方案更多是对近端进行降噪,远端降噪/下行通话降噪 可以消除对方传过来的背景噪声,即使对方所在背景环境噪音嘈杂,仍然可以听到对方清晰的通话内容;
支持喇叭播放/3.5mm耳机输出;
噪声模型能识别并消除多种噪声类型,并持续迭代升级;
噪声抑制深度30dB+。
已有的研发交付链路长,沟通成本高,用户在开发过程中过度依赖语音厂商,自主权不够。 思必驰DUI标注训练一体化平台,将数据标注和模型定制能力赋能用户,大大优化了生产链路。用户可独立完 成所有流程,语音厂商不参与其中,满足规模化生产需求。
疫情下,用户通常通过PC居家办公或打游戏,当CPU负载较高或者用户在玩高负载的游戏应用时, 风扇噪声会逐渐增大,会干扰到用户的使用体验。 通过探索一种区域性降噪的技术,让处于该区域的人员人耳接收到的风扇声音明显降低, 从而提高用户的使用体验
语音合成(TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
合成语音拟真度高,能够符合多样的应用场景
语音合成支持中文、英文、粤语、四川话,也可以合成中英混读语音
支持多种男声、女声的选择,使得音色能够覆盖多样化的应用场景
支持电话、移动 App 等多种场景和合成效果选择。
依图科技实时长短语音转写,提供不超过60秒的语音识别服务,提供长达5小时的语音识别服务,支持中英混读,并且兼容多种口音。提供流式语音识别能力,一边接受音频数据,一边提供转写结果。
支持中英混读
兼容多种口音
提供流式语音识别能力
实时语音转写
思必驰M4降噪会议麦克风音箱实时通话降噪,3 米拾音距离会议记录更省时。培训讲师声音更清晰,培训录音文稿整理更便捷。随声录音、语音实时转文字,出稿更便捷。
语音转文字记录
体积小巧
超长续航
智能降噪