icon云+端混合的全链路智能对话系统定制开发平台——DUIicon

DUI 平台集成了公司的全链路智能语音语言交互技术,同时具备支撑人工智 能产品开发的大规模场景化定制能力, 可以快速搭建产品原型,并进行场景化、 个性化定制。

icon“云+芯”战略:自研AI语音交互芯片icon

公司芯片产品实现了算法及硬件协同优化,最多支持六个麦克风拾音,抗干扰能力强、唤醒识别率高、功耗低,支持全离线识别及命令词选择, 也可与云端配合支持全链路语音交互。 TH1520已通过美国亚马逊Alexa认证和微软Teams认证测试,2021年入选国家工信部《AI芯片推荐目录》,获得国际级SGS三体系认证。

icon拥有全面的语音语言交互技术icon

从感知智能到认知智能,从信号处理到识别到理解到交互,思必驰拥有全面的智能语音语言交互技术。

icon语音信号处理icon

思必驰使用传统信号处理结合深度神经网络算法,兼顾传统信号处理的保真性和深度神经网络算法的非稳态噪声抑制能力, 在通话场景中保证去降噪效果的同时,保证语音较小的失真性;在人机交互场景中能大幅提升识别准确率。

icon语音识别icon
icon语音识别++icon
icon语音合成icon
高质量高表现力 语音合成
全面支持建设不同语料规模、不同计算资 源、不同表现力和个性化需求的高质量语 音合成。支持中性、高兴、抱歉、撒娇、 悲伤等多种情感合成。 MOS >4.3。
声音复刻
录制10句话共200字,制作用户专属的语 音合成模型,合成和用户声音相似的语音。
本地合成
在设备端完成语音合成支持linux、 android等多种操作系统,支持arm、x86、 x86_64等多种硬件平台 MOS >4.0。
方言及多语种合成
支持快速的语种构建;支持单人千音:同 时支持英语、普通话、广东话、四川话等, 音色自然。MOS >4.2。
icon长语音识别私有化部署——方案介绍icon
实时长语音转写
对连续的音频流做实 时识别,配有内置的 智能断句,达到“边 说边可见”的效果。 可用于大会演讲投屏、 实时直播字幕、实时 法庭庭审记录等场景。
录音文件转写
对用户上传的录音文件或文件链接中的音频进行识别。可用于 采访录音转写、庭审数据录入、会议记录 总结等场景。
icon实时长语音icon

实时语音转写(LASR-online)通过与服务端建立websocket长连接,对连续的音频流进行实时识别,获取返回的文字流识别结果,达到“边说边出文字”的效果,内置智能断句,可用于大会演讲投屏、实时直播字幕、实时法庭庭审记录等场景。整个识别过程是实时的,支持:

支持wav, ogg, opus以及mp3格式的音频文件转写;

采样率16k、位长16bits、单声道;

支持的中文普通话,兼容多种口音;

热词配置、敏感词 ;

首字延时<800ms。

icon长语音流程架构icon
icon录音文件转写icon

录音文件转写(LASR-offline),是将已经录制好的录音文件, 通过识别服务,将长段音频数据转写成文本数据,可用于采访录音转写、音频数据录入、会议记录总结等场景。整个识别过程是非实时的,支持:

支持wav, ogg_speex, ogg_opus, mp3, opus格式的录音文件转写;

支持中文普通话、1小时音频最快5分钟出结果

支持声纹聚类(最大8人)

支持热词配置.

icon录音转写流程架构icon
icon流程架构方案icon
icon语种引擎icon
中文普通话
支持中文以及带口音普通话 (口音:广西口音、河南口音、河北口音、 湖北口音、湖南口音、陕西口音、山东口 音、山西口音、浙江口音、天津口音,东北口音,福建口音) 识别率>98%.
英文
不同语种为不同引擎,如果需要多种语种识别则需要部署多套.
中川混合
支持普通话与四川话混合识别.
中粤混合
支持普通话与粤语混合识别
中英混合
支持普通话与简单英语混合识别
icon私有化部署服务器配置icon
服务器类型
物理服务器(X86)、虚拟机
阿里云、百度云、腾讯云
系统
Centos 7.4以上或Ubuntu22.04
CPU
主频>2.0Ghz
CPU>4核
支持AVX2.0
内存
根据客户并发需求调整;
大模型(>64GB)
E2E小模型(>16GB)
icon私有化部署服务器配置(国产化)icon
服务器类型
飞腾2000(ARM)
麒麟920(ARM)
海光7151(C86)
系统
银河麒麟V10
CPU
主频>2.0Ghz
CPU>4核
支持AVX2.0
内存
根据客户并发需求调整
大模型(>64GB)E2E小模型(>16GB)
产品推荐 查看更多>>
    即信云通信CPaaS语音平台

    即信cPaaS-vo语音平台,是将通信能力封装成接口,供第三方集成,将通信能力作为服务提供的开放平台。

    语音验证码

    呼叫中心

    隐号通话

    点击通话

    智能语音交互

    阿里智能语音交互(Intelligent Speech Interaction),是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。

    安全可靠

    功能完备

    腾讯云语音合成TTS

    语音合成(TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。

    合成语音拟真度高,能够符合多样的应用场景

    语音合成支持中文、英文、粤语、四川话,也可以合成中英混读语音

    支持多种男声、女声的选择,使得音色能够覆盖多样化的应用场景

    支持电话、移动 App 等多种场景和合成效果选择。