思通数科企业级多模态AI能力平台_图文OCR识别系统

思通数科企业级多模态AI能力平台

思通数科企业级多模态 AI 能力平台，集成强大的图文 OCR 识别系统与音视频识别系统。能精准识别图文信息，快速处理音视频内容，实现多模态数据的高效分析。为企业提供一站式 AI 能力，助力各行业智能化升级，提升数据处理效率与决策准确性，是企业数字化转型的优质之选。

立即咨询

机器翻译

我们的翻译服务提供100+语种的在线互译，结合思通数科的OCR识别、智能语音和图像识别能力可以对图片中的文本内容进行文字识别、语种自动检测并翻译成目标语言，支持更广阔的用户应用场景。详见多语言互译对照表:思通数科-翻译大模型语言互译支持清单。

文本分类

多分类，文本分类服务利用深度学习技术，对文本内容进行深入分析，能够明确识别文本的主旨，并进一步将其细分为多个层级和标签。还会为每个分类结果赋予一个表示相关程度的置信度分值。
多标签，文本分类支持两个或两个以上的类别，输入句子/文本具有一个或多个标签，多个标签类别之间具有不相互排斥的属性，例如:一篇新闻中含有手机和芯片两个分类标签。
多层级，文本分类任务的中数据样本具有多个标签且标签之间存在特定的层级结构，目标是预测输入句子/文本可能来自于不同级标签类别中的某一个或几个类别。以下图新闻文本分类为例，该新闻的一级标签为体育，二级标签为足球。

信息抽取

精准理解用户输入的短语或问题，提取出包括但不限于实体、关系、事件论元、事件描述等文本信息，为媒体、金融、媒体、政务等多个领域下的文本内容理解和信息提取提供技术支持,并支持用户将短语或问题自定义为提取目标，灵活提取文本包含的多维度信息。

实体识别

命名实体识别(NER)是识别文本中具有特定意义的词（实体），如人名、地名、机构名、专有名词等，其识别标签分类已达到91种。机构识别是实体识别的细分模块，可以自动识别和提取文本中的各类机构，并统计词频和机构出现次数。此外，还可以对用户输入的地址进行补全和结构化解析，将长地址分解为省、市、区、路、街等，最终精确到POI点。

主题抽取

用户输入多短文本，系统将会把多段文字内容中心思想自动计算抽取，和分析文章内容主题，帮助您实现舆情分析、用户理解，支持产品优化和营销决策。

自动摘要

结合传统语义特征和深度学习模型，充分考虑段落分布和篇章结构，准确计算新闻语句的重要性，对新闻内容进行全面的语义理解与分析，能根据需求灵活控制摘要长度，自动抽取关键信息，形成摘要结果。可用于内容理解、内容分发、智能写作等多种应用。

相似度查找

接收用户输入的短文本内容，然后与多个相似文本进行比对，并根据相似度进行排序。用户还可以在引擎中自定义目标数据库。此外，我们支持用户自定义多数据源（如MySQL、ES、MySQL、Oracle）和多字段筛查的相似度自定义查找。用户可以通过定义BSON语句对相似的数据内容进行排序和筛选查找。

高频词提取

能够从文本中自动提取出若干个反复出现的反映主题、话题、实体等方面的关键词或短语，支持灵活设置提取的关键词数量为个性化推荐、话题聚合、电商推荐等应用场景提供技术支持。

词性标注

基于大数据和用户行为的分词、词性标注、命名实体识别，定位基本语言元素，消除歧义，支撑自然语言的准确理解，将连续的自然语言文本，切分成具有语义合理性和完整性的词汇序列为自然语言文本中的每个词汇赋予一个词性，例如名词、动词、形容词等。

智能语音交互

语音识别

将音频流实时识别为文字，并返回每句话的开始和结束时间，支持Android、iOS、LinuxSDK，可以在多种操作系统、多种设备终端上调用，快速上手，简单易用适用于长句语音输入、音视频字幕、会议等场景。

声音分类

声音分类任务为音频片段添加一个或多个标签的任务，包括音乐分类、声学场景分类、音频事件分类等。可应用于生产或泛安防场景中监控异常声音等。

语音转写

将批量上传的音频文件识别为文字，将大量录音批量上传，通过语音识别引擎精准、快速的转为文字 12 小时内返回识别结果,，适合录音质检、会议内容总结、音频内容分析等场景。

声音克隆

赋能 APP 和智能硬件，录制少量的用户声音，短时间内训练得到音色和发音风格与录音非常相似的声音模型，进而使用该声音模型完成讲故事、播天气、读小说、导航播报等功能。

图像视频服务

图像搜索

以图搜图，在指定图库中搜索出相同或相似的图片，支持快速创建专属图库，调用入库接口上传图片，支持亿级图片量入库，实时检索生效适用于图片精确查找、相似素材搜索、拍照搜同款商品、相似商品推荐等场景。

图像分类

识别动物、植物、商品、建筑、风景、动漫、食物、公众人物等10万个常见物体及场景，接口返回获取图片识别结果对应的大类及细分类的名称结果百科词条和图片摘要。

视频分类

识别快速获得高精度视频理解，可定制视频内容分类，可以用于分析短视频的内容，识别出视频内人体做的是什么动作，物体/环境发生了什么变化。

视频标签

利用视觉、语音、NLP等AI技术，对视频、图片、文本进行结构化分析，输出场景、公众人物、地点、实体和关键词等结构化标签，还可生成封面图和高光片段，帮助平台实现自动化内容理解,为个性化内容推荐、提升用户检索体验提供基础。

人脸人像识别

人脸识别

精准实时的人脸检测、分析、识别满足开发者和企业提供高性能高可用的人脸识别服务。可应用于在线娱乐、在线身份认证等多种应用场景，充分满足各行业客户的人脸检测等需求。

活体检测

静默活体检测服务是指，不需要用户配合做动作就可以判断是真实人脸，抵御人脸攻击（比如：人脸翻拍图片、人脸翻拍视频以及人脸面具等）。

文件文档识别

文档抽取

可对Word、PDF、PPT办公文档的文字及图片表、列表、文本、水印、页眉页脚、印章、公式的位置及文字版面进行分析&输出，并能识别对应的段落与格式，支持52种语言，手写、印刷体混排多种场景。

文档比对

针对不同版本的业务文档，基于语义分析识别相似段落，将差异性内容、字段高亮展示，降低人为疏忽带来的业务风险。

表格抽取

针支持识别图片/PDF格式文档中的表格内容，返回各表格的表头表尾内容、单元格文字内容及其行列位置信息，全面覆盖各类表格样式，包括常规有线表格、无线表格、含合并单元格表格。同时，支持单图中多表格内容的识别。

智能对话服务

专业知识库+智能问答机器人

支持用户上种多模态数据，例如:图片、PDF、word、语音、视频、纯文本甚至聊天记录，使得机器人能够具备更加全面和深入的知识储备，从而更好地应对各种复杂和多元的问题。通过持续的学习和优化，大模型不仅能够提升机器人的专业性问答的能力。

OCR文字识别

OCR文字识别系统采用了先进的深度学习技术，能够对多种通用场景进行快速、精准的检测和识别，包括表格、图片、文档、证件、面单等，支持52 种语言，包括印刷体、手写体、倾斜、折叠、旋转等。系统还具备通用表格识别、证卡文字识别、票据文字识别等功能，可应用于各种场景，如用户注册、身份认证、金融开户、交通出行、政务办事等。此外，我们还提供了特定行业类识别和自定义模版识别功能，可以智能分析与抽取多页文档中的关键信息，以及从非结构化或半结构化的数据中提取出结构化数据，更好地进行数据分析和处理。

通用文字识别

通过前沿的深度学习技术，对各种表格，图片，文档、证件、面单等多种通用场景进行快速、精准的检测和识别，支持简体中文/繁体中文/英文/数字/西欧主流语言/东欧主流语言等共52种语言，同时支持印刷体、手写体、倾斜、折叠、旋转等。

通用表格识别

支持识别图片/PDF格式文档中的表格内容，包括有线表格、无线表格、合并单元格表格，同时支持单张图片内的多个表格内容识别，返回各表格表头表尾内容、单元格文字内容及其行列位置信息。

证卡文字识别

支基于智能文字识别技术，融合不同行业和场景，支持身份证、银行卡、营业执照、名片、驾驶证、港澳台证件等多种国内外常见卡证高精准度识别，可应用于用户注册、身份认证、金融开户、交通出行、政务办事等多种场景。

票据文字识别

基于智能文字识别技术，融合不同行业和场景，支持增值税发票、火车票、出租车票、飞机行程单等多种国内外常见票据高精准度识别，可应用于企业票据报销、票据快速录入、金融票据识别等多种场景。

特定行业类识别

基于自研 NLP抽取技术，智能分析与抽取多页文档中的关键信息基于自研NLP抽取技术，智能分析与抽取多页文档中的关键信息。推荐适用场景:合同/标书/保单/网页截图等各类电子文档。

智能合规检测

文本智能纠错

支持对错别子、词、多字错误、少字错误、语义重复、语序错误、句式杂梗、标点符号差错、量词和单位差错、数字差错、序号检查、句子查重、英文校对。重要领导人讲话引用、姓名和职务信息、地理名询、机构名称、落马官员、专有名词及未语、法律法规名称、常识差招、时政重点词、媒体报道基用词和慎用词。

内容合规检测

我们的文本内容合规审核功能涵盖了对多种敏感内容的识别，特别是针对国家统一、主权和领土完靠、民族宗教、涉黄、暴恐、赌博、毒品、低俗辱骂以及其他违法违规内容的审核。

打击违法犯罪

严厉打击涉黄、暴恐、赌博、毒品等违法内容，有效清理平台内不良信息，维护网络空间秩序。

防范低俗灌水

通过智能识别和过滤，确保平台上的言论积极健康，杜绝灌水、低俗、侮辱性言论等内容。

广告违禁审核

对广告内容进行严格审核，防范违规宣传，确保广告信息的合法合规发布。

图像合规检测

基于深度学习的智能内容审核方案，准确检测图像和视频中的色情、广告、恶心、违禁等违规内容，也能从美观、清晰等维度对图像进行筛选，紧贴业务需求，释放审核人力。

音频合规检测

语音识别结合声纹检测及文本审核能力，有效识别色情、娇喘、违禁、辱骂等违规语音内容,支持短音频实时检测、长音频及音频流异步检测等多种方式。助力音视频直播、电台、聊天室等客户营造绿色清朗的语音环境。

短视频审核

综合图像、文本分析能力，针对5分钟内的短视频文件，同步识别画面、文字内容，检测色情、违禁、低俗辱骂、恶意推广等违规内容，高效过滤不良视频。

直播流审核

自动解析视频流链接，对视频流进行抽帧识别，音频流按照VAD方式进行语音识别及分析，可实时检测直播过程中的色情低俗、违禁违规、血腥不适等不良内容。

产品推荐

税务云

为小微纳税人（起征点以下的小规模纳税人及个体工商户）提供基于网络的发票业务云服务

免费试用

查看详情

IP数据云IP应用场景API

IP数据云IP应用场景APIIP应用场景是获取IPv4和IPv6使用场景的服务，具备识别IP真人度，提升风控和反欺诈等业务能力。提供API接口及离线库２种接入方式。IP应用场景利用主动测量和公开数据源，划分IP块的使用状态，包含保留IP、未分配IP、已分配未路由IP、已路由未使用IP和已使用IP。对已使用的IP，分析IP所属的组织名称，将其进一步划分为以下IP应用场景类型。

免费试用

查看详情