病历结构化API通过http post请求的方式进行调用,既能远程调用,也可以实现本地私有化部署。应用方在程序内引入该API可以实现对病历文本的自动处理,将返回的json或xml的结构化数据进行结构化存储,用于进一步的检索、预警或科研统计分析等。
支持2种数据结构的结构化,包括自然语言结构化和病历结构化
病历抽取的结果按照实体分类展示在病历右侧。高亮/放大显示——点击『显示所有实体』病历中抽取的实体会在病历原文中高亮显示,不同类别的实体对应不同的背景色。点击某一类别标签,该类别在抽取结果在上移。高亮显示后,点击右侧抽取结果中的某个实体,则对应实体在病历原文中放大显示﹔同理,点击病历原文中任一高亮显示的实体,该实体在右侧抽取结果中颜色加深。
点击右上角的『文件导入』功能键可以上传本地的病历文件进行评估。病历文件可以为txt文件(gbk编码),或excel文件形式。
数据标注界面包括『要素切分』、『实体着色』『成分链接』﹑『属性标注』四个功能键。数据评估中错误、漏召的句子示例将自动引入数据标注界面进行标注,此外,用户也可以手动添加需要标注的句子。以手动添加case标注示例。
要素切分工具可以对待标注示例句子进行要素切分,通过鼠标在需要切分的文字间隔点击实现。通过实体着色功能,从实体类别着色板中选取要标注的实体类别颜色,再点击相应的要素进行实体上色,此时,对应要素进入”标注实体”列表。
部分实体由多个要素拼接组成,此时,实体标注是需要先将同一实体的要素进行链接,再进行实体着色。实体连接操作为:选取『实体链接』工具,点击待标注实体的多个相关要素。点击“腰部”和“疼痛”组成“腰部疼痛”,再进行着色。标注句子中部分实体存在一个或多个属性描述,通过属性标注功能可以进行属性字段填充,属性填充首先选取要添加属性的实体,点击『属性标注』工具,通过下拉列表选取属性名(KEY)﹔通过句子要素点选选取属性值(VALUE),对应部分属性存在多个属性值(如值阈范围),可以点击””,添加多个属性值,也可通过收到输入添加属性值;部分属性带有数值单位(UNIT),可以通过点选或手动输入进行填充。
文本图像增强是基于行业领先的计算机视觉技术,面向文件类图片场景提供图像处理服务。提供切边增强、弯曲矫正、阴影去除、摩尔纹去除、图像提亮等多项功能特性。旨在帮助客户更便捷、更快速地获取清晰度更高、阅读性更强的文档类图片,更好地服务客户后续业务流程。
切边增强
弯曲矫正
阴影去除
摩尔纹去除
达观OCR综合使用图像处理、计算机视觉、自然语言处理和深度学习等技术,准确全面的识别扫描件和图片中的文字,并通过语义分析理解抽取出业务所需关键要素,在识别的同时实现文档的结构化处理
多种前沿技术深度融合
支持企业定制化开发
准确率超过99%
达观数据OCR智能文字识别系统,专门解决文字识别问题的人工智能技术;采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,它让计算机像人一样看图识字,不管是扫面件、图片还是纸质文件都可以轻松搞定。
智能抽取
文档分类
机器预标注能力
企业财务报销