智能文档处理和对话式AI赋能药企医学文献检索

来源: 云巴巴 2021-12-13 14:59:00

导语    

智能文档检索(Intelligent Document Search)是来也科技智能自动化平台的产品应用解决方案之一。智能文档检索基于来也科技对话式AI平台(Conversational AI)智能文档处理平台(Intelligent Document Processing)等核心产品,对领域内的专业文档首先进行识别、分类、抽取、校验,再通过检索问句的意图识别关键信息抽取,帮助企业实现专业领域内文档的精确搜索,提升专业人员的工作效率。

本文结合文档智能检索的一个经典应用场景,即利用结合语义分析和智能文档处理的能力提升传统搜索引擎在医药专业领域的效果。对智能文档检索解决方案及更多应用场景感兴趣的读者,可点击文章开头的话题#智能文档处理#

背/景

在医药代表的日常销售工作中,不仅仅需要向客户等提供产品注册证等资质文件,也需要根据具体需求为对方提供更多专业性文献,而这一工作则需要药企专门的【医学信息部】来进行配合文献检索。【医学信息部】需要应对内部及外部、线上及线下共十余种渠道来源的药品咨询及大量文献获取请求,这些文献不仅数量巨大、渠道众多,还往往分布在内外部不同文献数据库之中。针对每条医药代表及医生的需求,医学信息部的工作人员平均需要 1~3 天的时间来进行检索处理,造成巨大人力消耗的同时,对于工作人员的专业判断水平、不同数据库熟悉度也有较高的要求。

图片

为了药企的合规性要求,更及时的服务于内外部,进一步推进药企数智化转型,来也科技利用对话式 AI 和智能文档处理产品,推出了医学文献智能检索机器人,降低药企医学信息检索相关的重复性、耗时的信息检索时长,提升信息检索效率和内外部服务满意度。

解/决/方/案

医学文献智能检索机器人

来也科技智能文档检索(Intelligent Document Search)整体解决方案的设计思路是通过知识图谱(Knowledge Graph)增强检索结果的相关性和准确性;通过来也科技智能文档处理(Intelligent Document Processing)能力自动构建文档知识结构;通过来也科技对话式AI平台(Conversational AI Platform)能力理解用户检索语句,精确理解用户意图及自然语言的检索条件;通过多渠道用户接入,满足不同类型客户的交互方式,既可以通过检索页面(Search Portal)获得检索结果,又可以通过对话机器人(Chatbot)的交互方式获得检索结果。

数据获取  

建立智能文档检索系统前,首先需要接入已有的数据源,包括结构化和非结构化数据,并且能够自动获取文档内容的更新。结构化数据包括三元组、csv、Excel、关系型数据库如SQL Server、MySQL、Oracle等;非结构化数据包括文本、文稿、图片等不同格式的文件,支持对不同文件格式的解析,包括利用OCR对图片类文件的解析。另外支持通过RPA(机器人流程自动化)对本地文件、网络文件目录、FTP目录、NFS目录等类型进行遍历、采集和更新。支持多源异构体数据的资源整合,快速构建图谱检索服务

图片

知识抽取  

文档中关于医学的信息通常以非结构化的方式包含在文本或表格中,适合以知识图谱这种结构化的方式进行知识表示,从而得到更加精确的搜索结果。知识抽取也就是知识构建的过程。知识抽取过程一般要经历三个阶段

图片

本体建模  

如果要将知识图谱用于精确的检索,我们需要通过领域的业务特点构建知识图谱的本体(Ontology),本体(Ontology)是用来表征相同类型文档知识结构的,本体建模也就是定义专业领域图谱的概念、属性、关系等内容的设计。预先将文档结构化成为能够向用户展示搜索结果的完整知识结构。举个例子:一篇文章中关于某产品的文本描述,需要首先进行本体建模,也就得到了我们需要抽取的知识结构的目标。

图片

智能文档处理  

当我们定义好本体(Ontology),也就是我们希望得到的知识结构后,我们就可以使用智能文档处理( IDP) 技术从文档中抽取出关键信息来构建知识图谱。来也科技智能文档处理提供了多种自然语言处理技术来辅助知识抽取,如医学领域的:

新词发现:无监督的领域内专业词汇挖掘,用于行业词库同义词表的建立

图片

实体关系抽取:由机器挖掘、业务专家审核进行三元组的建立

图片

文本分类:通过文章中的文本描述内容,为文档进行自动分类

多任务文档抽取:通过对文档内容结构进行标注,结合多维特征,实现智能抽取模型的训练

图片

人工标注 

同时,利用人机结合(Human in the Loop),由专业的业务人员、药师等不断进行自动标注外的人工标注和审核,进一步扩大知识检索的范围

最终形成适用于当前业务领域的百万量级三元组、高度准确及不断学习的行业图谱。

知识图谱

知识图谱由三元组构成,三元组的内容既可以是(实体1,关系,实体2)这种形式,代表两个实体之间的关系,也可以是(实体、属性,属性值)这种形式,代表某个实体的某个属性,通过管理三元组来维护领域内的知识结构。知识图谱构建完成以后,不断有新的文档新的知识补充进来,所以知识融合和冲突消解的过程会在使用的过程中不断进行。

图片

语义理解

为什么要结合语义理解的能力来进行文档检索?当药企职员想要一篇文献时,往往无法准确说出文献名称,而是通过记忆中对某篇文章的特性片段的结合,通过自然语言的描述进行文献的查找。如:

用户输入:找一篇上个月发表的李红写的有关儿童肺炎用药的文章

在这个问题中,我们基于对话式AI中强大的语义理解能力,在此处语义理解主要包含两个部分:意图识别与条件提取。

意图识别,就是对用户的核心意图进行识别和判断,得到用户意图是“帮忙找一篇文献的原文”。

条件提取,就是在意图确定后,根据提取到的条件信息进行数据的查询,这个例子当中找文献的条件包括

图片

检索服务

当我们通过语义理解提取了用户意图和条件要素后,就可以进行结构化条件的检索和召回。这里用户的意图我们可以分为几种类型,分别是全文检索、问答检索、条件检索和推理检索,每种类型的意图可以对应不同的检索方式。

图片

检索召回后,可以根据检索的结果进行答案融合和重新排序。除了默认按照相关性算法匹配的结果排序外,排序策略支持根据业务属性的自定义,如通过标签匹配个数排序,通过不同标签的权重排序,通过时间的排序等,并且可以通过不同用户的用户画像,进行个性化的检索结果回复

效/果/评/估

本方案帮助客户搭建了数十万级三元组的医学图谱,在万级文档检索的响应时间为百毫秒级,四种分类下的意图覆盖70%以上的检索语句语义识别准确率85%以上

通过构建文献知识图谱,支持前台业务人员通过“一句话”完成文献检索,检索结果包含文字及动态图形,医药代表、药师等业务用户,可以根据需求直接在图形上进行扩展检索,平均获取文献的时间从前文所提的几天缩短至 10 秒左右,不仅让医药代表及医生的需求得到了更快的满足,也极大程度的提高了各数据库系统的利用率,目前本方案已经赋能客户多条不同的业务线。

在当今数字化转型大趋势下,相比外部业务转型,企业内部自身办公方式的数字化也尤为重要,而其中信息搜索将花去我们近三成的工作时间,这有可能会成为限制企业快速发展的最大的拦路虎之一打造一款优秀的企业级智能文档搜索引擎,成为每个企业掌门人都需要仔细思考的问题。令其成为企业知识共享中心,帮助企业每一名员工提高生产力,经过持续的优化升级,它一定会成为一名屹立在企业知识中心的巨人,让每一名员工在它的肩膀上都能望向更远更璀璨的远方!

随着人工智能产品的普及,越来越多的企业在其内部员工赋能等场景中应用全自动或半自动的智能解决方案来实现降本增效,尤其是面对疫情期间的人力资源紧张,智能化转型已经成为政企的一条必然道路。来也科技也将持续进行产品、服务及解决方案打磨,在业务前端,通过对话式 AI 与终端用户交互,理解并收集信息在后端,通过机器人流程自动化(RPA)和智能文档处理(IDP)自动化处理结构化和非结构化信息并执行任务,形成贯穿整条业务线的“端到端智能自动化解决方案”

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

RPA机器人在财务上的3条适用标准

RPA机器人在财务上的3条适用标准

通常情况下,财务RPA的应用场景需要满足两个主要因素:大量重复和规则明确,前者让RPA有必要,后者让RPA有可能。财务RPA最适于具有一个清晰定义和极少例外情况下的重复和确定性过程,即应用于企业大量既定规则的交易活动。利用自己特定的软件算法,与多个方面应用

2020-03-18 17:36:15

银行哪些业务可以用RPA机器人流自动化流程

银行哪些业务可以用RPA机器人流自动化流程

从理论上讲人通过机器执行的高重复性、有既定逻辑的流程都可以被认为是RPA的适用场景。银行是一个规则领域,很多业务流程,报告可重复性工作可以交给RPA完成,由于RPA有记录可追溯的属性,在合规上颇具优势。以下是我们总结的适用RPA的十个银行业务流程。

2020-03-18 17:44:05

关于RPA机器人流程自动化的简单介绍

关于RPA机器人流程自动化的简单介绍

你知道这是RPA机器人流程自动化,软件机器人,虚拟劳动者是个啥?RPA是Robotic Process Automation的英文缩写,是可以记录人在计算机上的操作,并重复运行的软件。中文翻译为机器人流程自动化亦可翻译成软件机器人、虚拟劳动者。因其可以将办

2022-11-21 11:15:13

RPA机器人实施顺利的关键:COE卓越中心

RPA机器人实施顺利的关键:COE卓越中心

转变经济业务发展模式、优化管理流程、节约人力,利用RPA来实现中国企业进行数字化转型已经可以成为众多公司的选择,RPA的价值也日益凸显,在公司企业开展工作实施RPA计划时,通常会遇到很多棘手问题,包括发展规划设计不合理导致实施进程被拖慢。

2020-03-20 15:38:45

兼容旧版本,增加新功能,iS-RPA2021.3.0.0版本全新发布

兼容旧版本,增加新功能,iS-RPA2021.3.0.0版本全新发布

我们为大家带来了艺赛旗RPA全新版本——iS-RPA2021.3.0.0。新版本对系统做了优化升级,增加了许多全新的功能,提升了用户的体验感,有助于推动RPA行业技术创新进程,满足各行业深层次自动化需求

2022-01-07 10:56:04

【案例】保险行业CIO们看过来,艺赛旗RPA保险业实际案例

【案例】保险行业CIO们看过来,艺赛旗RPA保险业实际案例

在保险行业中,一套系统可能使用很多年,但伴随受众金融意识的提升,保险的产品也越来越丰富,很多新的产品需要在原有系统中,进行大量的人工操作。同时,在保险产品丰富化的今天,客服工作量和数据工作量巨大,iS-RPA 以智能模拟人的方式,进行跨系统的操作,解决大量

2022-11-21 11:04:39

严选云产品

环信招聘领域IM即时通讯解决方案 环信招聘领域IM即时通讯解决方案,针对VIP用户进行面试实时指导,提供高附加值服务。与业务流紧密结合,快速集成,易于维护,经济实用。
腾讯云自然语言处理 NLP 腾讯云自然语言处理(Natural Language Process,NLP)深度整合了腾讯内部顶级的 NLP 技术,依托千亿级中文语料累积,提供16项智能文本处理能力,包括智能分词、实体识别、文本纠错、情感分析、文本分类、词向量、关键词提取、自动摘要、智能闲聊、百科知识图谱查询等。
七牛云 对象存储 Kodo 七牛云海量存储系统(Kodo)是自主研发的非结构化数据存储管理平台,支持中心和边缘存储。 平台经过多年大规模用户验证已跻身先进技术行列,并广泛应用于海量数据管理的各类场景。
耳目达 V11超清网络摄像头 耳目达V11是蛙声科技推出的一款2K超清智能网络摄像头。特有隐私保护镜头盖设计,给人以安心舒适的使用体 验,是1-4人办公的理想之选。
灵验喵CEM客户体验管理系统 灵验喵CEM客户体验管理系统,通过体验旅程生态图,5分钟轻松开启企业客户体验管理,帮助企业挖掘客户全流程触点,动态追踪客户行动并生成行动方案的体验空间探索者。 打通内外部运营数据、行为数据和体验数据,通过问卷平台/API/NLP等多种技术手段全渠道获取客户反馈。
百炼智能店店通 百炼智能店店通,主动触达潜在经销/分销企业,快速铺设全国渠道网络,渠道潜力值,寻找更有实力的企业,全国五级地区渗透、多种渠道类型售点全面覆盖。20+ 门店信息维度,持续扩增的门店/品牌标签体系。构建全国车队信息库,拓展商用车方向的生意客群。

甄选10000+数字化产品 为您免费使用

申请试用