智能文档处理和对话式AI赋能药企医学文献检索

来源: 云巴巴 2021-12-13 14:59:00

导语    

智能文档检索(Intelligent Document Search)是来也科技智能自动化平台的产品应用解决方案之一。智能文档检索基于来也科技对话式AI平台(Conversational AI)智能文档处理平台(Intelligent Document Processing)等核心产品,对领域内的专业文档首先进行识别、分类、抽取、校验,再通过检索问句的意图识别关键信息抽取,帮助企业实现专业领域内文档的精确搜索,提升专业人员的工作效率。

本文结合文档智能检索的一个经典应用场景,即利用结合语义分析和智能文档处理的能力提升传统搜索引擎在医药专业领域的效果。对智能文档检索解决方案及更多应用场景感兴趣的读者,可点击文章开头的话题#智能文档处理#

背/景

在医药代表的日常销售工作中,不仅仅需要向客户等提供产品注册证等资质文件,也需要根据具体需求为对方提供更多专业性文献,而这一工作则需要药企专门的【医学信息部】来进行配合文献检索。【医学信息部】需要应对内部及外部、线上及线下共十余种渠道来源的药品咨询及大量文献获取请求,这些文献不仅数量巨大、渠道众多,还往往分布在内外部不同文献数据库之中。针对每条医药代表及医生的需求,医学信息部的工作人员平均需要 1~3 天的时间来进行检索处理,造成巨大人力消耗的同时,对于工作人员的专业判断水平、不同数据库熟悉度也有较高的要求。

图片

为了药企的合规性要求,更及时的服务于内外部,进一步推进药企数智化转型,来也科技利用对话式 AI 和智能文档处理产品,推出了医学文献智能检索机器人,降低药企医学信息检索相关的重复性、耗时的信息检索时长,提升信息检索效率和内外部服务满意度。

解/决/方/案

医学文献智能检索机器人

来也科技智能文档检索(Intelligent Document Search)整体解决方案的设计思路是通过知识图谱(Knowledge Graph)增强检索结果的相关性和准确性;通过来也科技智能文档处理(Intelligent Document Processing)能力自动构建文档知识结构;通过来也科技对话式AI平台(Conversational AI Platform)能力理解用户检索语句,精确理解用户意图及自然语言的检索条件;通过多渠道用户接入,满足不同类型客户的交互方式,既可以通过检索页面(Search Portal)获得检索结果,又可以通过对话机器人(Chatbot)的交互方式获得检索结果。

数据获取  

建立智能文档检索系统前,首先需要接入已有的数据源,包括结构化和非结构化数据,并且能够自动获取文档内容的更新。结构化数据包括三元组、csv、Excel、关系型数据库如SQL Server、MySQL、Oracle等;非结构化数据包括文本、文稿、图片等不同格式的文件,支持对不同文件格式的解析,包括利用OCR对图片类文件的解析。另外支持通过RPA(机器人流程自动化)对本地文件、网络文件目录、FTP目录、NFS目录等类型进行遍历、采集和更新。支持多源异构体数据的资源整合,快速构建图谱检索服务

图片

知识抽取  

文档中关于医学的信息通常以非结构化的方式包含在文本或表格中,适合以知识图谱这种结构化的方式进行知识表示,从而得到更加精确的搜索结果。知识抽取也就是知识构建的过程。知识抽取过程一般要经历三个阶段

图片

本体建模  

如果要将知识图谱用于精确的检索,我们需要通过领域的业务特点构建知识图谱的本体(Ontology),本体(Ontology)是用来表征相同类型文档知识结构的,本体建模也就是定义专业领域图谱的概念、属性、关系等内容的设计。预先将文档结构化成为能够向用户展示搜索结果的完整知识结构。举个例子:一篇文章中关于某产品的文本描述,需要首先进行本体建模,也就得到了我们需要抽取的知识结构的目标。

图片

智能文档处理  

当我们定义好本体(Ontology),也就是我们希望得到的知识结构后,我们就可以使用智能文档处理( IDP) 技术从文档中抽取出关键信息来构建知识图谱。来也科技智能文档处理提供了多种自然语言处理技术来辅助知识抽取,如医学领域的:

新词发现:无监督的领域内专业词汇挖掘,用于行业词库同义词表的建立

图片

实体关系抽取:由机器挖掘、业务专家审核进行三元组的建立

图片

文本分类:通过文章中的文本描述内容,为文档进行自动分类

多任务文档抽取:通过对文档内容结构进行标注,结合多维特征,实现智能抽取模型的训练

图片

人工标注 

同时,利用人机结合(Human in the Loop),由专业的业务人员、药师等不断进行自动标注外的人工标注和审核,进一步扩大知识检索的范围

最终形成适用于当前业务领域的百万量级三元组、高度准确及不断学习的行业图谱。

知识图谱

知识图谱由三元组构成,三元组的内容既可以是(实体1,关系,实体2)这种形式,代表两个实体之间的关系,也可以是(实体、属性,属性值)这种形式,代表某个实体的某个属性,通过管理三元组来维护领域内的知识结构。知识图谱构建完成以后,不断有新的文档新的知识补充进来,所以知识融合和冲突消解的过程会在使用的过程中不断进行。

图片

语义理解

为什么要结合语义理解的能力来进行文档检索?当药企职员想要一篇文献时,往往无法准确说出文献名称,而是通过记忆中对某篇文章的特性片段的结合,通过自然语言的描述进行文献的查找。如:

用户输入:找一篇上个月发表的李红写的有关儿童肺炎用药的文章

在这个问题中,我们基于对话式AI中强大的语义理解能力,在此处语义理解主要包含两个部分:意图识别与条件提取。

意图识别,就是对用户的核心意图进行识别和判断,得到用户意图是“帮忙找一篇文献的原文”。

条件提取,就是在意图确定后,根据提取到的条件信息进行数据的查询,这个例子当中找文献的条件包括

图片

检索服务

当我们通过语义理解提取了用户意图和条件要素后,就可以进行结构化条件的检索和召回。这里用户的意图我们可以分为几种类型,分别是全文检索、问答检索、条件检索和推理检索,每种类型的意图可以对应不同的检索方式。

图片

检索召回后,可以根据检索的结果进行答案融合和重新排序。除了默认按照相关性算法匹配的结果排序外,排序策略支持根据业务属性的自定义,如通过标签匹配个数排序,通过不同标签的权重排序,通过时间的排序等,并且可以通过不同用户的用户画像,进行个性化的检索结果回复

效/果/评/估

本方案帮助客户搭建了数十万级三元组的医学图谱,在万级文档检索的响应时间为百毫秒级,四种分类下的意图覆盖70%以上的检索语句语义识别准确率85%以上

通过构建文献知识图谱,支持前台业务人员通过“一句话”完成文献检索,检索结果包含文字及动态图形,医药代表、药师等业务用户,可以根据需求直接在图形上进行扩展检索,平均获取文献的时间从前文所提的几天缩短至 10 秒左右,不仅让医药代表及医生的需求得到了更快的满足,也极大程度的提高了各数据库系统的利用率,目前本方案已经赋能客户多条不同的业务线。

在当今数字化转型大趋势下,相比外部业务转型,企业内部自身办公方式的数字化也尤为重要,而其中信息搜索将花去我们近三成的工作时间,这有可能会成为限制企业快速发展的最大的拦路虎之一打造一款优秀的企业级智能文档搜索引擎,成为每个企业掌门人都需要仔细思考的问题。令其成为企业知识共享中心,帮助企业每一名员工提高生产力,经过持续的优化升级,它一定会成为一名屹立在企业知识中心的巨人,让每一名员工在它的肩膀上都能望向更远更璀璨的远方!

随着人工智能产品的普及,越来越多的企业在其内部员工赋能等场景中应用全自动或半自动的智能解决方案来实现降本增效,尤其是面对疫情期间的人力资源紧张,智能化转型已经成为政企的一条必然道路。来也科技也将持续进行产品、服务及解决方案打磨,在业务前端,通过对话式 AI 与终端用户交互,理解并收集信息在后端,通过机器人流程自动化(RPA)和智能文档处理(IDP)自动化处理结构化和非结构化信息并执行任务,形成贯穿整条业务线的“端到端智能自动化解决方案”

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

智能文档处理技术揭秘:如何低成本实现高准确率的文档信息抽取?

智能文档处理技术揭秘:如何低成本实现高准确率的文档信息抽取?

智能文档处理IDP是来也科技智能自动化平台的核心能力之一。IDP 基于光学字符识别(OCR)、计算机视觉(CV)、自然语言处理(NLP)、知识图谱(KG)等前沿技术,对各类文档进行识别、分类、抽取、校验等处理,帮助企业实现文档处理工作的智能化和自动化。

2021-12-17 11:29:14

RPA机器人时代,能否创造新的工作体系

RPA机器人时代,能否创造新的工作体系

机器人是否会代替人类的工作——RPA,“从工业车间的物理机器人——机器人手臂到办公软件机器人”一直是一个有争议和引人注目的话题,引起了人们对失业的关注。根据McKinsey2017年的调查数据,现在被证实的技术可以使45%的人力工作自动化,

2020-03-18 17:33:21

RPA如何自动读取手机验证码?

RPA如何自动读取手机验证码?

RPA机器人能够模拟人工操作计算机的习惯,去调用电脑中的程序、系统(包括Excel/Word等、浏览器页面、OA系统、企业管理系统等)。从这些程序中将所要录入的数据自动转移到系统层上,实现跨平台、跨系统的数据迁移,操作简单,安全稳定。

2022-02-23 10:19:59

公司哪些业务流程可以使用 RPA 软件

公司哪些业务流程可以使用 RPA 软件

RPA(机器人流程自动化)以自动化软件作为虚拟劳动力,依据预先设定的程序与现有系统进行交互并完成预期的任务。     通过RPA软件“机器人”可以捕捉并模拟我们日常的键盘、鼠标操作等人机交互行为,它们可以完成识别、触发、通信、文本生成等任务,自动,

2022-11-21 10:17:12

“四新”驱动,全新升级 | 艺赛旗RPA2020.3.0抢先用,

“四新”驱动,全新升级 | 艺赛旗RPA2020.3.0抢先用,

距RPA2020.3.0Beta版发布差不多一个月时间了,各位艺赛旗的老铁们!是不是都等的很着急? 那么,今天我为大家带来一个振奋人心的好消息~ 这段时间汇聚了各方意见和建议,付出了巨大的精力和代价,我们终于不负众望完成了RPA2020.3.0的改造,

2022-11-21 15:06:48

重磅!云巴巴与RPA领军企业来也科技达成战略合作,共筑智能办公新生态

重磅!云巴巴与RPA领军企业来也科技达成战略合作,共筑智能办公新生态

随着人口红利见顶,人力成本逐年攀升,企业希望借力数字化来控制成本、提高效率的动力愈发强烈。

2024-03-27 15:18:36

严选云产品

中软国际产业云运营服务 中软国际产业云营运服务是中软国际作为由政府机构、资源提供商等联合推进成立的产业基地的运营主体,通过技术服务、品牌营销、产业生态聚合以及人才培养等服务,助力本地企业智能化、数字化转型,协助政府用数赋智政策落地,促进本地核心产业发展,实现产业升级。
好会计智能报表 好会计智能报表,便捷导入日记账,一键生成凭证;日记账快捷筛选过滤,批量生成凭证;日记账生成凭证规则配置。多种方式的取票、录票,高效快捷。支持设置多种凭证合并和生成规则;支持根据固定资产折旧、新增、变动、减少生成凭证。
IP数据云全球IP归属地API IP数据云全球IP归属地APIIP地址由网络号(netid)和主机号(hostid)两个层次组成,IP地址的层次结构与互联网的层次结构是相互对应的,IP地址常用的主流格式为IPV4与IPV6两种。 IPv4协议规定,IP地址的长度为32位。这32位包括了网络号部分(netid)和主机号部分(hostid)。全球IPv4地址有43亿个,但在2019年11月 IPv4 地址已全部分配完毕。 IPv6弥补了IPv4数量上的不足,IPv6的地址长度为128位,是IPv4地址长度的4倍,理论上可提供2^128个地址。号称可谓地球每粒沙子分配一个IP地址。 IPV6的16字节(128bit)地址采用如下记法:每2个字节一组,共分8组,每组采用16进制表示方法,组与组之间用冒号“:”隔开。
网宿科技网宿安达SecureLink 网宿安达SecureLink产品是根据云安全联盟(CSA)的软件定义边界(SDP)标准规范,同时遵循Zero Trust 安全框架设计而成,为企业远程访问/办公的传统内网访问技术(如VPN、远程桌面)提供了一种安全、简单、快速的替代方案。
威努特工控安全管理平台 威努特以率先独创的工业控制系统“白环境”技术理念为核心,遵循“一个中心,三重防护”安全体系,建立工控边界隔离“白环境”、工控网络异常检测“白环境”、工控主机安全免疫“白环境”三重积极防御体系,通过统一安全管理中心集中管理运维,实现工控网络高效纵深防御。
商兆科技可信电子签名平台 商兆科技可信电子签名平台,支持创建模板批量生成电子文档,对电子文档从创建到签署完成进行全流程管理。基于电子营业执照的防伪、防篡改、防抵赖特性,可以认证企业主体身份真实性。对电子签名平台上产生的所有行为数据可同步在区块链、三方公证处存证,便于未来举证并提供相应司法服务。

甄选10000+数字化产品 为您免费使用

申请试用