立即咨询

电话咨询

微信咨询

立即试用
商务合作

智能文档处理和对话式AI赋能药企医学文献检索

2021-12-13

导语    

智能文档检索(Intelligent Document Search)是来也科技智能自动化平台的产品应用解决方案之一。智能文档检索基于来也科技对话式AI平台(Conversational AI)智能文档处理平台(Intelligent Document Processing)等核心产品,对领域内的专业文档首先进行识别、分类、抽取、校验,再通过检索问句的意图识别关键信息抽取,帮助企业实现专业领域内文档的精确搜索,提升专业人员的工作效率。

本文结合文档智能检索的一个经典应用场景,即利用结合语义分析和智能文档处理的能力提升传统搜索引擎在医药专业领域的效果。对智能文档检索解决方案及更多应用场景感兴趣的读者,可点击文章开头的话题#智能文档处理#

背/景

在医药代表的日常销售工作中,不仅仅需要向客户等提供产品注册证等资质文件,也需要根据具体需求为对方提供更多专业性文献,而这一工作则需要药企专门的【医学信息部】来进行配合文献检索。【医学信息部】需要应对内部及外部、线上及线下共十余种渠道来源的药品咨询及大量文献获取请求,这些文献不仅数量巨大、渠道众多,还往往分布在内外部不同文献数据库之中。针对每条医药代表及医生的需求,医学信息部的工作人员平均需要 1~3 天的时间来进行检索处理,造成巨大人力消耗的同时,对于工作人员的专业判断水平、不同数据库熟悉度也有较高的要求。

图片

为了药企的合规性要求,更及时的服务于内外部,进一步推进药企数智化转型,来也科技利用对话式 AI 和智能文档处理产品,推出了医学文献智能检索机器人,降低药企医学信息检索相关的重复性、耗时的信息检索时长,提升信息检索效率和内外部服务满意度。

解/决/方/案

医学文献智能检索机器人

来也科技智能文档检索(Intelligent Document Search)整体解决方案的设计思路是通过知识图谱(Knowledge Graph)增强检索结果的相关性和准确性;通过来也科技智能文档处理(Intelligent Document Processing)能力自动构建文档知识结构;通过来也科技对话式AI平台(Conversational AI Platform)能力理解用户检索语句,精确理解用户意图及自然语言的检索条件;通过多渠道用户接入,满足不同类型客户的交互方式,既可以通过检索页面(Search Portal)获得检索结果,又可以通过对话机器人(Chatbot)的交互方式获得检索结果。

数据获取  

建立智能文档检索系统前,首先需要接入已有的数据源,包括结构化和非结构化数据,并且能够自动获取文档内容的更新。结构化数据包括三元组、csv、Excel、关系型数据库如SQL Server、MySQL、Oracle等;非结构化数据包括文本、文稿、图片等不同格式的文件,支持对不同文件格式的解析,包括利用OCR对图片类文件的解析。另外支持通过RPA(机器人流程自动化)对本地文件、网络文件目录、FTP目录、NFS目录等类型进行遍历、采集和更新。支持多源异构体数据的资源整合,快速构建图谱检索服务

图片

知识抽取  

文档中关于医学的信息通常以非结构化的方式包含在文本或表格中,适合以知识图谱这种结构化的方式进行知识表示,从而得到更加精确的搜索结果。知识抽取也就是知识构建的过程。知识抽取过程一般要经历三个阶段

图片

本体建模  

如果要将知识图谱用于精确的检索,我们需要通过领域的业务特点构建知识图谱的本体(Ontology),本体(Ontology)是用来表征相同类型文档知识结构的,本体建模也就是定义专业领域图谱的概念、属性、关系等内容的设计。预先将文档结构化成为能够向用户展示搜索结果的完整知识结构。举个例子:一篇文章中关于某产品的文本描述,需要首先进行本体建模,也就得到了我们需要抽取的知识结构的目标。

图片

智能文档处理  

当我们定义好本体(Ontology),也就是我们希望得到的知识结构后,我们就可以使用智能文档处理( IDP) 技术从文档中抽取出关键信息来构建知识图谱。来也科技智能文档处理提供了多种自然语言处理技术来辅助知识抽取,如医学领域的:

新词发现:无监督的领域内专业词汇挖掘,用于行业词库同义词表的建立

图片

实体关系抽取:由机器挖掘、业务专家审核进行三元组的建立

图片

文本分类:通过文章中的文本描述内容,为文档进行自动分类

多任务文档抽取:通过对文档内容结构进行标注,结合多维特征,实现智能抽取模型的训练

图片

人工标注 

同时,利用人机结合(Human in the Loop),由专业的业务人员、药师等不断进行自动标注外的人工标注和审核,进一步扩大知识检索的范围

最终形成适用于当前业务领域的百万量级三元组、高度准确及不断学习的行业图谱。

知识图谱

知识图谱由三元组构成,三元组的内容既可以是(实体1,关系,实体2)这种形式,代表两个实体之间的关系,也可以是(实体、属性,属性值)这种形式,代表某个实体的某个属性,通过管理三元组来维护领域内的知识结构。知识图谱构建完成以后,不断有新的文档新的知识补充进来,所以知识融合和冲突消解的过程会在使用的过程中不断进行。

图片

语义理解

为什么要结合语义理解的能力来进行文档检索?当药企职员想要一篇文献时,往往无法准确说出文献名称,而是通过记忆中对某篇文章的特性片段的结合,通过自然语言的描述进行文献的查找。如:

用户输入:找一篇上个月发表的李红写的有关儿童肺炎用药的文章

在这个问题中,我们基于对话式AI中强大的语义理解能力,在此处语义理解主要包含两个部分:意图识别与条件提取。

意图识别,就是对用户的核心意图进行识别和判断,得到用户意图是“帮忙找一篇文献的原文”。

条件提取,就是在意图确定后,根据提取到的条件信息进行数据的查询,这个例子当中找文献的条件包括

图片

检索服务

当我们通过语义理解提取了用户意图和条件要素后,就可以进行结构化条件的检索和召回。这里用户的意图我们可以分为几种类型,分别是全文检索、问答检索、条件检索和推理检索,每种类型的意图可以对应不同的检索方式。

图片

检索召回后,可以根据检索的结果进行答案融合和重新排序。除了默认按照相关性算法匹配的结果排序外,排序策略支持根据业务属性的自定义,如通过标签匹配个数排序,通过不同标签的权重排序,通过时间的排序等,并且可以通过不同用户的用户画像,进行个性化的检索结果回复

效/果/评/估

本方案帮助客户搭建了数十万级三元组的医学图谱,在万级文档检索的响应时间为百毫秒级,四种分类下的意图覆盖70%以上的检索语句语义识别准确率85%以上

通过构建文献知识图谱,支持前台业务人员通过“一句话”完成文献检索,检索结果包含文字及动态图形,医药代表、药师等业务用户,可以根据需求直接在图形上进行扩展检索,平均获取文献的时间从前文所提的几天缩短至 10 秒左右,不仅让医药代表及医生的需求得到了更快的满足,也极大程度的提高了各数据库系统的利用率,目前本方案已经赋能客户多条不同的业务线。

在当今数字化转型大趋势下,相比外部业务转型,企业内部自身办公方式的数字化也尤为重要,而其中信息搜索将花去我们近三成的工作时间,这有可能会成为限制企业快速发展的最大的拦路虎之一打造一款优秀的企业级智能文档搜索引擎,成为每个企业掌门人都需要仔细思考的问题。令其成为企业知识共享中心,帮助企业每一名员工提高生产力,经过持续的优化升级,它一定会成为一名屹立在企业知识中心的巨人,让每一名员工在它的肩膀上都能望向更远更璀璨的远方!

随着人工智能产品的普及,越来越多的企业在其内部员工赋能等场景中应用全自动或半自动的智能解决方案来实现降本增效,尤其是面对疫情期间的人力资源紧张,智能化转型已经成为政企的一条必然道路。来也科技也将持续进行产品、服务及解决方案打磨,在业务前端,通过对话式 AI 与终端用户交互,理解并收集信息在后端,通过机器人流程自动化(RPA)和智能文档处理(IDP)自动化处理结构化和非结构化信息并执行任务,形成贯穿整条业务线的“端到端智能自动化解决方案”

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

热门数字化产品

携客云采购管理系统SRM携客云的每个应用功能都经过用户的千锤百炼,无论是大型的集团,或是快速成长的企业,都能够为您企业供应链每个管理环节,找到最佳的业务管理方案,并配置您所需要的管理流程和业务细节。
法大大电子合同SaaS平台法大大电子合同法律效力等同于纸质合同,保障用户权益。人脸生物科技识别、银行卡要素等多重技术手段实名认证,确保颁发电子签名为本人专有。向企业和个人提供全流程的电子合同服务,完善的产品与服务体系。
阿里云无影云电脑阿里云无影云电脑(WUYING Workspace)是一种易用、安全、高效的云上电脑,支持快速便捷的创建、部署和统一运维管控。自带多重安全管控能力,支持随时随地访问,资源灵活弹性。广泛应用于安全办公、协同研发、教育实训、私域运营、分支门店、客服办公等。
腾讯电子签腾讯电子签是一款为企业及个人提供安全、便捷的电子合同签约及证据保存服务的产品。 您可以在实名认证的前提下,与约定方完成线上签约,并将签约过程进行存证保全以确保签约公信力。 腾讯电子签致力于降低您的运营成本,提升多端签署效率。
快麦ERP电商系统快麦ERP电商系统,多平台、多渠道、多店铺统一管理,支持销售订单、库存、售后订单等自动同步,实现仓库无纸化办公,仓库规划及工作流程梳理,员工绩效全方位统计,财务、报表多维度统计。
为你推荐
2025腾讯产业合作伙伴大会|云巴巴荣获双项大奖,载誉而归

1月16日,2025腾讯产业合作伙伴大会在三亚召开。云巴巴,荣膺“2024腾讯云卓越合作伙伴奖—星云奖”和“2024腾讯云AI产品突出贡献奖”双项大奖

2025-01-17
企业视频会议系统如何选?红鲸5大核心技术解析

企业视频会议系统到底该怎么挑选?有没有什么好用的视频会议系统?红鲸视频会议系统,凭借其国产化基因与技术创新,成为众多企业选型的焦点。

2025-05-16
电商行业如何管控爬虫风险?腾讯云EdgeOne捉虫功能新升级了!

特别是随着AI技术的发展,爬虫也愈发智能化,其隐蔽性越来越强,使得传统安全手段难以有效识别与拦截。腾讯云的边缘安全加速平台EO不仅能提供加速服务,其独有的AI技术还能面向对全量用户请求行为进行分析建模,智能甄别异常爬虫。

2025-05-16
远程办公时代,如何实现全球设备云端联动?Testin云真机驱动企业高效开发测试新动能!

Testin云真机通过整合设备资源池化调度、标准化自动化测试及全链路安全管控能力,为企业构建了移动端全生命周期管理体系,系统性解决设备分散管理、测试效率滞后及数据泄露风险等核心痛点。

2025-05-16
物流企业如何选型数据分析平台?海纳嗨数破解行业三大核心痛点

在AI大模型、跨境市场等新技术与新机遇的冲击下,物流企业既要应对需求波动、成本攀升的挑战,又需通过数据驱动实现精细化管理。

2025-05-16
查看更多