你知道数据抽取和转换的准备有哪些

来源: 云巴巴 2022-11-21 11:16:51

 

    数据抽取前,需要作大量的准备工作,具体归纳为如下4个部分:

    针对目标数据库中的每张数据表,根据映射关系中记录的转换加工描述,建立抽取函数。抽取函数的命名规则为:F_目标数据表名_E。根据抽取函数的SQL语句进行优化,该映射关系为前期数据差异分析的结果。可以采用的优化方式为:调整SORTAREA_SIZEHASH_AREA_SIZE等参数设置、启动并行查询、采用提示指定优化器、创建临时表、对源数据表作ANALYZES、增加索引,建立调度控制表,包括ETL函数定义表(记录抽取函数、转换函数、清洗函数和装载函数的名称和参数)、抽取调度表(记录待调度的抽取函数)、装载调度表(记录待调度的装载信息)、抽取日志表(记录各个抽取函数调度的起始时间和结束时间以及抽取的正确或错误信息)、装载日志表(记录各个装载过程调度的起始时间和结束时间以及装载过程执行的正确或错误信息),建立调度控制程序,根据抽取调度表动态调度抽取函数,并将抽取的数据保存入平面文件。

    平面文件的命名规则为:目标数据表名.txt

    该清洗函数可由调度控制程序在数据抽取前进行统一调度,针对ETL涉及的源数据库中数据表,根据数据质量分析的结果,建立数据抽取前的清洗函数。也可分散到各个抽取函数中调度。清洗函数的命名规则为:F_源数据表名_T_C

    针对ETL涉及的源数据库中数据表,如果需要转换的代码数据值长度无变化或变化不大,根据代码数据差异分析的结果,考虑对源数据表中引用的代码在抽取前进行转换。抽取前转换需要建立代码转换函数,代码转换函数由调度控制程序在数据抽取前进行统一调度;代码转换函数的命名规则为:F_源数据表名_T_DM。对新旧代码编码规则差异较大的代码,考虑在抽取过程中进行转换,根据代码数据差异分析的结果,调整所有涉及该代码数据的抽取函数。

    看到这里的小伙伴们,为你开心,因为你的知识又多了两麻袋。关于数据抽取与分析还有很多知识要学习,但其实,希望你不要懈怠啊,小编会满怀着期待去和你在下篇文章中不期而遇,你呢?

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

还不快来了解一下非结构化数据吗

还不快来了解一下非结构化数据吗

在上篇文章中,小编讲了什么是结构化数据,本文,就具体来看下何为非结构化数据吧。 非结构化数据本质上是结构化数据以外的所有数据。被存储在非关系型数据库,这不符合任何预定义的模式,并使用NoSQL的查询。它可能是通过文字或非文字,也可能是由于生成的人或机器。

2022-11-22 16:14:15

论你不知道的大数据和云计算的关系

论你不知道的大数据和云计算的关系

在互联网的大数据时代,现代社会正在以难以想象的速度生产数据,手机电脑、包裹都在生成数据,我们将进入大数据时代的新开端。

2020-03-11 16:19:43

永洪科技入选大数据创新排行榜

永洪科技入选大数据创新排行榜

因为永洪科技从诞生之日起便把创新作为核心基因,所以能够进入大数据创新榜单。最新发布的Yonghong Z-Suite V9.0带来了整体性能提高200%、计算性能提升50%,10大类百余项特征的新突破,以更出色的性能、更丰富的场景,在更敏捷、更快速、更强大

2022-11-22 10:58:05

大数据开发平台系统架构都包含什么?

大数据开发平台系统架构都包含什么?

今天,我们从来看大数据平台的角度,作一简要介绍了大数据系统架构模块。企业要首先就需要基于自身的需求,来设计搭建数据系统平台,开展大数据相关业务。而大数据系统平台的搭建,进行系统架构规划,则需要基于实际需求。

2022-11-22 16:33:11

浅谈何为结构化数据和其作用有哪些

浅谈何为结构化数据和其作用有哪些

在这个网络时代,数据对我们来说是非常重要的,我们每个人的工作和生活都会产生大量的数据。本文,简单谈一下何为结构化数据和其作用都有哪些。 结构化数据,你可以简单的把它理解为一个数据库。结合到典型应用场景中更容易进行理解,比如企业ERP、财务管理系统;医疗H

2022-11-21 11:05:19

大数据应用:理解“替代数据”的必要性

大数据应用:理解“替代数据”的必要性

从多家有名大数据公司内部人员被警方带走,到《小我金融信息(数据)保护试行办法》酝酿出台的消息在业内传开,个人隐私保护的话题在金融行业再度升温,在金融服务行业中,大数据的应用带来了人工进行智能和科技化的成果,带来了过去几十年都不曾发生的突飞猛进

2020-03-13 16:48:59

严选云产品

威努特蜜罐诱捕系统HTS 蜜罐(honeypot)用于欺骗攻击者并跟踪攻击者,通过布置一些作为诱饵的主机或网络服务,诱使攻击方对他们实施攻击,从而可以对攻击行为进行捕获和分析。在攻击者侦查阶段就能第一时间有效感知入侵行为,引诱、迷惑攻击者,提供几乎无缺陷的检测,有效快速识别威胁。
有赞微商城电商解决方案 有赞微商城电商解决方案,以消费者为中心,打通“连接、触达、转化、忠诚”的消费者历程,无需技术开发,丰富的装修组件和行业模板,拖拽式装修,店铺搭建方便、美观。可售卖实物商品、电子卡券、付费优惠券等商品类型,至有赞分销市场成为供货商或分销商,拓展商品销售渠道,丰富品类。
鲁班协同 鲁班协同(Luban Cooperation)定位为企业级、跨组织的协同管理工作,通过发起流程或发起协作的方式将参建各方的传统线下工作流在线上完成。
夏谷软件国企人力资源解决方案 通过夏谷DHR人力资源系统的使用和不断改进,构建高效的数字化管理平台,满足资源共享、信息互通要求,规范各项业务流程,实现人力资源管理流程信息化,形成集资源管理、业务操作、综合信息和研究分析等功能为一体,具有数据集成、资源共享、功能完善、简单实用等特点的决策辅助平台。
简道云中小型企业零代码项目生产解决方案 简道云中小型企业零代码项目生产解决方案,本方案以PDM场景模块为主,结合简道云其他制造业方案完成PLM全部场景。通过数据工厂处理好的数据,可以在简道云仪表盘上面通过统计图表进行汇总展示可展现。PDM为ERP、MES系统提供基础数据,沉淀质量经验。
壹合原码金融智能聊天机器人 中文领域金融销售智能聊天机器人:为金融、风投、销售企业客户提供从知识建模、构建、理解、计算到应用的知识图谱全生命周期解决方案。在聊天系统中,提供信息满足类检索服务,低成本、快速构建高质量的行业知识图谱,更智能的发挥行业数据价值。

甄选10000+数字化产品 为您免费使用

申请试用