立即咨询

电话咨询

微信咨询

立即试用
商务合作

你知道数据抽取和转换的准备有哪些

2022-11-21

 

    数据抽取前,需要作大量的准备工作,具体归纳为如下4个部分:

    针对目标数据库中的每张数据表,根据映射关系中记录的转换加工描述,建立抽取函数。抽取函数的命名规则为:F_目标数据表名_E。根据抽取函数的SQL语句进行优化,该映射关系为前期数据差异分析的结果。可以采用的优化方式为:调整SORTAREA_SIZEHASH_AREA_SIZE等参数设置、启动并行查询、采用提示指定优化器、创建临时表、对源数据表作ANALYZES、增加索引,建立调度控制表,包括ETL函数定义表(记录抽取函数、转换函数、清洗函数和装载函数的名称和参数)、抽取调度表(记录待调度的抽取函数)、装载调度表(记录待调度的装载信息)、抽取日志表(记录各个抽取函数调度的起始时间和结束时间以及抽取的正确或错误信息)、装载日志表(记录各个装载过程调度的起始时间和结束时间以及装载过程执行的正确或错误信息),建立调度控制程序,根据抽取调度表动态调度抽取函数,并将抽取的数据保存入平面文件。

    平面文件的命名规则为:目标数据表名.txt

    该清洗函数可由调度控制程序在数据抽取前进行统一调度,针对ETL涉及的源数据库中数据表,根据数据质量分析的结果,建立数据抽取前的清洗函数。也可分散到各个抽取函数中调度。清洗函数的命名规则为:F_源数据表名_T_C

    针对ETL涉及的源数据库中数据表,如果需要转换的代码数据值长度无变化或变化不大,根据代码数据差异分析的结果,考虑对源数据表中引用的代码在抽取前进行转换。抽取前转换需要建立代码转换函数,代码转换函数由调度控制程序在数据抽取前进行统一调度;代码转换函数的命名规则为:F_源数据表名_T_DM。对新旧代码编码规则差异较大的代码,考虑在抽取过程中进行转换,根据代码数据差异分析的结果,调整所有涉及该代码数据的抽取函数。

    看到这里的小伙伴们,为你开心,因为你的知识又多了两麻袋。关于数据抽取与分析还有很多知识要学习,但其实,希望你不要懈怠啊,小编会满怀着期待去和你在下篇文章中不期而遇,你呢?

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

热门数字化产品

炎黄盈动AWS PaaS低代码平台炎黄盈动AWS PaaS低代码平台,PaaS是数字化转型的基石,支撑/探索不同发展级别的能力要求,以强大低代码能力 + 全场景BPM优势,引领国内PaaS市场发展。平台总体架构,成熟稳定、简单强大,轻,微应用,满足持续、大规模构建核心业务的苛刻要求。
精臣云资产固定资产管理系统精臣云资产固定资产管理系统提供全生命周期的资产管理解决方案。它通过云计算和物联网技术,实现资产的实时追踪与管理,支持资产盘点、折旧计算、维修记录等功能。系统特点包括采购管理、资产入库、日常管理、标签打印、资产盘点、耗材管理、单据审批和资产报表等。精臣云资产旨在提升资产管理的透明度和效率,降低管理成本,适用于多种企业场景。
飞画flyDrop飞屏显示控制系统是一款专业的多媒体展览展示控 制管理软件,系统采用先进的软件技术,创新性地将内容、智能设备(声光电)融为一体,为展厅、智慧运营中心、智慧楼宇等展览展示场景提供灵活、简单、 易用的控制解决方案,大大提高对创意内容、屏幕、空间、设备的调度能力,赋能屏幕,赋能智 慧生活。
艺赛旗桌面行为分析CDA艺赛旗桌面行为分析CDA,通过可视化录屏、用户行为数据化和基于大数据的智能行为分析,真实全面的记录“人”的行为,帮助企业防范信息泄露,避免商业欺诈,提高客户服务质量和员工工作效率。便捷、灵活的风险监管策略配置,更准确的定位员工的桌面操作行为和风险行为。
闪捷数据库水印系统闪捷数据库水印系统以水印数据为核心,构建数据流转安全路径,实现安全与业务双效平衡。提供丰富的API接口能力,支持用户通过API接口调用执行水印、溯源任务,查看任务执行监控等。最高水印性能可达每小时150G,助力产品满足客户大数据量高性能水印要求。
为你推荐
直播间在线人数卡在500上不去?天志互联抽盒系统从互动率破局

抖音算法推流核心指标是互动率而非GMV。天志互联直播抽盒系统从订单秒级上屏、一键拆盒、氛围引爆三个维度拉高互动率,驱动算法推流的正循环。

2026-06-26
品牌联名越做越亏?天志互联用游戏化体验共创重新定义IP营销

从"换皮联名"到"游戏化体验共创"——拆解彩棠敦煌联名案例的壁画修复小游戏设计逻辑、奶茶品牌联名翻车教训和中小品牌三条低成本高ROI的IP联名路径。

2026-06-26
一个人也能搭游戏化运营体系?低代码时代品牌运营的乐高式搭建指南

低代码时代品牌游戏化运营体系的"乐高式"搭建指南——从选模板、搭积分闭环、数据迭代到多活动并行管理和团队交接的全流程实操方法。

2026-06-26
私域社群打开率跌破3%以后:一个快消品牌的游戏化自救实验

一个快消品牌用游戏化方法三个月救活240个死群的完整复盘——从签到排行榜、互动任务、习惯养成到赛季制防疲劳的六周运营节奏拆解。

2026-06-26
品牌私域裂变怎么设计才不被骂?游戏化社交裂变的三个底线原则

游戏化社交裂变的三个底线原则深度拆解——让转发不像广告、让奖品有炫耀价值、给用户不转发的自由,加3%超级用户识别策略和三个常见翻车点避坑指南。

2026-06-26
查看更多