通俗地讲,数据迁移是一种可以把大量不经常访问的数据存放在带库、盘库等离线介质上,只在盘阵上保存少量访问频率高的数据的技术,当那些磁带等介质上数据被访问时,系统自动 的把这些数据回迁到盘阵中;同样,从而大大降低投入和管理成本,盘阵中很久未访问的数据被自动迁移到磁带介质上。
这个关联数组使用Hash算法实现是比较合适也是最常见的,参照转换,在转换中通常要用数据源的一个或多个字段作为Key,去一个关联数组中去搜索特定值,而且应该只能得到唯一值。在整个ETL开始之前,它就装入内存,对性能提高的帮助非常大。
从数据源某个字符串字段中经常可以获取特定信息,字符串处理,例如身份证号。而且,经常会有数值型值以字符串形式体现,对字符串的操作通常有类型转换、字符串截取等。但是由于字符类型字段的随意性也造成了脏数据的隐患,所以在处理这种规则的时候,一定要加上异常处理。
对于空值的处理是数据仓库中一个常见问题,空值判断,是将它作为脏数据还是作为特定一种维成员?这恐怕还要看应用的情况,也是需要进一步探求的,但是无论怎样,对于可能有NULL值的字段,不要采用“直接映射”。
数据迁移的规则类型,必须对空值进行判断,我们的建议是将它转换成特定的值。
日期转换,不同于日期类型值的表示方法,在数据仓库中日期值一般都会有特定的,例如使用8位整型20040801表示日期。而在数据源中,这种字段基本都是日期类型的,所以对于这样的规则,需要一些共通函数来处理将日期转换为8位日期值、6位月份值等。日期运算,基于日期,我们通常会计算日差、月差、时长等。必须有一套自己的日期运算函数集,一般数据库提供的日期运算函数都是基于日期型的,而在数据仓库中采用特定类型来表示日期的话。
聚集运算,对于事实表中的度量字段,他们通常是通过数据源一个或多个字段运用聚集函数得来的,既定取值,这些聚集函数为SQL标准中,包括sum,count,avg,min,max,这种规则和以上各种类型规则的差别就在于它不依赖于数据源字段,对目标字段取一个固定的或是依赖系统的值。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!



抖音算法推流核心指标是互动率而非GMV。天志互联直播抽盒系统从订单秒级上屏、一键拆盒、氛围引爆三个维度拉高互动率,驱动算法推流的正循环。

从"换皮联名"到"游戏化体验共创"——拆解彩棠敦煌联名案例的壁画修复小游戏设计逻辑、奶茶品牌联名翻车教训和中小品牌三条低成本高ROI的IP联名路径。

低代码时代品牌游戏化运营体系的"乐高式"搭建指南——从选模板、搭积分闭环、数据迭代到多活动并行管理和团队交接的全流程实操方法。

一个快消品牌用游戏化方法三个月救活240个死群的完整复盘——从签到排行榜、互动任务、习惯养成到赛季制防疲劳的六周运营节奏拆解。

游戏化社交裂变的三个底线原则深度拆解——让转发不像广告、让奖品有炫耀价值、给用户不转发的自由,加3%超级用户识别策略和三个常见翻车点避坑指南。