大数据时代需要确立数据清洗的规范和标准

来源: 云巴巴 2019-09-16 20:08:50

数据的不断增加,形成“大数据时代”的突出特征..数据清理是大数据生产和交易的重要前提之一。目前,中国已形成基本的数据清洁行业格局,但由于各自的利益追求,仍存在许多问题。因此,今后我国应重点加强数据清洗环节的规范和标准,促进大数据产业健康发展。

越来越多的数据是未来的发展趋势。

在囊括环球的信息化海潮中,互联网、挪移互联网、云计算、物联网等手艺迅猛进展、加快立异,其中积淀的数据爆炸式增长,成为重要的生产要素和社会财富,堪称信息时代的矿产和石油。

鉴于这种前所未有的数据泛滥,如何在信息时代挖掘"数字油",将"大数据"转化为伟大的智慧,大市场和大生态是我们时代的历史机遇。国务院曾明确提出,要加强新一代信息根底办法设置装备摆设和云计算、大数据的应用。

使用以传统方式构建的基本体系结构清理数据

必须清理,分析,建模和可视化大数据以反映其潜在价值。然而,由于网民数量的增加,业务应用的多样化和社会网络的繁荣,单一的文件(如日志文件、音视频文件等)。硬盘的读取速度和文件的存储成本越来越高。同时,政府、银行和保险公司都存在非结构化、不规范的数据。只有将这些数据收集整理成结构化的、常规的数据,才能提高企业的决策支持能力和政府决策服务水平,使其发挥应有的作用。

因此,当前的数据清理主要是将数据划分为结构化数据和非结构化数据,这些数据通过传统的数据提取,转换,加载(ETL)工具和分布式并行处理来实现。总体架构如图 1 所示。

数据清洗

具体来说,结构化数据可以存储在传统的关系数据库中。关系数据库在处理事务,及时响应和确保数据一致性方面具有天然优势。

非结构化数据可以存储在新型的分布式存储中,比如Hadoop的HDFS。分布式存储在系统的横向扩展性、存储成本、文件读取速度方面有着显著的优势。

另外,它是结构化和非结构化数据之间的数据迁移。如果要将传统结构化数据,例如关系型数据库中的数据导入到分布式存储中,可以利用sqoop等工具,先将关系型数据库(mysql、postgresql等)的表结构导入分布式数据库(Hive),然后再向分布式数据库的表中导入结构化数据。

适合清洁工作的不同质量原始数据的分类

数据清洗是将多维、多源、多结构的数据进行聚合后,提取、转换和加载数据。在此过程中,除了纠正和修复系统中的一些错误数据之外,还要组织和组织数据并将其存储在新的存储介质中。其中,数据的质量至关重要。

常见的数据质量问题可以根据数据源的多少和所属层次(定义Scheme层和实例sample层)分为四类。

1)单数据源定义层违背字段约束条件(例如,日期出现 9 月 31 日),字段属性依赖冲突(例如,两条记录描述同一个人的某一个属性,但数值不一致),违反唯一性(同一个主键 ID 出现了多次)等。

第二类,单数据源实例层:单个属性值包含太多信息,拼写错误,空白值,噪声数据,数据重复,过期数据等。

第三类,多数据源的界说层:同一个实体的分歧称说(比方冰心和谢婉莹,用笔名仍是用真名)、同一种属性的分歧界说(比方字段长度定义不一致、字段类型不一致等)。

数据的维度、粒度不一致(例如,有的按 GB 记录存储量,有的按 TB 记录存储量;有的按照年度统计,有的按照月份统计),数据重复,拼写错误等。

除此之外,在数据处理过程中产生的二次数据 ,也会有噪声、重复或错误的情况。数据的调整和清理还涉及到格式、测量单元和数据标准化和归一化之间的相关性,从而对实验结果有很大的影响。通常这些问题可归因于不确定性。不确定性有两个内涵,即每个数据点本身的不确定性和数据点属性值的不确定性。前者可以用概率来描述,后者有多种描述,如描述属性值的概率密度函数、用方差表示的统计值等。

针对不同质量类型数据的不同清洁方法

针对上述数据质量中存在的空置、噪声、不一致等常见情况,可以采用人工检测、统计方法、聚类、分类、基于距离的方法、关联规则等方法实现数据清理。

过去,人工检测方法不仅耗费了大量的人力,物力和时间,而且在数据清理过程中也产生了许多衍生错误。最近,可视化作为一种​​有效的表示和交互方式,可用于提高数据错误识别和清理的效率,如图2所示。

数据清洗

图2中,a为社交网络图,无法显示任何数据异常;b为关联矩阵图,可以显示源数据的内部结构,但不利于寻找错误;c将源数据按照矩阵视图重排,比较容易发现矩阵右下角的数据缺失。

其他方法的优劣对比如表1所示。

表1  数据清洗方法的对比

数据清洗

根据缺陷数据类型的分类,数据清理可以分为两个核心问题:异常记录检测和重复记录检测。

异常记录检测。包括解析空值、错误值和不一致数据的方法。

对于零值的处理,一般采用均值、个数、最大值、最小值和中值填充等估计方法。但是,估值方法​​会引入错误,如果有更多的空值,结果会大大偏离。

对于误差值的处理,通常使用统计方法来处理它们,例如偏差分析,回归方程,正态分布等。也可以通过简单的规则库来识别错误,以检查数值范围或基于属性的约束关系。 。

对于不一致的数据处理,主要表现为数据不满足完整性约束。通过分析数据字典、元数据等可以对数据之间的关系进行排序,并且可以进行校正。数据不一致往往是由于缺乏一套数据标准造成的,这也与相关部门未能落实相关标准有关。

重复数据的检测。其算法可以细分为基于字段匹配的算法、递归的字段匹配算法、Smith Waterman算法、基于编辑距离的字段匹配算法和改进余弦相似度函数。这些细分算法的对比如表2所示。

表2  重复数据的检测算法对比

数据清洗

随着信息量的迅速增长和智能工具的不断涌现,它是不相干的、重复的、错误的,甚至是拟人化的信息也会增加,这给大数据的清洗带来了巨大的挑战。例如,由于人工智能技术,尤其是深度学习技术的迅速发展,机器人发帖、聊天、发微博、抢票等现象司空见惯,如微软“小冰”和聊天机器人“wbot”在微博上频繁互动等。目前,判断社会对象是否为人已经成为图灵测试的范畴。如何区分数据是否由人类生成,如何清除机器人生成的数据将对用户轨迹跟踪,网络公众意见分析和用户图像生成产生重大影响。鉴于上述问题,目前可以从两个方面对数据进行处理。

第一,限制内容产生。例如,可通过微博的实名制、论坛签到制、发帖验证码、网络爬虫的Robots协议等来完成。然而,随着模式识别技术的飞速发展,普通的验证码很难自动屏蔽和填充验证码。因此,验证代码也在朝着日益复杂的方向发展。例如12306使用一组近似图片,需要用户选出多个正确答案才能进行购票。

第二,改进数据清洗方法。根据行业规则和技术特征清洁机器人生成的数据。例如,基于主流搜索引擎会在用户代理中留下其特定关键字、网络爬虫一般会用HEAD发起请求等特征,可通过识别相应关键字、只保留GET请求等方法,过滤掉机器人产生的数据。另外,可以基于用户发布时间,频率,IP地址等来执行数据建模,并且使用机器生成和数据挖掘方法来过滤掉由机器人生成的内容。

中国的数据清理已形成基本的产业结构

在"大数据"时代,数据正成为一种生产手段,成为一个稀有的资产和新兴行业。"大数据"产业已被提升到国家战略的高度。随着创新驱动发展战略的实施,产业链上下游形成创新"大数据"产业生态环境。数据清洗是大数据产业链的一个重要组成部分,它可以将数据清洗行业细分为文本、语音、视频和地理信息。

1.1。文本清理区域。基于自然语言处理技术,通过分词、语料库标注、词典构建等技术,从结构化和非结构化数据中提取有效信息,提高数据处理效率。

2.语音数据加工领域。它主要是基于语音信号的特征提取,利用隐马尔可夫模型等算法进行模式匹配和音频处理。

3.视频图像处理领域。它主要是基于图像采集、边缘识别、图像分割、特征提取等环节,实现人脸识别、车牌标注、医学分析等实际应用。

4.地理信息处理领域。基于栅格图像和矢量图像,对地理信息数据进行处理,实现可视化、区域识别、位置标注等应用。

加强数据清理的规范和标准,促进产业发展

据统计,大数据开发过程中花在数据清理上的时间比例高达60%或更多。加快数据标准化,降低数据清洗成本已成为我国大数据产业必须克服的障碍。

一是加快跨行业数据标准的总体制定。行业的垂直构建在多个行业之间甚至行业的多个部门之间形成了分散的数据资源。数据以各种形式分散在各种行业,同样的数据、数据标准和同类数据的重复采集等问题给"大数据"的发展带来了极大的挑战。因此,迫切需要制定跨行业的数据标准,规范数据的收集,输入,传输,处理等过程,加快数据的整合和创新。

第二,实施国家和行业标准的数据。在一些行业中,数据输入、统计和其他国家和行业标准已经建立,数据字典已经标准化。然而,许多企业为了维护自己的市场限制,开发定制的程序应用和数据传输接口,也给数据清理带来额外的负担,而后期系统的维护成本很高。在这方面,有关管理部门应加强国家标准和数据标准的实施。

第三,确保数据清理过程中的数据安全。在《关于加强党政部门云计算服务网络安全管理的意见》中,CNN新闻办公室明确界定了云计算的数据归属、管理标准和跨境数据流的权力和责任。数据清洗加工的相关企业应该着重在数据访问、脱密、传输、处理和销毁等过程中加强对数据资源的安全保护,确保数据所有者的责任,以及数据在处理前后的完整性、机密性和可用性,防止数据被第三方攫取并通过“暗网”等渠道进行数据跨境交易。

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

大数据与人工智能的结合有多强大?

大数据与人工智能的结合有多强大?

新冠肺炎疫情对我们的商业模式、生活方式等很多方面产生了重大影响,但它并未削弱大数据和人工智能所发挥的影响。在疫情肆虐之际,能够自我学习的算法和智能机器将在抗击疫情的斗争中,以及未来可能面临的其他事件中发挥重大作用。

2022-11-22 16:36:29

智能运维大数据平台的相关的知识介绍

智能运维大数据平台的相关的知识介绍

智能运维大数据信息平台由数据进行采集层、数据可以存储层、数据技术分析问题建模层、展示层等组成。 层是数据采集和整个数据源平台处理大量的数据,智能运维操作和访问日志数据类型包括数据,性能数据,网络数据采集,用户行为数据,报警数据,数据配置管理,运行和维护类

2022-11-22 10:10:29

大数据平台应该具备哪些实际功能

大数据平台应该具备哪些实际功能

大数据平台应该具备哪些实际功能呢?     一般的大数据平台的搭建对平台包括以下步骤中的数据的技术分析:     1、Linux系统安装     一般可以使用一个开源版的Redhat系统--CentOS作为社会底层技术平台。

2020-05-07 17:21:08

浅谈大数据行业现在人才需求情况

浅谈大数据行业现在人才需求情况

一个国家的富强和兴旺,都在于国家的科技发展,国家科学技术强大不强大,决定了一个民族的命运。现在,大数据行业是一个热门行业,而在本文中,小编就浅谈大数据行业现在人才需求情况,让我们赶快开始吧。 首先,了解大数据产业的整体需求,当前的信息对人类经济活动有着深

2022-11-22 15:20:23

你不知道的关于大数据的那些政策支持(一)

你不知道的关于大数据的那些政策支持(一)

李克强总理签发过程中,2015年9月,国务院发布“关于推进大数据行动纲要的发展”(以下简称“纲要”),部署大数据系统的开发工作。 《纲要》明确,推动大数据技术发展和应用,建立企业运行进行平稳、安全管理高效的经济市场运行新机制,在未来5至10年打造一个精准

2022-11-22 10:05:59

严选云产品

企企通SRM采购协同管理系统 采购部门作为用户和生产厂家之间的枢纽与桥梁,在企业采购供应链中处于核心地位。为赋能企业智能采购,企企通采购协同平台适配不同的采购场景,提供多种采购与增值服务,帮助企业高效管理各类采购需求,实现采购协同,构建一站式智能采购管理解决方案。
腾讯云云图站桌面云设计制造行业解决方案 腾讯云云图站桌面云设计制造行业解决方案云端访问,多端隔离,数据留存于数据中心,保障业务快速连续。冗余设计保障数据恢复安全高效,资源池弹性设计,管控自如。 针对客户来说,方便的部署&管理,连续的业务,安全数据,移动获取等都是常规需求。知识产权属于企业核心利益,员工窃密,设计资料交流,传递面临外泄问题,任何形式的信息泄露都可能给企业带来不可逆的损失,保障信息安全关乎企业核心资产。数据保存经常面临人为破坏,物理损坏等风险。采用多种数据保护措施有效保障企业数据安全。
致远互联Formtalk云 Formtalk提供敏捷的云业务定制和一站式办公服务。
云安全状态管理 CloudGuard Dome9是用于公共云安全性和合规性流程的综合软件平台。使用Dome9,组织可以可视化和评估其安全状况,检测错误配置,建模并积极实施安全最佳实践,并防止身份盗用和云中的数据丢失。
35云邮企业邮箱 35云邮是三五旗下的企业邮箱产品,写信时支持发送3.5G超大附件,服务期限内持续保存,支持各种邮件终端访问35邮箱,Web浏览器、Outlook/Foxmail、移动设备等皆能使用。多人群发,设置独立发送后,收件人无法看到其他收件人信息。
云客连锁门店工作手机解决方案 云客连锁门店工作手机解决方案微信营销素材总部统一管理、统一下发,门店统一执行。赋能微信朋友圈文章营销,意向客户及时跟进。多维度多类型自定义微信优质话术,智能推荐沟通话术。微信多种方式拓展精准客户,自动批量添加好友。

甄选10000+数字化产品 为您免费使用

申请试用