首页 > 数字化资讯 > 大数据 > 大数据时代需要确立数据清洗的规范和标准

大数据时代需要确立数据清洗的规范和标准

来源: 云巴巴 2019-09-16 20:08:50

数据的不断增加，形成“大数据时代”的突出特征..数据清理是大数据生产和交易的重要前提之一。目前，中国已形成基本的数据清洁行业格局，但由于各自的利益追求，仍存在许多问题。因此，今后我国应重点加强数据清洗环节的规范和标准，促进大数据产业健康发展。

越来越多的数据是未来的发展趋势。

在囊括环球的信息化海潮中，互联网、挪移互联网、云计算、物联网等手艺迅猛进展、加快立异，其中积淀的数据爆炸式增长，成为重要的生产要素和社会财富，堪称信息时代的矿产和石油。

鉴于这种前所未有的数据泛滥，如何在信息时代挖掘"数字油"，将"大数据"转化为伟大的智慧，大市场和大生态是我们时代的历史机遇。国务院曾明确提出，要加强新一代信息根底办法设置装备摆设和云计算、大数据的应用。

使用以传统方式构建的基本体系结构清理数据

必须清理，分析，建模和可视化大数据以反映其潜在价值。然而，由于网民数量的增加，业务应用的多样化和社会网络的繁荣，单一的文件(如日志文件、音视频文件等)。硬盘的读取速度和文件的存储成本越来越高。同时，政府、银行和保险公司都存在非结构化、不规范的数据。只有将这些数据收集整理成结构化的、常规的数据，才能提高企业的决策支持能力和政府决策服务水平，使其发挥应有的作用。

因此，当前的数据清理主要是将数据划分为结构化数据和非结构化数据，这些数据通过传统的数据提取，转换，加载（ETL）工具和分布式并行处理来实现。总体架构如图 1 所示。

数据清洗

具体来说，结构化数据可以存储在传统的关系数据库中。关系数据库在处理事务，及时响应和确保数据一致性方面具有天然优势。

非结构化数据可以存储在新型的分布式存储中，比如Hadoop的HDFS。分布式存储在系统的横向扩展性、存储成本、文件读取速度方面有着显著的优势。

另外，它是结构化和非结构化数据之间的数据迁移。如果要将传统结构化数据，例如关系型数据库中的数据导入到分布式存储中，可以利用sqoop等工具，先将关系型数据库(mysql、postgresql等)的表结构导入分布式数据库(Hive)，然后再向分布式数据库的表中导入结构化数据。

适合清洁工作的不同质量原始数据的分类

数据清洗是将多维、多源、多结构的数据进行聚合后，提取、转换和加载数据。在此过程中，除了纠正和修复系统中的一些错误数据之外，还要组织和组织数据并将其存储在新的存储介质中。其中，数据的质量至关重要。

常见的数据质量问题可以根据数据源的多少和所属层次(定义Scheme层和实例sample层)分为四类。

1）单数据源定义层违背字段约束条件（例如，日期出现 9 月 31 日），字段属性依赖冲突（例如，两条记录描述同一个人的某一个属性，但数值不一致），违反唯一性（同一个主键 ID 出现了多次）等。

第二类，单数据源实例层：单个属性值包含太多信息，拼写错误，空白值，噪声数据，数据重复，过期数据等。

第三类，多数据源的界说层：同一个实体的分歧称说(比方冰心和谢婉莹，用笔名仍是用真名)、同一种属性的分歧界说(比方字段长度定义不一致、字段类型不一致等)。

数据的维度、粒度不一致（例如，有的按 GB 记录存储量，有的按 TB 记录存储量；有的按照年度统计，有的按照月份统计），数据重复，拼写错误等。

除此之外，在数据处理过程中产生的二次数据，也会有噪声、重复或错误的情况。数据的调整和清理还涉及到格式、测量单元和数据标准化和归一化之间的相关性，从而对实验结果有很大的影响。通常这些问题可归因于不确定性。不确定性有两个内涵，即每个数据点本身的不确定性和数据点属性值的不确定性。前者可以用概率来描述，后者有多种描述，如描述属性值的概率密度函数、用方差表示的统计值等。

针对不同质量类型数据的不同清洁方法

针对上述数据质量中存在的空置、噪声、不一致等常见情况，可以采用人工检测、统计方法、聚类、分类、基于距离的方法、关联规则等方法实现数据清理。

过去，人工检测方法不仅耗费了大量的人力，物力和时间，而且在数据清理过程中也产生了许多衍生错误。最近，可视化作为一种有效的表示和交互方式，可用于提高数据错误识别和清理的效率，如图2所示。

数据清洗

图2中，a为社交网络图，无法显示任何数据异常；b为关联矩阵图，可以显示源数据的内部结构，但不利于寻找错误；c将源数据按照矩阵视图重排，比较容易发现矩阵右下角的数据缺失。

其他方法的优劣对比如表1所示。

表1 数据清洗方法的对比

数据清洗

根据缺陷数据类型的分类，数据清理可以分为两个核心问题：异常记录检测和重复记录检测。

异常记录检测。包括解析空值、错误值和不一致数据的方法。

对于零值的处理，一般采用均值、个数、最大值、最小值和中值填充等估计方法。但是，估值方法会引入错误，如果有更多的空值，结果会大大偏离。

对于误差值的处理，通常使用统计方法来处理它们，例如偏差分析，回归方程，正态分布等。也可以通过简单的规则库来识别错误，以检查数值范围或基于属性的约束关系。。

对于不一致的数据处理，主要表现为数据不满足完整性约束。通过分析数据字典、元数据等可以对数据之间的关系进行排序，并且可以进行校正。数据不一致往往是由于缺乏一套数据标准造成的，这也与相关部门未能落实相关标准有关。

重复数据的检测。其算法可以细分为基于字段匹配的算法、递归的字段匹配算法、Smith Waterman算法、基于编辑距离的字段匹配算法和改进余弦相似度函数。这些细分算法的对比如表2所示。

表2 重复数据的检测算法对比

数据清洗

随着信息量的迅速增长和智能工具的不断涌现，它是不相干的、重复的、错误的，甚至是拟人化的信息也会增加，这给大数据的清洗带来了巨大的挑战。例如，由于人工智能技术，尤其是深度学习技术的迅速发展，机器人发帖、聊天、发微博、抢票等现象司空见惯，如微软“小冰”和聊天机器人“wbot”在微博上频繁互动等。目前，判断社会对象是否为人已经成为图灵测试的范畴。如何区分数据是否由人类生成，如何清除机器人生成的数据将对用户轨迹跟踪，网络公众意见分析和用户图像生成产生重大影响。鉴于上述问题，目前可以从两个方面对数据进行处理。

第一，限制内容产生。例如，可通过微博的实名制、论坛签到制、发帖验证码、网络爬虫的Robots协议等来完成。然而，随着模式识别技术的飞速发展，普通的验证码很难自动屏蔽和填充验证码。因此，验证代码也在朝着日益复杂的方向发展。例如12306使用一组近似图片，需要用户选出多个正确答案才能进行购票。

第二，改进数据清洗方法。根据行业规则和技术特征清洁机器人生成的数据。例如，基于主流搜索引擎会在用户代理中留下其特定关键字、网络爬虫一般会用HEAD发起请求等特征，可通过识别相应关键字、只保留GET请求等方法，过滤掉机器人产生的数据。另外，可以基于用户发布时间，频率，IP地址等来执行数据建模，并且使用机器生成和数据挖掘方法来过滤掉由机器人生成的内容。

中国的数据清理已形成基本的产业结构

在"大数据"时代，数据正成为一种生产手段，成为一个稀有的资产和新兴行业。"大数据"产业已被提升到国家战略的高度。随着创新驱动发展战略的实施，产业链上下游形成创新"大数据"产业生态环境。数据清洗是大数据产业链的一个重要组成部分，它可以将数据清洗行业细分为文本、语音、视频和地理信息。

1.1。文本清理区域。基于自然语言处理技术，通过分词、语料库标注、词典构建等技术，从结构化和非结构化数据中提取有效信息，提高数据处理效率。

2.语音数据加工领域。它主要是基于语音信号的特征提取，利用隐马尔可夫模型等算法进行模式匹配和音频处理。

3.视频图像处理领域。它主要是基于图像采集、边缘识别、图像分割、特征提取等环节，实现人脸识别、车牌标注、医学分析等实际应用。

4.地理信息处理领域。基于栅格图像和矢量图像，对地理信息数据进行处理，实现可视化、区域识别、位置标注等应用。

加强数据清理的规范和标准，促进产业发展

据统计，大数据开发过程中花在数据清理上的时间比例高达60％或更多。加快数据标准化，降低数据清洗成本已成为我国大数据产业必须克服的障碍。

一是加快跨行业数据标准的总体制定。行业的垂直构建在多个行业之间甚至行业的多个部门之间形成了分散的数据资源。数据以各种形式分散在各种行业，同样的数据、数据标准和同类数据的重复采集等问题给"大数据"的发展带来了极大的挑战。因此，迫切需要制定跨行业的数据标准，规范数据的收集，输入，传输，处理等过程，加快数据的整合和创新。

第二，实施国家和行业标准的数据。在一些行业中，数据输入、统计和其他国家和行业标准已经建立，数据字典已经标准化。然而，许多企业为了维护自己的市场限制，开发定制的程序应用和数据传输接口，也给数据清理带来额外的负担，而后期系统的维护成本很高。在这方面，有关管理部门应加强国家标准和数据标准的实施。

第三，确保数据清理过程中的数据安全。在《关于加强党政部门云计算服务网络安全管理的意见》中，CNN新闻办公室明确界定了云计算的数据归属、管理标准和跨境数据流的权力和责任。数据清洗加工的相关企业应该着重在数据访问、脱密、传输、处理和销毁等过程中加强对数据资源的安全保护，确保数据所有者的责任，以及数据在处理前后的完整性、机密性和可用性，防止数据被第三方攫取并通过“暗网”等渠道进行数据跨境交易。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里！

话题:

大数据

评论列表

2020-03-12 09:18:41

严选云产品

品览AI智能工程设计云平台品览AI智能工程设计云平台，筑绘通采用云原生架构，计算等高负荷计算工作全部放在云端，可在任何常用设备打开看图或完成设计。真正的协同体验，他人修改的成果会立刻在模型中反映。使多专业设计师均可在平台中进行协作，始终查看最新成功。

网御星云漏洞扫描系统网御漏洞扫描系统是网御星云自主研发的基于网络的脆弱性分析、评估与管理系统。提供对主机、操作系统以及网络设备的脆弱性检查、评估与管理。

寄云科技安全生产管控系统PSS 寄云科技安全生产管控系统PSS，安全生产管理平台完全满足应急管理部提出的要求，并具备一定程度的扩展性；一体化集成的解决方案，性能稳定，安装简便，监测种类齐全；B/S软件架构监测平台，通过WEB浏览器即可查看系统监测数据和管理，方便快捷、兼容性强。

亚信安全运营商数据安全解决方案亚信安全运营商数据安全解决方案，可对分级管控策略进行自定义调整，通过与风险基线模型进行场景监测，发现数据流转过程中数据资产、接口实时监测中产生的安全风险，生成相应预警。为了适配移动磐基云容器化部署，需要对数据安全管控，数据安全运营进行容器化改造优化。

销售易智能分析云销售易智能分析云精准预测未来助力企业及时决策推动绩效提高和业务增长，敏捷自助任何人都可以灵活定制报表，数据实时更新在任何时候都可以掌握最新数据，立即行动。

十维元客超写实3D数字人十维元客超写实3D数字人，搭载自研数字人创作引擎、AIGC直播引擎，一站式提供形象生成/定制、形象驱动、超写实3D虚拟人直播/短视频等服务。助力企业搭建未来化、多元化、IP化的虚拟形象应用。

数字化社区

大数据时代需要确立数据清洗的规范和标准

评论列表

为你推荐

基于AI的数据中心运维大数据应用畅想

大数据时代，主要的核心技术是什么？

大数据时代对我们的生活产生了什么影响？

电话营销中“数据管理”需求的数据的运用

你不知道的关于大数据的那些政策支持（二）

关于工业大数据应用所需要的几种能力的思考

严选云产品

推荐视频