大数据时代需要确立数据清洗的规范和标准-云巴巴

立即咨询

立即试用

商务合作

2019-09-16

数据的不断增加，形成“大数据时代”的突出特征..数据清理是大数据生产和交易的重要前提之一。目前，中国已形成基本的数据清洁行业格局，但由于各自的利益追求，仍存在许多问题。因此，今后我国应重点加强数据清洗环节的规范和标准，促进大数据产业健康发展。

越来越多的数据是未来的发展趋势。

在囊括环球的信息化海潮中，互联网、挪移互联网、云计算、物联网等手艺迅猛进展、加快立异，其中积淀的数据爆炸式增长，成为重要的生产要素和社会财富，堪称信息时代的矿产和石油。

鉴于这种前所未有的数据泛滥，如何在信息时代挖掘"数字油"，将"大数据"转化为伟大的智慧，大市场和大生态是我们时代的历史机遇。国务院曾明确提出，要加强新一代信息根底办法设置装备摆设和云计算、大数据的应用。

使用以传统方式构建的基本体系结构清理数据

必须清理，分析，建模和可视化大数据以反映其潜在价值。然而，由于网民数量的增加，业务应用的多样化和社会网络的繁荣，单一的文件(如日志文件、音视频文件等)。硬盘的读取速度和文件的存储成本越来越高。同时，政府、银行和保险公司都存在非结构化、不规范的数据。只有将这些数据收集整理成结构化的、常规的数据，才能提高企业的决策支持能力和政府决策服务水平，使其发挥应有的作用。

因此，当前的数据清理主要是将数据划分为结构化数据和非结构化数据，这些数据通过传统的数据提取，转换，加载（ETL）工具和分布式并行处理来实现。总体架构如图 1 所示。

数据清洗

具体来说，结构化数据可以存储在传统的关系数据库中。关系数据库在处理事务，及时响应和确保数据一致性方面具有天然优势。

非结构化数据可以存储在新型的分布式存储中，比如Hadoop的HDFS。分布式存储在系统的横向扩展性、存储成本、文件读取速度方面有着显著的优势。

另外，它是结构化和非结构化数据之间的数据迁移。如果要将传统结构化数据，例如关系型数据库中的数据导入到分布式存储中，可以利用sqoop等工具，先将关系型数据库(mysql、postgresql等)的表结构导入分布式数据库(Hive)，然后再向分布式数据库的表中导入结构化数据。

适合清洁工作的不同质量原始数据的分类

数据清洗是将多维、多源、多结构的数据进行聚合后，提取、转换和加载数据。在此过程中，除了纠正和修复系统中的一些错误数据之外，还要组织和组织数据并将其存储在新的存储介质中。其中，数据的质量至关重要。

常见的数据质量问题可以根据数据源的多少和所属层次(定义Scheme层和实例sample层)分为四类。

1）单数据源定义层违背字段约束条件（例如，日期出现 9 月 31 日），字段属性依赖冲突（例如，两条记录描述同一个人的某一个属性，但数值不一致），违反唯一性（同一个主键 ID 出现了多次）等。

第二类，单数据源实例层：单个属性值包含太多信息，拼写错误，空白值，噪声数据，数据重复，过期数据等。

第三类，多数据源的界说层：同一个实体的分歧称说(比方冰心和谢婉莹，用笔名仍是用真名)、同一种属性的分歧界说(比方字段长度定义不一致、字段类型不一致等)。

数据的维度、粒度不一致（例如，有的按 GB 记录存储量，有的按 TB 记录存储量；有的按照年度统计，有的按照月份统计），数据重复，拼写错误等。

除此之外，在数据处理过程中产生的二次数据，也会有噪声、重复或错误的情况。数据的调整和清理还涉及到格式、测量单元和数据标准化和归一化之间的相关性，从而对实验结果有很大的影响。通常这些问题可归因于不确定性。不确定性有两个内涵，即每个数据点本身的不确定性和数据点属性值的不确定性。前者可以用概率来描述，后者有多种描述，如描述属性值的概率密度函数、用方差表示的统计值等。

针对不同质量类型数据的不同清洁方法

针对上述数据质量中存在的空置、噪声、不一致等常见情况，可以采用人工检测、统计方法、聚类、分类、基于距离的方法、关联规则等方法实现数据清理。

过去，人工检测方法不仅耗费了大量的人力，物力和时间，而且在数据清理过程中也产生了许多衍生错误。最近，可视化作为一种有效的表示和交互方式，可用于提高数据错误识别和清理的效率，如图2所示。

数据清洗

图2中，a为社交网络图，无法显示任何数据异常；b为关联矩阵图，可以显示源数据的内部结构，但不利于寻找错误；c将源数据按照矩阵视图重排，比较容易发现矩阵右下角的数据缺失。

其他方法的优劣对比如表1所示。

表1 数据清洗方法的对比

数据清洗

根据缺陷数据类型的分类，数据清理可以分为两个核心问题：异常记录检测和重复记录检测。

异常记录检测。包括解析空值、错误值和不一致数据的方法。

对于零值的处理，一般采用均值、个数、最大值、最小值和中值填充等估计方法。但是，估值方法会引入错误，如果有更多的空值，结果会大大偏离。

对于误差值的处理，通常使用统计方法来处理它们，例如偏差分析，回归方程，正态分布等。也可以通过简单的规则库来识别错误，以检查数值范围或基于属性的约束关系。。

对于不一致的数据处理，主要表现为数据不满足完整性约束。通过分析数据字典、元数据等可以对数据之间的关系进行排序，并且可以进行校正。数据不一致往往是由于缺乏一套数据标准造成的，这也与相关部门未能落实相关标准有关。

重复数据的检测。其算法可以细分为基于字段匹配的算法、递归的字段匹配算法、Smith Waterman算法、基于编辑距离的字段匹配算法和改进余弦相似度函数。这些细分算法的对比如表2所示。

表2 重复数据的检测算法对比

数据清洗

随着信息量的迅速增长和智能工具的不断涌现，它是不相干的、重复的、错误的，甚至是拟人化的信息也会增加，这给大数据的清洗带来了巨大的挑战。例如，由于人工智能技术，尤其是深度学习技术的迅速发展，机器人发帖、聊天、发微博、抢票等现象司空见惯，如微软“小冰”和聊天机器人“wbot”在微博上频繁互动等。目前，判断社会对象是否为人已经成为图灵测试的范畴。如何区分数据是否由人类生成，如何清除机器人生成的数据将对用户轨迹跟踪，网络公众意见分析和用户图像生成产生重大影响。鉴于上述问题，目前可以从两个方面对数据进行处理。

第一，限制内容产生。例如，可通过微博的实名制、论坛签到制、发帖验证码、网络爬虫的Robots协议等来完成。然而，随着模式识别技术的飞速发展，普通的验证码很难自动屏蔽和填充验证码。因此，验证代码也在朝着日益复杂的方向发展。例如12306使用一组近似图片，需要用户选出多个正确答案才能进行购票。

第二，改进数据清洗方法。根据行业规则和技术特征清洁机器人生成的数据。例如，基于主流搜索引擎会在用户代理中留下其特定关键字、网络爬虫一般会用HEAD发起请求等特征，可通过识别相应关键字、只保留GET请求等方法，过滤掉机器人产生的数据。另外，可以基于用户发布时间，频率，IP地址等来执行数据建模，并且使用机器生成和数据挖掘方法来过滤掉由机器人生成的内容。

中国的数据清理已形成基本的产业结构

在"大数据"时代，数据正成为一种生产手段，成为一个稀有的资产和新兴行业。"大数据"产业已被提升到国家战略的高度。随着创新驱动发展战略的实施，产业链上下游形成创新"大数据"产业生态环境。数据清洗是大数据产业链的一个重要组成部分，它可以将数据清洗行业细分为文本、语音、视频和地理信息。

1.1。文本清理区域。基于自然语言处理技术，通过分词、语料库标注、词典构建等技术，从结构化和非结构化数据中提取有效信息，提高数据处理效率。

2.语音数据加工领域。它主要是基于语音信号的特征提取，利用隐马尔可夫模型等算法进行模式匹配和音频处理。

3.视频图像处理领域。它主要是基于图像采集、边缘识别、图像分割、特征提取等环节，实现人脸识别、车牌标注、医学分析等实际应用。

4.地理信息处理领域。基于栅格图像和矢量图像，对地理信息数据进行处理，实现可视化、区域识别、位置标注等应用。

加强数据清理的规范和标准，促进产业发展

据统计，大数据开发过程中花在数据清理上的时间比例高达60％或更多。加快数据标准化，降低数据清洗成本已成为我国大数据产业必须克服的障碍。

一是加快跨行业数据标准的总体制定。行业的垂直构建在多个行业之间甚至行业的多个部门之间形成了分散的数据资源。数据以各种形式分散在各种行业，同样的数据、数据标准和同类数据的重复采集等问题给"大数据"的发展带来了极大的挑战。因此，迫切需要制定跨行业的数据标准，规范数据的收集，输入，传输，处理等过程，加快数据的整合和创新。

第二，实施国家和行业标准的数据。在一些行业中，数据输入、统计和其他国家和行业标准已经建立，数据字典已经标准化。然而，许多企业为了维护自己的市场限制，开发定制的程序应用和数据传输接口，也给数据清理带来额外的负担，而后期系统的维护成本很高。在这方面，有关管理部门应加强国家标准和数据标准的实施。

第三，确保数据清理过程中的数据安全。在《关于加强党政部门云计算服务网络安全管理的意见》中，CNN新闻办公室明确界定了云计算的数据归属、管理标准和跨境数据流的权力和责任。数据清洗加工的相关企业应该着重在数据访问、脱密、传输、处理和销毁等过程中加强对数据资源的安全保护，确保数据所有者的责任，以及数据在处理前后的完整性、机密性和可用性，防止数据被第三方攫取并通过“暗网”等渠道进行数据跨境交易。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里！

热门数字化产品

查看详情

Tita OKRs-E企业目标管理平台拥抱人员管理新时代，人与组织融为一体，管理的内核是激活人心，实现企业的可持续发展。⼀个完整的⽬标管理框架，包含⽬标制定、⽬标达成检验，以及达成关键结果的具体执⾏计划。

查看详情

网易数帆有数BI有数BI是由网易数帆推出的一款企业级智能大数据敏捷分析平台。无需代码、PPT式简单拖拽即可轻松完成报告与大屏的制作。丰富的在线图表组件、可视化ETL操作、多终端智能预警等能力真正降低了用户的使用门槛，提高了数据使用效率，助力企业实现数据驱动决策。

查看详情

埃文科技IP风险画像埃文科技IP风险画像基于多维度数据信息、持续性IP风险验证机制和多级IP风险判定算法，实时关联IP的位置信息、应用场景、端口服务和设备风险信息等进行IP风险精准判定，并实行IP风险赋分、风险分级机制，简化业务应用门槛。IP风险画像产品可覆盖识别7种类型的风险IP，分别是VPN、代理、秒拨、数据中心、Tor节点、端口扫描、暴力破解。