大数据时代中的数据采集技术综述

来源: 云巴巴 2020-03-10 13:35:26

随着时代的发展,以大数据,人工智能,物联网,5G等词汇风靡全球,在网络的普及下,人类产生的数据量正在日益增长,大约每两年翻一番。面对如此巨大的数据,与之相关的采集、存储、分析等等环节产生了一系列的问题。如何收集这些数据并且进行转换分析存储以及有效率的分析成为巨大的挑战,需要有这样一个系统用来收集这样的数据,并且对数据进提取、转换、加载。

ETL,是英文 Extract-Transform-Load 的缩写,数据从数据来源端经过抽取(extract)、转换(transform)、加载(load)到目的端,然后进行处理分析的过程。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据模型,将数据加载到数据仓库中去,最后对数据仓库中的数据进行数据分析和处理。数据采集位于数据分析生命周期的重要一环,它通过传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。由于采集的数据种类错综复杂,对于这种不同种类的数据。我们进行数据分析,必须通过提取技术。将复杂格式的数据,进行数据提取,从数据原始格式中提取(extract)出我们需要的数据,这里可以丢弃一些不重要的字段。对于数据提取后的数据,由于数据源头的采集可能存在不准确。所以我们必须进行数据清洗,对于那些不正确的数据进行过滤、剔除。针对不同的应用场景,对数据进行分析的工具或者系统不同,我们还需要对数据进行数据转换(transform)操作,将数据转换成不同的数据格式,最终按照预先定义好的数据仓库模型,将数据加载(load)到数据仓库中去。

在现实生活中,数据产生的种类很多,并且不同种类的数据产生的方式不同。对于大数据采集系统,主要分为以下三类系统:

一、系统日志采集系统。许多公司的业务平台每天都会产生大量的日志数据。对于这些日志信息,我们可以得到出很多有价值的数据。通过对这些日志信息进行日志采集、收集,然后进行数据分析,挖掘公司业务平台日志数据中的潜在价值。为公司决策和公司后台服务器平台性能评估提高可靠的数据保证。系统日志采集系统做的事情就是收集日志数据提供离线和在线的实时分析使用。目前常用的开源日志收集系统有FlumeScribe等。 Apache Flume是一个分布式、可靠、可用的服务,用于高效地收集、聚合和移动 大量的日志数据,它具有基于流式数据流的简单灵活的架构。其可靠性机制和许多故障转移和恢复机制,使Flume具有强大的容错能力。ScribeFacebook开源的日志采集系统。Scribe实际上是一个

分布式共享队列,它可以从各种数据源上收集日志数据,然后放入它上面的共享队列中。Scribe可以接受thrift client发送过来的数据,将其放入它上面的消息队列中。然后通过消息队列将数据Push到分布式存储系统中,并且由分布式存储系统提供可靠的容错性能。如果最后的分布式存储系统crash时,Scribe中的消息队列还可以提供容错能力,它会还日志数据写到本地磁盘中。Scribe支持持久化的消息队列,来提供日志收集系统的容错能力。

二、网络数据采集系统。通过网络爬虫和一些网站平台提供的公共API(Twitter和新浪微博API)等方式从网站上获取数据。这样就可以将非结构化数据和半结构化数据的网页数据从网页中提取出来。并将其提取、清洗、转换成结构化的数据,将其存储为统一的本地文件数据。目前常用的网页爬虫系统有Apache NutchCrawler4jScrapy等框架。Apache Nutch是一个高度可扩展和可伸缩性的分布式爬虫框架。Apache通过分布式抓取网页数据,并且由Hadoop支持,通过提交MapReduce任务来抓取网页数据,并可以将网页数据存储在HDFS分布式文件系统中。Nutch可以进行分布式多任务进行爬取数据,存储和索引。由于多个机器并行做爬取任务,Nutch利用多个机器充分利用机器的计算资源和存储能力,大大提高系统爬取数据能力。Crawler4jScrapy都是一个爬虫框架,提供给开发人员便利的爬虫API接口。开发人员只需要关心爬虫API接口的实现,不需要关心具体框架怎么爬取数据。Crawler4jScrapy框架大大降低了开发人员开发速率,开发人员可以很快的完成一个爬虫系统的开发。

 

   三、数据库采集系统。一些企业会使用传统的关系型数据库MySQLOracle等来存储数据。除此之外,RedisMongoDB这样的NoSQL数据库也常用于数据的采集。企业每时每刻产生的业务数据,以数据库一行记录形式被直接写入到数据库中。通过数据库采集系统直接与企业业务后台服务器结合,将企业业务后台每时每刻都在产生大量的业务记录写入到数据库中,最后由特定的处理分许系统进行系统分析。

   针对大数据采集技术,目前主要流行以下大数据采集分析技术。HiveFacebook团队开发的一个可以支持PB级别的可伸缩性的数据仓库。这是一个建立在Hadoop之上的开源数据仓库解决方案。 Hive支持使用类似SQL的声明性语言(HiveQL)表示的查询,这些语言被编译为使用Hadoop执行的MapReduce作业。另外,HiveQL使用户可以将自定义的map-reduce脚本插入到查询中。该语言支持基本数据类型,类似数组和Map的集合以及嵌套组合。 HiveQL语句被提交执行。首先Driver将查询传递给编译器compiler,通过典型的解析,类型检查和语义分析阶段,使用存储在Metastore中的元数据。编译器生成一个逻辑任务,然后通过一个简单的基于规则的优化器进行优化。最后生成一组MapReduce任务和HDFS TaskDAG优化后的Task。 然后执行引擎使用Hadoop按照它们的依赖性顺序执行这些TaskHive简化了对于那些不熟悉Hadoop MapReduce接口的用户学习门槛,Hive提供了一些列简单的HiveQL语句,对数据仓库中的数据进行简要分析与计算。

在大数据采技术中,其中有一个关键的环节就是transform操作。它将清洗后的

数据转换成不同的数据形式,由不同的数据分析系统和计算系统进行处理和分析。

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

网络爬虫采集器抓取数据具体要怎么做

网络爬虫采集器抓取数据具体要怎么做

关注小编的小伙伴们应该知道,在上篇文章中,小编介绍了作为新手如何快速建立一个网络爬虫?那么网页采集器抓取数据具体应该要怎么做呢?在本文中,就来和大家揭晓。 具体怎么做呢? 打开数据采集器并选择“自定义信息采集”。 输入上面的URL设置新任务,如你所知,

2022-11-22 15:15:49

浅谈如何使用日志采集工具进行数据采集

浅谈如何使用日志采集工具进行数据采集

本文,我们来看日志采集,为什么要做日志采集呢?日志采集最大的作用,就是通过分析用户访问情况。提升系统的性能,从而提高系统承载量,及时发现系统承载瓶颈,也可以方便技术人员基于用户实际的访问情况进行优化。 日志采集也是运维人员的重要工作之一,那么日志都包括哪

2022-11-21 14:45:01

你了解数据采集技术是什么样的吗?

你了解数据采集技术是什么样的吗?

科技是一直向前发展的,这就少不了创新精神,数据采集技术就是科技创新下的产物,不得不说,有创新精神的人不仅能聚集财富,还能建立职业,适应社会,甚至获得不菲的成就,当然,有更好的输入,才有更好的输出,下面,我就介绍一下传说中的主流数据采集技术是什么。 产品采

2022-11-21 14:43:33

听说你还不知道什么是大数据之数据采集

听说你还不知道什么是大数据之数据采集

大数据体系一般分为,数据采集、数据计算、数据服务、以及数据应用几大层次。 在数据采集层,主要分为日志采集和数据源数据同步,日志采集,根据产品的类型又有可以分为,浏览器页面的日志采集,客户端的日志采集浏览器页面采集。主要是收集页面的浏览日志(PV/UV等)

2022-11-21 14:45:29

有关于数据采集的相关实例的介绍

有关于数据采集的相关实例的介绍

你可能没有进行过数据采集,但是你一定在网脑或电视中见到过。本篇文章,就跟随着小编的脚步一起来看一下有关于数据采集的相关知识吧。 系统实例,在一些工业现场中,设备长时间运行容易出现故障,为了监控这些设备,通常利用数据采集装置采集他们运行时的数据并送给PC机

2022-11-21 14:43:59

你知道数据采集之处数据是如何产生的吗

你知道数据采集之处数据是如何产生的吗

话不多说,直接上数据采集的干货。 第一步就是生产数据,智能制造离不开车间生产数据的支撑,在制造过程中,数控机床不仅是生产工具和设备,更是车间信息网络的节点。通过机床数据的自动化采集、统计、分析和反馈,将结果用于改善制造过程。将大大提高制造过程的柔性和加工

2022-11-21 14:43:40

严选云产品

未来智安 XDR扩展威胁检测响应系统 未来智安 XDR扩展威胁检测响应系统(Extended Detection and Response),一般指扩展威胁检测和响应产品,专注于为客户提供精准全面的网络安全检测、高效自动化的安全运营服务和解决方案。
青云QingCloud企业云平台 青云QingCloud企业云平台,采用分布式架构,数据高可用,弹性支持平台无中断升级和扩容,全面保障业务和数据安全。可根据企业发展历程,提供可进化的建设模式,可由一朵私有云发展成为多朵私有云、分布式云、边缘云、混合云等多种模式。
华为云 裸金属服务器 BMS 裸金属服务器(Bare Metal Server,BMS)是一款兼具弹性云服务器和物理机性能的计算类服务,为您和您的企业提供专属的云上物理服务器,为核心数据库、关键应用 系统、高性能计算、大数据等业务提供卓越的计算性能以及数据安全,助力企业在数据库、大数据、容器、高性能计算、AI等场景关键业务云上创新
赛凡智云数字化协同办公平台 赛凡智云数字化协同办公平台一款专为企业/团队打造的,集安全存储、共享协作、知识管理、智能应用于一体的私有企业数字工作空间,是企业协同工作及文件安全管理的重要工具。沉淀企业数据资产:文件归集、集中存储、统一管理,是用户保护企业资产的基础;让数据资产更安全:重要的商业数据,数据安全和可靠需要贯穿企业数据资产的生命周期;让数据资产产生更多价值:共享、协作、随时随地远程办公,是激活企业资产的关键。
直播互动 直播互动是全新的一站式“多路音视频互动”解决方案,主打“连麦”、“多画面特效”等能力;通过客户端SDK可打造跨平台一对多,多对多的超清酷炫直播场景。
左手医生智能导诊系统 左手医生智能导诊系统解决患者盲目就诊问题,减轻分诊工作压力。降低患者挂错号比例,优化患者就诊流程,有效提高线上线下医疗机构接诊效率。

甄选10000+数字化产品 为您免费使用

申请试用