关于海量数据处理平台相关知识的解析

来源: 云巴巴 2022-11-21 14:50:01

 

     前两篇文章,小编已经介绍过相关的海量数据统计的基础知识,本文,会给大家介绍一下海量数据统计的系统功能都有哪些。总的来说,海量数据统计是现代科技下产生的十分优秀的产品,我们理应去了解更多关于海量数据统计的知识。

     在海量日志数据里,提取某天访问量最多的IP,一般处理海量的思路都是分治处理,就是现将数据进行拆分,然后进行处理,排序等,这个例子也不例外,IPV4的地址一共32位,最大值为2^32也就是总数大约4G左右。如果放到内存里边,以目前的内存容量也是可以处理的,但是咱们可以为自己设置一些条件,比如目前没有那么多内存。

     首先分治,将这个文件按照IPHASH分成1024份(如果想要均匀的分的算法需要使用一致性Hash算法)。这样每个文件大约4M左右并且存放到磁盘上去。构建一个需要以IPKey,出现次数为ValueTreeMap,读取每个文件,将IP和出现次数放入有序的TreeMap。 这样就可以得到出现次数最多的IP,前N个出现次数多的IP都可以获取到了。

     这种问题一般是TOP K的问题,思路都可以按照这样的思路去解决,当然这种场景比较合适的就是Map Reduce莫属了,另外,关于TOP K的这种排序的话可以采用最小堆排序(即根节点是最小的),它的时间复杂度为n*mlogmn即为一共多少数据。m为取出前m个数据。关于这种结构不知道的同学可以进行谷歌搜索,分治的作用就是为了减少使用系统的资源,比如系统内容。

     有10个文件,每个文件1G,每个文件的每一行都存放的是用户的搜索的关键字,每个文件的搜索的关键字都可能重复,找出热度高的前1000个搜索关键字,(提示分治+hash+trie+最小堆)如果是大量数据不重复的,而且需要内存占用比较少的需要找出出现的内容的话,适合使用BitMap位图法进行处理。

     随着计算机时代的到来,传统的思维方式有了显著的变化,人们表现出更开放的思想以及决定他们自己命运的强烈愿望。海量数据统计作为云时代的重要产品之一,是十分值得我们一起去深入研究和学习的。所以,还不快快去了解更多关于海量数据统计的相关知识。

 

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

大数据需要处理,流程有哪些

大数据需要处理,流程有哪些

大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节,其中数据质量贯穿于整个大数据流程,每一个数据处理环节都会对大数据产生影响作用。

2020-03-12 17:28:43

海量数据处理技术需要注意的细节之四

海量数据处理技术需要注意的细节之四

任何现象都从一定的方面表现着本质,现象是本质的外部表现,所以,为了更好的把握住本质,我们就跟要知道海量数据处理技术需要注意的细节了 海量数据处理技术避免使用32位机子(极端情况),目前的计算机很多都是32位的。那么编写的程序对内存的需要便受限制,而很多的

2022-11-21 14:54:48

你知道关于海量数据处理技术的知识吗?

你知道关于海量数据处理技术的知识吗?

海量数据处理技术,即Massivedata processing technology。主要讨论三个方面,其一是数据量过大,其二是软硬件要求高,其三是要求很高的处理方法和技巧。海量的数据处理问题,对其进行处理是一项艰巨而复杂的任务。原因有数据量过大,软硬件

2022-11-21 14:54:32

听说你还不知道什么是海量数据处理技术

听说你还不知道什么是海量数据处理技术

今天的生活充斥着各种压力,快节奏的生活方式导致了各种个人问题的猛增,所以,我们更要了解科技,学会运用科技,运用海量数据处理技术。之前的文章已经介绍过很多关于海量数据处理技术的知识了,本文,会继续介绍一下海量数据处理技术的子系统的主要三大功能。 还有一些与

2022-11-21 14:50:09

海量数据处理技术需要注意的细节之二

海量数据处理技术需要注意的细节之二

之前小编介绍的关于海量数据技术的内容小伙伴们还记得吗,要按时复习啊。本文,继续给大家介绍海量数据处理处理技术需要注意的细节。 海量数据处理处理技术的建立缓存机制。当数据量增加时,一般的处理工具都要考虑到缓存问题,缓存大小设置的好差也关系到数据处理的成败。

2022-11-21 14:52:45

海量数据处理技术需要注意的细节之一

海量数据处理技术需要注意的细节之一

有句话是这样说的,细节决定成败,那么海量数据处理处理技术需要注意的细节都有哪些呢?快跟着小编一起来看一下吧。 首先不得不提的就是要拥有编写优良的程序代码。处理数据离不开优秀的程序代码,尤其在进行复杂数据处理时,必须使用程序,好的程序代码对数据的处理至关重

2022-11-21 14:54:14

严选云产品

企业应用 消息队列MQ 消息队列 RocketMQ 版是阿里云基于 Apache RocketMQ 构建的低延迟、高并发、高可用、高可靠的分布式消息中间件。该产品最初由阿里巴巴自研并捐赠给 Apache 基金会,服务于阿里集团 13 年,覆盖全集团所有业务。
聚道云BI数据看板平台 聚道云BI数据看板平台,可通过API接口、数据库等方式,实时采集企业各业务系统的数据,并进行整合处理,确保数据的准确和一致性。可对采集到的数据进行清洗和预处理,去除异常、缺失值,确保数据质量和可用性。
蓝墙互联云端地产smart ERP运营管理解决方案 蓝墙互联Julius任务督办通过标准化的督办流程和实时动态的过程监控,实现对重点事项从立项、分解、执行、汇报、办结、催办、反馈以及统计分析的管理,全过程信息化、透明化,确保督办事项得到坚决有效的贯彻落实。内置效率工具,快速写日报/周报/月报。多种汇报模板可以自由选择,方便高效协作。
吉客云云仓解决方案 吉客云云仓解决方案以国内市场为主的大企业在做的案例类型,例如苏宁云仓支持其全国数千家实体店的物流配送,京东云仓支持其全国电商客户的订单物流需求。电商业务的快速发展促使很多个体商户开启云仓业务为电商企业实现标准的仓配服务。在一个相对较小的区域内,建设或者租赁多个仓库,结合快递或者车辆配送,搭建网状的供应链体系,以对区域内的企业实现更快、更经济的物流服务。
金蝶云·星辰采购管理系统 金蝶云·星辰采购管理系统有采购订单、采购入库单、采购退货单、以销定购、智能补货等,可直接退货,也可通过选择关联采购入库单退货,订单可记录定金,可以由采购申请单生成,支持分批入库和合并入库,不影响库存和资金,可能会影响可用库存。
智能话务机器人平台 小一机器人专注企业云通讯服务,由专家及拥有多年人工智能经验的资深专业团队创建,小一机器人,智能AI,帮助企业降本增效

推荐视频

甄选10000+数字化产品 为您免费使用

申请试用