海量数据处理技术的相关方法介绍

来源: 云巴巴 2022-11-21 14:50:16

 

    虽然从发明到现在仅50年,电脑已经在所有商业和领域中成了不可或缺的一部分,近几年来,随着计算机的普及,海量数据处理的技术也越来越优秀。海量数据处理典型应用于大数据平台在保护我们的数据安全时,可以起到至关重要的重要。

    海量数据处理的两个文件,各存放50亿条URL,每个URL占64字节。内存限制是4G,找出两个文件中相同的URL,这个问题有一个内存限制,那么肯定需要分治法。

    方法一50亿个64Byte= 5G*64Byte = 320G,内存4个G,肯定是不可以的,那么咱们将每个URL进行hash,然后放到1024个文件中,也就是每个文件为320G/1024=320M左右。海量数据处理以hash值作为文件名,第一个文件hash出来的文件命名为(hash[URL]%1024)a1.....a1024,第二个文件hash出来的文件命名为b1.....b1024。1024个文件生成了,那么相同的URL肯定在hash命名文件的后缀中,比如a1 vs b1,海量数据处理这样依次读取文件的内容放入到hashset中。如果存在的话记录并且追加放到文件中。最后文件中就是所有URL即为相同的URL。

    方法二(Bloom Filter布隆过滤器),先说一下布隆过滤器。主要将需要内容进行hash,然后对应到相应的bit上,即Bit Map位图法,海量数据处理但是这个里边有一个问题就是hash会碰撞,即不同的结果可能会hash成相同的值,这样就会出错,如果可以接受错误率,当然错误率较低,那么可以采用这种方式。4G内存=2^32 * 8 约等于 40亿Byte * 8 大约等于340亿。先遍历第一个文件,然后再遍历第二个,这样会错误率。海量数据处理读取每个小文件,并且将读取的关键字形成Trie树字典树,这样会达到去重的效果。Trie树的插入和查询复杂度是O(k), k为最长字符串的长度,然后建立长度为1000的小根堆,海量数据处理将遍历每个关键字的出现的次数放到小根堆里,如果采用位图法的话需要为10^7 / 8 /1024/1024 大约等于1.19M,大于题目的1M,显然位图法不太合适,那么咱们考虑一下多路归并排序。

    众所周知,我们生活在一个动态的世界里,面临很多困难。我们只能面对他们,所迈出的第一步路是关键,海量数据处理技术这个产品可根据自己的需求,更好的对自己的信息进行一个分析与处理运用。在现在这个科技发达的时代,我们想要和时光赛跑,就更要学会去更好的利用科技,就更要学会利用这个世界级的业务压力的产品,那就是海量数据处理技术。

 

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

听说你还不知道什么是海量数据处理技术

听说你还不知道什么是海量数据处理技术

今天的生活充斥着各种压力,快节奏的生活方式导致了各种个人问题的猛增,所以,我们更要了解科技,学会运用科技,运用海量数据处理技术。之前的文章已经介绍过很多关于海量数据处理技术的知识了,本文,会继续介绍一下海量数据处理技术的子系统的主要三大功能。 还有一些与

2022-11-21 14:50:09

你知道关于海量数据处理技术的知识吗?

你知道关于海量数据处理技术的知识吗?

海量数据处理技术,即Massivedata processing technology。主要讨论三个方面,其一是数据量过大,其二是软硬件要求高,其三是要求很高的处理方法和技巧。海量的数据处理问题,对其进行处理是一项艰巨而复杂的任务。原因有数据量过大,软硬件

2022-11-21 14:54:32

海量数据处理技术需要注意的细节之二

海量数据处理技术需要注意的细节之二

之前小编介绍的关于海量数据技术的内容小伙伴们还记得吗,要按时复习啊。本文,继续给大家介绍海量数据处理处理技术需要注意的细节。 海量数据处理处理技术的建立缓存机制。当数据量增加时,一般的处理工具都要考虑到缓存问题,缓存大小设置的好差也关系到数据处理的成败。

2022-11-21 14:52:45

关于海量数据处理平台相关知识的解析

关于海量数据处理平台相关知识的解析

前两篇文章,小编已经介绍过相关的海量数据统计的基础知识,本文,会给大家介绍一下海量数据统计的系统功能都有哪些。总的来说,海量数据统计是现代科技下产生的十分优秀的产品,我们理应去了解更多关于海量数据统计的知识。 在海量日志数据里,提取某天访问量最多的IP,

2022-11-21 14:50:01

大数据需要处理,流程有哪些

大数据需要处理,流程有哪些

大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节,其中数据质量贯穿于整个大数据流程,每一个数据处理环节都会对大数据产生影响作用。

2020-03-12 17:28:43

你真的了解什么是海量数据处理吗?

你真的了解什么是海量数据处理吗?

现在,随着劳动力市场变得低迷,竞争日趋激烈。对于大多数人来说找到一份好工作很难,所以,我们就要多多了解现代科技,了解海量数据处理就十分必要了。你可能没有进行过数据采集,但是你一定在网脑或电视中见到过。本篇文章,就跟随着小编的脚步一起来看一下有关于海量数据处

2022-11-21 14:50:38

严选云产品

丽晶软件智慧零售解决方案 丽晶软件智慧零售解决方案,提供应用级的多点部署实现负载均衡,同时拥有强大的并发能力。微服务依赖的自建服务,极大降低运维成本。为热点数据提供高速的查询能力,降低mysql负载,提升系统的响应速度。系统多语言能力,提升用户使用体验,降低培训成本和时间。
三合盛智慧电厂设备智能预警检修系统 基于对电厂设备边缘侧的数据采集、实时分析及数据智能应用,形成与控制系统高效协同,以数据中台为核心的数据资产沉淀,结合三合盛AICS工业大脑平台沉淀算法以及机理模型,以云平台为依托的运营效能提升,并以高质量的分析结论和决策建议支撑电厂生产运营。
MTC智慧农场 基于SAP的鸡肉一条龙解决方案 MTC鸡肉一条龙解决方案是基于SAP平台,为“鸡肉一条龙”企业量身定制的信息化管理平台。该方案可为您的企业建立起覆盖全产业链的生产管理、物流管理、环境监控、成本管控、市场定价、质量追溯、业务流程体系及即时的数据统计分析平台。
灵当CRM客户管理系统 灵当CRM客户管理系统,支持全渠道线索自动导入,excel一键导入百万客户数据。自定义查重条件,自动校验重复性,可跳过、替换或保留。销售专注于有效线索,推进转化为客户,跟进记录自动带入。一键回填工商信息,多维度查重清洗防撞单。客户信息详实,轻松查询及管理。
昂楷云数据库审计 昂楷云数据库审计系统(简称AAS-C),以行业领先的云数据库引流技术,为云服务商及云租户提供核心数据的安全防护。
星云有客公私域一体化智能营销平台 星云有客公私域一体化智能营销平台打通线上线下 全渠道数据,通过线上触点收集消费者行为和交互数据。智能实时触达各个渠道流量,完成直播间粉丝到私域会员的转化。基于全域数据洞察用户,行业化标签智能分层管理建立品牌IP及增加用户粘性,千群千面的智能化精准营销多种营销玩法,助力会员变现。

推荐视频

甄选10000+数字化产品 为您免费使用

申请试用