海量数据处理技术的相关方法介绍

来源: 云巴巴 2022-11-21 14:50:16

 

    虽然从发明到现在仅50年,电脑已经在所有商业和领域中成了不可或缺的一部分,近几年来,随着计算机的普及,海量数据处理的技术也越来越优秀。海量数据处理典型应用于大数据平台在保护我们的数据安全时,可以起到至关重要的重要。

    海量数据处理的两个文件,各存放50亿条URL,每个URL占64字节。内存限制是4G,找出两个文件中相同的URL,这个问题有一个内存限制,那么肯定需要分治法。

    方法一50亿个64Byte= 5G*64Byte = 320G,内存4个G,肯定是不可以的,那么咱们将每个URL进行hash,然后放到1024个文件中,也就是每个文件为320G/1024=320M左右。海量数据处理以hash值作为文件名,第一个文件hash出来的文件命名为(hash[URL]%1024)a1.....a1024,第二个文件hash出来的文件命名为b1.....b1024。1024个文件生成了,那么相同的URL肯定在hash命名文件的后缀中,比如a1 vs b1,海量数据处理这样依次读取文件的内容放入到hashset中。如果存在的话记录并且追加放到文件中。最后文件中就是所有URL即为相同的URL。

    方法二(Bloom Filter布隆过滤器),先说一下布隆过滤器。主要将需要内容进行hash,然后对应到相应的bit上,即Bit Map位图法,海量数据处理但是这个里边有一个问题就是hash会碰撞,即不同的结果可能会hash成相同的值,这样就会出错,如果可以接受错误率,当然错误率较低,那么可以采用这种方式。4G内存=2^32 * 8 约等于 40亿Byte * 8 大约等于340亿。先遍历第一个文件,然后再遍历第二个,这样会错误率。海量数据处理读取每个小文件,并且将读取的关键字形成Trie树字典树,这样会达到去重的效果。Trie树的插入和查询复杂度是O(k), k为最长字符串的长度,然后建立长度为1000的小根堆,海量数据处理将遍历每个关键字的出现的次数放到小根堆里,如果采用位图法的话需要为10^7 / 8 /1024/1024 大约等于1.19M,大于题目的1M,显然位图法不太合适,那么咱们考虑一下多路归并排序。

    众所周知,我们生活在一个动态的世界里,面临很多困难。我们只能面对他们,所迈出的第一步路是关键,海量数据处理技术这个产品可根据自己的需求,更好的对自己的信息进行一个分析与处理运用。在现在这个科技发达的时代,我们想要和时光赛跑,就更要学会去更好的利用科技,就更要学会利用这个世界级的业务压力的产品,那就是海量数据处理技术。

 

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

关于海量数据处理平台相关知识的解析

关于海量数据处理平台相关知识的解析

前两篇文章,小编已经介绍过相关的海量数据统计的基础知识,本文,会给大家介绍一下海量数据统计的系统功能都有哪些。总的来说,海量数据统计是现代科技下产生的十分优秀的产品,我们理应去了解更多关于海量数据统计的知识。 在海量日志数据里,提取某天访问量最多的IP,

2022-11-21 14:50:01

你知道关于海量数据处理技术的知识吗?

你知道关于海量数据处理技术的知识吗?

海量数据处理技术,即Massivedata processing technology。主要讨论三个方面,其一是数据量过大,其二是软硬件要求高,其三是要求很高的处理方法和技巧。海量的数据处理问题,对其进行处理是一项艰巨而复杂的任务。原因有数据量过大,软硬件

2022-11-21 14:54:32

海量数据处理技术需要注意的细节之二

海量数据处理技术需要注意的细节之二

之前小编介绍的关于海量数据技术的内容小伙伴们还记得吗,要按时复习啊。本文,继续给大家介绍海量数据处理处理技术需要注意的细节。 海量数据处理处理技术的建立缓存机制。当数据量增加时,一般的处理工具都要考虑到缓存问题,缓存大小设置的好差也关系到数据处理的成败。

2022-11-21 14:52:45

海量数据处理技术需要注意的细节之四

海量数据处理技术需要注意的细节之四

任何现象都从一定的方面表现着本质,现象是本质的外部表现,所以,为了更好的把握住本质,我们就跟要知道海量数据处理技术需要注意的细节了 海量数据处理技术避免使用32位机子(极端情况),目前的计算机很多都是32位的。那么编写的程序对内存的需要便受限制,而很多的

2022-11-21 14:54:48

大数据需要处理,流程有哪些

大数据需要处理,流程有哪些

大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节,其中数据质量贯穿于整个大数据流程,每一个数据处理环节都会对大数据产生影响作用。

2020-03-12 17:28:43

听说你还不知道什么是海量数据处理技术

听说你还不知道什么是海量数据处理技术

今天的生活充斥着各种压力,快节奏的生活方式导致了各种个人问题的猛增,所以,我们更要了解科技,学会运用科技,运用海量数据处理技术。之前的文章已经介绍过很多关于海量数据处理技术的知识了,本文,会继续介绍一下海量数据处理技术的子系统的主要三大功能。 还有一些与

2022-11-21 14:50:09

严选云产品

GrowingIO UBA增长解决方案 GrowingIO UBA增长解决方案,一站式用户数据采集、管理、分析、智能运营平台,帮助企业用数据实现更好的增长。全域用户行为数据,多种分析工具灵活组合,实时监测,精准洞察。
网际思安邮件安全解决方案 网际思安邮件安全解决方案,提供SIEM、云杀毒、云沙箱、钓鱼沙箱、专家服务等 邮件安全评估 专业邮件系统安全漏洞评估,提供分析报告及应急管理措施。提供威胁情报、病毒库更新、钓鱼规则库更新、补丁更新等。专业邮件系统安全漏洞评估,提供分析报告及应急管理措施 。
晨科分销商管理系统软件 晨科分销商管理系统软件,平台方、分支机构和分销商之间可以实现实时地提交业务单据、查询产品供应和库存状况、并获得市场、销售信息及客户支持,实现了供应商、分支机构与经销商之间端到端的供应链管理,有效地缩短了供销链。
快启获客智慧销售云平台 快启获客智慧销售云平台通过标签组合条件,获取海量目标线索, 运用人工触达或者AI语音机器人外呼,单条有效线索成本最低。全网企业数据覆盖,每日数据更新量超过百万条,确保线索资源全、新,保障恒定需求输出。系统直接推送符合画像的客户资源,只需分分钟时间,即可获取数千到数万的优质销售线索。
百度小度养老解决方案 百度小度养老解决方案,Web呼叫中心,大屏展示。选择需要服务类型,给养老服务中心发送语音留言。语音与相应的文本信息同步至客户养老平台,Web视频巡访,AI研判老人居家状态,自定义紧急呼叫对象,可添加养老中心。
企企通SRM采购合同管理系统 企企通合同管理系统帮助企业合理优化合同管理过程,实现对合同标准、合规、安全、智能、协同的闭环管理,提高企业法务、采购、销售、财务全线管控力。

推荐视频

甄选10000+数字化产品 为您免费使用

申请试用