网络爬虫的选择策略有多种方式方法,本文,就来介绍一下网络爬虫的爬行选择策略。
网络爬虫通常仅仅下载网页内容的一部分,但是大家都还是强烈要求下载的部分包括最多的相关页面,而不仅仅是一个随机的简单的站点,就现在网络资源的大小而言,即使很大的搜索引擎也只能获取网络上可得到资源的一小部分。有一项研究指出,没有一个搜索引擎抓取的内容达到网络的16%。
这就要求一个公共标准来区分网页的重要程度,与按照链接数、访问数得出的受欢迎程度有关,一个页面的重要程度与他自身的质量有关,甚至与他本身的网址,也就是后来出现的把搜索放在一个顶级域名或者一个固定页面上的垂直搜索有关。设计一个好的搜索策略还有额外的困难,它必须在不完全信息下工作,因为整个页面的集合在抓取时是未知的。
1998年做了第一份抓取策略的研究,这些数据是斯坦福大学网站中的18万个页面,使用不同的策略分别模仿抓取。排序的方法使用了广度优先,后链计数,和部分pagerank算法,经过计算显示,如果你想要优先下载pagerank高的页面,那么,部分PageRank策略是比较好的,其次是广度优先和后链计数。并且,这样的结果仅仅是针对一个站点的。
2001年采用实际的爬虫,对3.28亿个网页,采用广度优先研究,研究人员发现广度优先会较早的抓到PageRank高的页面(但是他们没有采用其他策略进行研究)。给出的解释是:“最重要的页面会有很多的主机连接到他们,并且那些链接会较早的发现,而不用考虑从哪一个主机开始。”
2003年有人设计了一种基于OPIC(在线页面重要指数)的抓取战略,在OPIC中,每一个页面都有一个相等的初始权值,并把这些权值平均分给它所指向的页面。这种算法与Pagerank相似,但是他的速度很快,并且可以一次完成。OPIC的程序首先抓取获取权值最大的页面,实验在10万个幂指分布的模拟页面中进行;并且,实验没有和其它策略进行比较,也没有在真正的WEB页面测试。
这就是关于网络爬虫的爬行选择策略相关知识的简单介绍,小伙伴都明白了吗?
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2022-11-23 14:41:15
2024-03-27 13:47:06
2023-01-03 17:36:38
2022-02-23 15:17:12
2022-11-21 16:09:02
2022-11-23 15:10:06
甄选10000+数字化产品 为您免费使用
申请试用
评论列表