知道网络爬虫的知识可以说是多我们有利无害的,本文,就请跟随着笔者的的脚步,让我们又起来了解一下关于网页爬虫的那些你不知道的事吧。
基于链接的抓取的问题是相关页面主题团之间的隧道现象,即很多在抓取路径上偏离主题的网页也指向目标网页,局部评价策略中断了在当前路径上的抓取行为,提出了一种基于反向链接(BackLink)的分层式上下文模型(Context Model),用于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心Layer0为目标网页,将网页依据指向目标网页的物理跳数进行层次划分,从外层网页指向内层网页的链接称为反向链接。
很多站点,尤其是搜索引擎,都使用爬虫提供最新的数据,它主要用于提供它访问过页面的一个副本,这些处理被称为网络抓取或者蜘蛛爬行,然后,搜索引擎就可以对得到的页面进行索引,以提供快速的访问,蜘蛛也可以在web上用来自动执行一些任务,例如检查链接,确认html代码;也可以用来抓取网页上某种特定类型信息,例如抓取电子邮件地址(通常用于垃圾邮件)。
下面大概讲一下网页爬虫的发展历程。
2004年的模拟检索实验进行在 从.it网络上取下的4000万个页面和从webbase得到的1亿个页面上,测试广度优先和深度优先,随机序列和有序序列。令人惊奇的是,一些计算pageRank很快的页面(特别明显的是广度优先策略和有序序列)仅仅可以达到很小的接近程度,比较的基础是真实页面pageRank值和计算出来的pageRank值的接近程度。
2005年研究人员在从.gr域名和.cl域名子网站上获取的300万个页面上模拟实验,比较若干个抓取策略。结果显示OPIC策略和站点队列长度,都比广度优先要好;并且如果可行的话,使用之前的爬行抓取结果来指导这次抓取,总是十分有效的。
2008年有人设计了一个用于寻找好种子的社区。它们从来自不同社区的高PageRank页面开始检索的方法,迭代次数明显小于使用随机种子的检索。使用这种方式,可以从以前抓取页面之中找到好的种子,使用这些种子是十分有效的。
学无止境,如果对关于网页爬虫的知识感兴趣的话,就赶快去看看笔者的其他的关于网页爬虫文章吧。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2022-11-21 15:55:17
2022-11-22 17:05:22
2020-04-14 17:31:53
2022-11-25 14:35:10
2022-11-23 10:04:08
2022-11-22 17:00:23
甄选10000+数字化产品 为您免费使用
申请试用
评论列表