网络爬虫相比于人,可以有更快的检索速度和更深的层次,所以,他们可能使一个站点瘫痪,不需要说一个单独的爬虫一秒钟要执行多条请求,下载大的文件,一个服务器也会很难响应多线程爬虫的请求。
爬虫的使用对很多工作都是很有用的,但是对一般的社区,也需要付出代价。使用爬虫的代价包括:网络资源,在很长一段时间,爬虫使用相当的带宽高度并行地工作;服务器超载:尤其是对给定服务器的访问过高时;质量糟糕的爬虫,可能导致服务器或者路由器瘫痪,或者会尝试下载自己无法处理的页面。
个人爬虫,如果过多的人使用,可能导致网络或者服务器阻塞,对这些问题的一个部分解决方法是漫游器排除协议(Robots exclusion protocol),也被称为robots.txt议定书,这份协议对于管理员指明网络服务器的那一部分不能到达是一个标准。这个标准没有包括重新访问一台服务器的间隔的建议,虽然访问间隔是避免服务器超载的最有效的办法。
对连接间隔时间的时间是60秒。按照这个速度,它也会需要两个月的时间来下载整个站点,如果一个站点有超过10万的页面,即使我们拥有零延迟和无穷带宽的完美连接,并且,这个服务器中的资源,只有一小部分可以使用,这似乎是不可以接受的。使用10秒作为访问的间隔时间,WIRE爬虫使用15秒作为默认间隔。MercatorWeb爬虫使用了一种自适应的平衡策略:如果从某一服务器下载一个文档需要t秒钟,爬虫就等待10t秒的时间,然后开始下一个页面,使用1秒。
对于那些使用爬虫用于研究目的的,一个更详细的成本效益分析是必要的,使用多快的速度抓取的时候,伦理的因素也需要考虑进来,当决定去哪一个站点抓取,访问记录显示已知爬虫的访问间隔从20秒钟到3-4分钟不等。需要注意的是即使很礼貌,采取了所有的安全措施来避免服务器超载,还是会引来一些网络服务器管理员的抱怨的,Brin和Page注意到:运行一个针对超过50万服务器的爬虫,会产生很多的邮件和电话。这是因为有无数的人在上网,而这些人不知道爬虫是什么,因为这是他们第一次见到。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2022-11-21 14:47:17
2022-11-21 17:30:30
2024-03-27 14:20:28
2022-11-23 10:23:31
2022-11-22 17:15:07
2022-11-24 10:31:28
甄选10000+数字化产品 为您免费使用
申请试用
评论列表