浅析关于网络爬虫的平衡礼貌策略

来源: 云巴巴 2022-11-21 11:22:57

网络爬虫相比于人，可以有更快的检索速度和更深的层次，所以，他们可能使一个站点瘫痪，不需要说一个单独的爬虫一秒钟要执行多条请求，下载大的文件，一个服务器也会很难响应多线程爬虫的请求。

爬虫的使用对很多工作都是很有用的，但是对一般的社区，也需要付出代价。使用爬虫的代价包括：网络资源，在很长一段时间，爬虫使用相当的带宽高度并行地工作；服务器超载：尤其是对给定服务器的访问过高时；质量糟糕的爬虫，可能导致服务器或者路由器瘫痪，或者会尝试下载自己无法处理的页面。

个人爬虫，如果过多的人使用，可能导致网络或者服务器阻塞，对这些问题的一个部分解决方法是漫游器排除协议（Robots exclusion protocol），也被称为robots.txt议定书，这份协议对于管理员指明网络服务器的那一部分不能到达是一个标准。这个标准没有包括重新访问一台服务器的间隔的建议，虽然访问间隔是避免服务器超载的最有效的办法。

对连接间隔时间的时间是60秒。按照这个速度，它也会需要两个月的时间来下载整个站点，如果一个站点有超过10万的页面，即使我们拥有零延迟和无穷带宽的完美连接，并且，这个服务器中的资源，只有一小部分可以使用，这似乎是不可以接受的。使用10秒作为访问的间隔时间，WIRE爬虫使用15秒作为默认间隔。MercatorWeb爬虫使用了一种自适应的平衡策略：如果从某一服务器下载一个文档需要t秒钟，爬虫就等待10t秒的时间，然后开始下一个页面，使用1秒。

对于那些使用爬虫用于研究目的的，一个更详细的成本效益分析是必要的，使用多快的速度抓取的时候，伦理的因素也需要考虑进来，当决定去哪一个站点抓取，访问记录显示已知爬虫的访问间隔从20秒钟到3-4分钟不等。需要注意的是即使很礼貌，采取了所有的安全措施来避免服务器超载，还是会引来一些网络服务器管理员的抱怨的，Brin和Page注意到：运行一个针对超过50万服务器的爬虫，会产生很多的邮件和电话。这是因为有无数的人在上网，而这些人不知道爬虫是什么，因为这是他们第一次见到。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里！

话题:

评论列表

为你推荐

助力政企数字化转型：腾讯云TStack首批达到等保2.0四级安全

当前，上云成为企业数字化转型和产业升级的重要手段，私有云解决方案因其高安全性、高灵活性、高利用率备受政企客户青睐。但同时，云时代的网络攻击手段也在不断丰富，安全环境愈加复杂，对云平台的安全能力提出了更高要求。 7月14日，腾讯宣布其私有全栈云平台“腾讯云

话题:

2022-11-21 14:47:17

软件产业迎政策东风，优炫数据库赋能信创生态

中国软件产业迎来重大利好政策。国务院正式发布《新时期促进我国集成电路技术产业和软件产业经济高质量企业发展的若干政策》，是引领新一轮科技工业革命和产业结构变革的关键力量。其中一个明确表示集成电路产业和软件产业是信息文化产业的核心。

话题:

2022-11-21 17:30:30

云巴巴与契约锁达成合作，助力企业合同签章数字化

近日，云巴巴与契约锁公司达成战略合作，通过发挥各自专业与资源优势，从产品、市场、销售等多方面展开深度合作，共同为客户提供全程数字化解决方案，让电子签章深化应用到企业各类业务的电子流程中，携手助力组织数字化转型。

话题:

2024-03-27 14:20:28

腾讯的主机安全防护究竟好在哪里？

面对日渐猖獗的网络攻击，企业往往从网络安全，主机安全两个方面入手，但在产品的选择上会经常不知道从何下手，换言之就是不知道从哪些方面来考量主机安全是否是自己需要的。那本篇就从腾讯安全和其他主机安全防护产品之间展开对比，让大家快速上手如何选择合适的主机安全

话题:

2022-11-23 10:23:31

浅谈关于服务器、云虚拟主机和空间的区别

在本文的题目中，看似提到了好几个名词，但其实云虚拟主机，也常常被称为“虚拟空间”、“空间”。那么首先要知道什么是空间？空间通常是指虚拟主机，或者你这样理解，你买空间只是买服务器上的一份，空间是虚拟主机的同义词，将服务器分成若干份出售，其中的一份就是一个

话题:

2022-11-22 17:15:07

虹膜识别技术让哪些生物识别时的尴尬场面得到了解决？（上）

虹膜识别技术在众多生物识别方式中作为“出道”比较晚的生物识别方式，但是在安全系数以及便捷程度上和其他“前辈”相比可是毫不逊色。而且在很多需要进行身份认证时在一些特定的场景下虹膜识别技术减少了很多尴尬场面的发生，今天就和小巴一起来看下虹膜识别技术减少了哪些进

话题:

2022-11-24 10:31:28

严选云产品

仙工智能Meta-V数据可视化系统仙工智能Meta-V数据可视化系统，以数据可视化技术为核心，将从企业信息系统或者业务系统中获取来的数据进行分析整合，并加工为数字大屏、3D 数字孪生、3D 仿真等软件应用。

致远互联费控管理系统致远互联费控管理系统绑定树组件，使无流程表单数据具有层级关系，查看更清晰，新增更简洁。系统预置费用申请，报销，校验等规则库，用户可自定义表单与系统字段进行映射，满足系统校验逻辑，使表单结构更贴近用户需要。规则写入系统，减少重复工作量预置单据数量无上

腾讯电子签·战略会议签 “会议签”产品是腾讯电子签与腾讯会议的联合研发的新形态签约产品，二者的结合相得益彰，主要解决“缩短B2B签约交易路径，线上服务商业化”的等企业签约痛点。自“会议签”产品上线以来，打造了公证处在线视频公证、政务数字化服务、企业间在线达成战略合作等场景。

小鹅通App内嵌课堂为了满⾜移动应⽤搭建课堂的需求，⼩鹅通将知识商品交易、服务、分发系统开放，移动开发者通过⼀个SDK便可以在App内集成⼩鹅通提供的整个交易服务，享受完善的基础知识商品、营销玩法、教学互动、内容分销等能⼒。

IP67级别的思科1562系列室外工业级 Cisco Aironet 1560系列室外接入点具有坚固的薄型外壳，提供最新的802.11ac Wave2功能，服务提供商和企业可轻松部署。

曦灵平台数字人短视频直播平台曦灵平台数字人短视频直播平台以“智创内容，元启未来”为主题的元宇宙创新探索论坛于线上顺利召开。中国信息通信研究院作为主办单位，发布了第二批数字人产品评测结果。数字人系统基础能力评测共9家企业参评，通过9家。数字人系统性能分级评测百度参评，性能等级被评为国内唯一一家杰出级。

数字化社区