关于网络爬虫的爬行选择策略的相关介绍

来源: 云巴巴 2022-11-21 11:23:37

 

     网络爬虫的选择策略有多种方式方法,本文,就来介绍一下网络爬虫的爬行选择策略。

     网络爬虫通常仅仅下载网页内容的一部分,但是大家都还是强烈要求下载的部分包括最多的相关页面,而不仅仅是一个随机的简单的站点,就现在网络资源的大小而言,即使很大的搜索引擎也只能获取网络上可得到资源的一小部分。有一项研究指出,没有一个搜索引擎抓取的内容达到网络的16%。

     这就要求一个公共标准来区分网页的重要程度,与按照链接数、访问数得出的受欢迎程度有关,一个页面的重要程度与他自身的质量有关,甚至与他本身的网址,也就是后来出现的把搜索放在一个顶级域名或者一个固定页面上的垂直搜索有关。设计一个好的搜索策略还有额外的困难,它必须在不完全信息下工作,因为整个页面的集合在抓取时是未知的。

     1998年做了第一份抓取策略的研究,这些数据是斯坦福大学网站中的18万个页面,使用不同的策略分别模仿抓取。排序的方法使用了广度优先,后链计数,和部分pagerank算法,经过计算显示,如果你想要优先下载pagerank高的页面,那么,部分PageRank策略是比较好的,其次是广度优先和后链计数。并且,这样的结果仅仅是针对一个站点的。

     2001年采用实际的爬虫,对3.28亿个网页,采用广度优先研究,研究人员发现广度优先会较早的抓到PageRank高的页面(但是他们没有采用其他策略进行研究)。给出的解释是:“最重要的页面会有很多的主机连接到他们,并且那些链接会较早的发现,而不用考虑从哪一个主机开始。”

     2003年有人设计了一种基于OPIC(在线页面重要指数)的抓取战略,在OPIC中,每一个页面都有一个相等的初始权值,并把这些权值平均分给它所指向的页面。这种算法与Pagerank相似,但是他的速度很快,并且可以一次完成。OPIC的程序首先抓取获取权值最大的页面,实验在10万个幂指分布的模拟页面中进行;并且,实验没有和其它策略进行比较,也没有在真正的WEB页面测试。

     这就是关于网络爬虫的爬行选择策略相关知识的简单介绍,小伙伴都明白了吗?

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

这些家喻户晓的视频会议厂商是如何做产品布局?

这些家喻户晓的视频会议厂商是如何做产品布局?

很多视频会议厂商的产品也占据着国内视频会议的一席之地,比如做硬件的宝利通、视联动力;做视频会议软件的齐心集团,会畅通讯,随锐科技等,我们就随着本文一起来了解一下这些厂家的发展战略。

2022-11-23 14:41:15

AI赋能临床:从助手到专家,腾讯临床助手助力基层诊疗发展

AI赋能临床:从助手到专家,腾讯临床助手助力基层诊疗发展

腾讯AI临床助手作为一款辅助工具,支持提高接诊效率、管理病历质量、降低诊疗风险、扩充医学知识、综合数据查询、医疗应用管理等多个功能。

2024-03-27 13:47:06

制造企业上云ERP还不够,博致云数字工厂扛起制造管理大旗

制造企业上云ERP还不够,博致云数字工厂扛起制造管理大旗

博致云掌上工厂是面向制造型企业的工厂数字化全栈式解决方案,通过云ERP+MES,博致云专注于工厂中排程、生产、质检、订单、采购、库存等核心场景,整合设备层的工业数据,已在五金、电子、机加工、金属等数十行业积累了众多客户案例和解决方案。

2023-01-03 17:36:38

徽商公估丨保险公估行业如何达到监管需求、打通业财数据、实现数字化管理?

徽商公估丨保险公估行业如何达到监管需求、打通业财数据、实现数字化管理?

徽商公估为江苏省保险中介行业协会理事单位、江苏保险公估常务理事单位,与政府多家职能部门、大型公司签订服务协议,社会影响力与日俱增。

2022-02-23 15:17:12

与数据安全的安全应用相关的三个要素

与数据安全的安全应用相关的三个要素

数据安全管理技术进行严格地讲仅包含3类:便是一个隐藏、访问内部控制和密码学。 数据安全数字签名属于密码学 数字签名是类似于在纸上的普通的物理签名,但数据安全在执行领域的使用公共密钥加密技术,数字信息识别的方法。一套数字签名通常可以定义两种互补的运算,一

2022-11-21 16:09:02

网络安全的威胁来源之一——Web应用安全防护该如何建设

网络安全的威胁来源之一——Web应用安全防护该如何建设

云计算时代的到来让许多企业用户开始将业务系统迁移到云平台,利用云平台为企业提供各种web应用和服务,这也意味着云端的web应用和服务成为了恶意组织非法获利的攻击目标。

2022-11-23 15:10:06

严选云产品

每刻档案新一代电子会计档案管理系统 每刻档案新一代电子会计档案管理系统,建设生态化档案管理平台,围绕业务场景实现全流程无纸化,助力企业数智化管理。实现档案精准定位、纸电统筹管理,对照实体库房,在电子档案系统中模拟,按照库房-档案柜-档案阁精确定位,为档案阁定制“身份证”。
云客微联络平台 云客微联络平台,使用工作微信/企微,多账号同时在线;运行快速,稳定不卡顿。集成外呼能力,聊天的同时可以进行呼叫工作,侧边栏支持快捷调用、金牌话术、资料转发以及一键发送。智能托管与RPA技术的深度结合,只需一台电脑即可完成私域运营。
同创永益IStorM Chaos混沌工程演练平台 同创永益IStorM Chaos混沌工程演练平台拥有丰富的可扩展的故障库,除可为企业提供所有基础的,几乎涵盖所有的已知故障外,还支持自定义来扩展故障库,该平台已获得“可信云混沌工程平台”先进级评估。
简道云互联网行业解决方案 简道云互联网行业解决方案,简单高效的互联网行业管理应用。使用者可根据自身需求,按部门搭建管理应用。售前、产品、研发部门对接流程清晰,行政后勤,人事部门管理更有序,通过简道云表单全量记录客户问题,推动产品、文档及其他相关部门优化,降低产品问题对客户的使用阻碍,提升客户体验。
指掌易 灵鉴APP/SDK隐私威胁检测解决方案 指掌易灵鉴•APP/SDK隐私威胁检测平台,是指掌易研发的一款针对APP个人信息保护相关合规性检查的产品。为各类行业客户提供专业的移动应用风险检测服务,辅助通过相关监管机构的合规检查,增强移动端业务的运营安全和风险管理能力。
MOS短信云平台 专业、高效、安全,值得信赖的云通信管家-以cPaaS为基础,涵盖短信、语音、物联网等通信资源及UMP、AMS、AI机器人等通信软件平台,围绕企业通信场景需求提供一站式云通信解决方案的企业通信云计算服务,广泛应用于金融、政企、互联网、快消等行业

甄选10000+数字化产品 为您免费使用

申请试用