关于网页分析算法类型的相关介绍

来源: 云巴巴 2022-11-21 11:19:59

 

    网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。

    拓扑分析算法,基于网页之间的链接,通过已知的网页或数据,来对与其有直接或间接链接关系的对象(可以是网页或网站等)作出评价的算法,又分为网页粒度、网站粒度和网页块粒度这三种。

    网页(Webpage)粒度的分析算法,PageRankHITS算法是最常见的链接分析算法,两者都是通过对网页间链接度的递归和规范化计算,得到每个网页的重要度评价。PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在,但忽略了绝大多数用户访问时带有目的性,即网页和链接与查询主题的相关性,针对这个问题,HITS算法提出了两个关键的概念:权威型网页(authority)和中心型网页(hub)。

    网站粒度的分析算法,网站粒度的爬虫抓取的关键之处在于站点的划分和站点等级(SiteRank)的计算,SiteRank的计算方法与PageRank类似,但是需要对网站之间的链接作一定程度抽象,并在一定的模型下计算链接的权重,网站粒度的资源发现和管理策略也比网页粒度的更简单有效。

    网站划分情况分为按域名划分和按IP地址划分两种:讨论了在分布式情况下,根据不同文件在各个站点上的分布情况,构造文档图,结合SiteRank分布式计算得到DocRank。通过对同一个域名下不同主机、服务器的IP地址进行站点划分,构造站点图,利用类似PageRank的方法评价SiteRank

    网页块粒度的分析算法,在一个页面中,往往含有多个指向其他页面的链接,这些链接中只有一部分是指向主题相关网页的,或根据网页的链接锚文本表明其具有较高重要性,但是,在PageRankHITS算法中,没有对这些链接作区分,因此常常给网页分析带来广告等噪声链接的干扰。通过实验证明,效率和准确率都比传统的对应算法要好,在网页块级别(Block?level)进行链接分析的算法的基本思想是通过VIPS网页分割算法将网页分为不同的网页块(page block),然后对这些网页块建立链接矩阵。

    以上,就是关于网页分析算法类型的相关介绍,你明白了吗?下篇文章,小编会介绍一下关于网页分析算法的其他相关知识,持续关注一下吧。

 

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

我们应该要选择什么样的企业级数据分析软件

我们应该要选择什么样的企业级数据分析软件

  成功的大数据分析应用时一定要注意数据的基础上,人员,业务流程,技术支持平衡四个象限的能力。要形成一流的企业级数据分析技术能力,缺少对于任何作为一个象限的能力都不行。

2022-11-21 15:56:05

将机器运营数据分析转化为答案

将机器运营数据分析转化为答案

小到个人大到企业,无时不刻环绕于数据之中。个人可以通过分析自己的体重数据等合理指定健康计划,企业也可以将数据融入每个问题、决策和行动之中。借助让人们能够调查、监控、分析和行动的解决方案,释放数据的真正力量。通过移动交互和增强现实等手段,实时向正确的人提供可

2021-12-03 11:53:42

7月技术周|基于SDN网络的优化技术和QoS研究分析(一)

7月技术周|基于SDN网络的优化技术和QoS研究分析(一)

随着网络技术的发展,越来越多的分布式应用和不同类型的网络技术被部署到网络上,基于传统IP的网络体系结构正面临越来越多的问题,传统的优势正逐渐成为制约网络技术发展的瓶颈。 由于篇幅较长,文章将分成四篇进行讲解,本文为第一篇,欢迎关注阅读并留言讨论。

2022-11-21 17:11:01

数据分析如何重新考虑数据以构建多个网络层

数据分析如何重新考虑数据以构建多个网络层

网络可以是数据聚集的结果,事实上,通过数据分析,我们可以在不同工作时间、位置或条件下观察到相互促进作用。因此,强烈建议数据分析您现在放置不同的数据层、时间、空间、类型。记住并考虑由多个层构成的网络,与多层网络进行数据分析可以提供深入了解聚合网络更新进行比较

2022-11-21 15:55:29

数据分析,支持企业的主动决策转型

数据分析,支持企业的主动决策转型

 目前的大环境是,大部分企业开展数据分析的目的是为企业财务管理和决策提供报表、研究工作报告。事实上,数据分析是构建企业核心竞争力,拓展业务范围,管理,实现业务创新,数据分析是指企业从被动到主动的决策和核心竞争力的一系列重要决策密切相关的建设支持。

2022-11-21 15:55:07

如何充分利用大数据可视化分析提升工作效率?

如何充分利用大数据可视化分析提升工作效率?

大数据从提出到现在,一直都是一个热门话题,在很多行业都希望将大数据的信息转化为能直观更容易对比的可视化呈现形式。以便能以更深的洞察力获取数据变化趋势,获取鞥更好的决策力,以及更强的自动化处理能力。 今天,我们以互联网安全领域为例,分析大数据可视化的应用。

2020-03-20 16:56:36

严选云产品

水印追溯系统【WTS】 水印追溯系统是华途股份针对拍照信息的可追溯,增加对拍照、摄录行为的威慑,降低拍照、泄密风险而自主研发的一款保障信息资产安全的产品。
深信服可扩展检测响应平台XDR 深信服可扩展检测响应平台XDR,通过平台能力实现终端+网络数据源的聚合分析,提升结果准确性。通过平台自动化响应,提高处置效率。通过SAAS化能力,降低用户使用成本,同时SAAS化可运用云端的情报、数据、算力优势,提升处理分析速度和检测效果。
敏捷科技DLP数据防泄漏防护系统 敏捷科技针对文档安全、文档管理、数据泄露防护、打印安全和文件备份需求及当前企业核心数据面临的各个方面的管理问题及安全风险,并结合已有的产品基础,提出数据安全卫士系统DGS(Data Guard System)这一整体数据安全与数据管理解决方案,为企业的各类电子文件提供全生命期的安全保护和有效管理,防止文件泄密。其中Agile DLP数据泄漏防护模块是以监控为主,审计为辅的方式,防止员工泄露企业信息,给企业带来损失。
Authing身份云用户统一身份认证CIAM Authing身份云用户统一身份认证CIAM,一键配置20+社会化登录方式,丰富、灵活的配置化登录/注册方式,5行代码快速集成Guard通用登录组件,高度自定义的品牌化配置。
商兆科技可信电子签名平台 商兆科技可信电子签名平台,支持创建模板批量生成电子文档,对电子文档从创建到签署完成进行全流程管理。基于电子营业执照的防伪、防篡改、防抵赖特性,可以认证企业主体身份真实性。对电子签名平台上产生的所有行为数据可同步在区块链、三方公证处存证,便于未来举证并提供相应司法服务。
华为云数据库 MySQL 云数据库(RDS for MySQL)是稳定可靠、可弹性伸缩的云数据库服务。通过云数据库能够让您几分钟内完成数据库部署。云端完全托管,让您专注于应用程序开发,无需为数据库运维烦恼

甄选10000+数字化产品 为您免费使用

申请试用