网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。
拓扑分析算法,基于网页之间的链接,通过已知的网页或数据,来对与其有直接或间接链接关系的对象(可以是网页或网站等)作出评价的算法,又分为网页粒度、网站粒度和网页块粒度这三种。
网页(Webpage)粒度的分析算法,PageRank和HITS算法是最常见的链接分析算法,两者都是通过对网页间链接度的递归和规范化计算,得到每个网页的重要度评价。PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在,但忽略了绝大多数用户访问时带有目的性,即网页和链接与查询主题的相关性,针对这个问题,HITS算法提出了两个关键的概念:权威型网页(authority)和中心型网页(hub)。
网站粒度的分析算法,网站粒度的爬虫抓取的关键之处在于站点的划分和站点等级(SiteRank)的计算,SiteRank的计算方法与PageRank类似,但是需要对网站之间的链接作一定程度抽象,并在一定的模型下计算链接的权重,网站粒度的资源发现和管理策略也比网页粒度的更简单有效。
网站划分情况分为按域名划分和按IP地址划分两种:讨论了在分布式情况下,根据不同文件在各个站点上的分布情况,构造文档图,结合SiteRank分布式计算得到DocRank。通过对同一个域名下不同主机、服务器的IP地址进行站点划分,构造站点图,利用类似PageRank的方法评价SiteRank。
网页块粒度的分析算法,在一个页面中,往往含有多个指向其他页面的链接,这些链接中只有一部分是指向主题相关网页的,或根据网页的链接锚文本表明其具有较高重要性,但是,在PageRank和HITS算法中,没有对这些链接作区分,因此常常给网页分析带来广告等噪声链接的干扰。通过实验证明,效率和准确率都比传统的对应算法要好,在网页块级别(Block?level)进行链接分析的算法的基本思想是通过VIPS网页分割算法将网页分为不同的网页块(page block),然后对这些网页块建立链接矩阵。
以上,就是关于网页分析算法类型的相关介绍,你明白了吗?下篇文章,小编会介绍一下关于网页分析算法的其他相关知识,持续关注一下吧。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
1月16日,2025腾讯产业合作伙伴大会在三亚召开。云巴巴,荣膺“2024腾讯云卓越合作伙伴奖—星云奖”和“2024腾讯云AI产品突出贡献奖”双项大奖
5月,由腾讯云举办的 “2025 腾讯云全域增长实战营” 在线上开课。而云巴巴在此次实战营中,凭借卓越的实力和出色的表现,一举斩获 “涨粉狂人奖”,荣耀时刻,备受瞩目。
企业要想挑选出专业、可靠的密评服务商,需从多个关键环节进行考量。以下从密钥管理到算法集成的五个必看指标,助力企业精准筛选密评服务商。
面对市场上众多等保服务商,如何挑选出真正适配企业发展需求、专业可靠的那一家,成为诸多企业面临的难题。
百元建站工具大盘点!零基础搭建腾讯云服务器/域名/SSL/DNS的详细攻略