随着电脑的诞生,搜索引擎也相应而生,还记得小编第一次使用网络,就是用百度去查账优秀作文。本文,就跟随小编的脚步,一起来了解一下什么是DeepWeb爬虫吧。
表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的Web页面,Web页面按存在方式可以分为表层网页(SurfaceWeb)和深层网页(DeepWeb,也称InvisibleWebPages或HiddenWeb)。DeepWeb是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。2000年BrightPlanet指出:DeepWeb中可访问信息容量是SurfaceWeb的几百倍,是互联网上最大、发展最快的新型信息资源,例如那些用户注册后内容才可见的网页就属于DeepWeb。
DeepWeb爬虫体系结构包含六个基本功能模块(爬行控制器、解析器、表单分析器、表单处理器、响应分析器、LVS控制器)和两个爬虫内部数据结构(URL列表、LVS表),其中LVS(LabelValueSet)表示标签/数值集合,用来表示填充表单的数据源。
DeepWeb爬虫爬行过程中最重要部分就是表单填写,包含两种类型:
1)基于领域知识的表单填写:此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单,利用一个预定义的领域本体知识库来识别DeepWeb页面内容,同时利用一些来自Web站点导航模式来识别自动填写表单时所需进行的路径导航,一种获取Form表单信息的多注解方法,将数据表单按语义分配到各个组中,对每组从多方面注解,结合各种注解结果来预测一个最终的注解标签。
2)基于网页结构分析的表单填写:此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成DOM树,从中提取表单各字段值,一种LEHW方法,该方法将HTML网页表示为DOM树形式,将表单区分为单属性表单和多属性表单,分别进行处理;基于XQuery的搜索系统,它能够模拟表单和特殊页面标记切换,把网页关键字切换信息描述为三元组单元,按照一定规则排除无效表单,将Web文档构造成DOM树,利用XQuery将文字属性映射到表单字段。
怎么样,有没有感觉到自己的知识又多了两麻袋,在这个网络时代,多了解一下DeepWeb爬虫的相关知识可以说是有利无害的,让我们一起加油吧。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
1月16日,2025腾讯产业合作伙伴大会在三亚召开。云巴巴,荣膺“2024腾讯云卓越合作伙伴奖—星云奖”和“2024腾讯云AI产品突出贡献奖”双项大奖
制造业为何选择蓝巨人AGV?解析72小时柔性改造背后的三维技术革新
广告产研协同工具怎么选?TAPD 3个关键指标 打通敏捷协作全流程
能否高效解决多门店场景下的工时记录与成本分摊难题,已然成为连锁餐饮企业选择 HR 系统的关键考量因素。
数据开发治理平台选型评测!腾讯云WeData如何实现全域治理与降本增效