与DeepWeb爬虫相关知识点的简要介绍-云巴巴

立即咨询

立即试用

商务合作

2022-11-21

随着电脑的诞生，搜索引擎也相应而生，还记得小编第一次使用网络，就是用百度去查账优秀作文。本文，就跟随小编的脚步，一起来了解一下什么是DeepWeb爬虫吧。

表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的Web页面，Web页面按存在方式可以分为表层网页（SurfaceWeb）和深层网页（DeepWeb，也称InvisibleWebPages或HiddenWeb）。DeepWeb是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。2000年BrightPlanet指出：DeepWeb中可访问信息容量是SurfaceWeb的几百倍，是互联网上最大、发展最快的新型信息资源，例如那些用户注册后内容才可见的网页就属于DeepWeb。

DeepWeb爬虫体系结构包含六个基本功能模块（爬行控制器、解析器、表单分析器、表单处理器、响应分析器、LVS控制器）和两个爬虫内部数据结构（URL列表、LVS表），其中LVS（LabelValueSet）表示标签/数值集合，用来表示填充表单的数据源。

DeepWeb爬虫爬行过程中最重要部分就是表单填写，包含两种类型：

1）基于领域知识的表单填写：此方法一般会维持一个本体库，通过语义分析来选取合适的关键词填写表单，利用一个预定义的领域本体知识库来识别DeepWeb页面内容，同时利用一些来自Web站点导航模式来识别自动填写表单时所需进行的路径导航，一种获取Form表单信息的多注解方法，将数据表单按语义分配到各个组中，对每组从多方面注解，结合各种注解结果来预测一个最终的注解标签。

2）基于网页结构分析的表单填写：此方法一般无领域知识或仅有有限的领域知识，将网页表单表示成DOM树，从中提取表单各字段值，一种LEHW方法，该方法将HTML网页表示为DOM树形式，将表单区分为单属性表单和多属性表单，分别进行处理；基于XQuery的搜索系统，它能够模拟表单和特殊页面标记切换，把网页关键字切换信息描述为三元组单元，按照一定规则排除无效表单，将Web文档构造成DOM树，利用XQuery将文字属性映射到表单字段。