[硕士论文] 垂直搜索引擎的设计与实现(21)

时间：2026-04-23

[硕士论文] 垂直搜索引擎的设计与实现

西北工业大学硕士学位论文第三章Ｗｅｂ搜集器

Ｗｅｂ搜集器负责从种子网页开始收集主题相关的网页，该模块的执行效率决

定了垂直搜索引擎的效率。为提高垂直搜索引擎的执行效率，Ｗｅｂ搜集器采用多线程并行地进行网页的下载和分析．本节详细介绍了Ｗｅｂ搜集器的主要类、接口与数据库设计。

（１）ＣｒａｗｌｅｒＳｔａｔｅ类

状态类ＣｒａｗｌｅｒＳｔａｔｅ管理Ｗｅｂ搜集器的状态．其状态设计如表３－１所示：

各状态之间的转化关系如图３—１所示。

（２）Ｐａｇｅ类

Ｐａｇｅ类封装了网页的属性和操作。当发现一个新的链接（ＵＲＬ）时将其存

入数据库中等待下载，下载完毕后创建一个Ｐａｇｅ对象，等待Ｃｒａｗｌｅｒ线程进行分析。

Ｐａｇｅ类的主要数据成员如下：

ＵＲＬｂａｓｅ；／／网页的ＵＲＬ地址，比如ｗｗｗ．ｙａｈｏｏ．ｃｏｌｎ．皿

Ｓｔｒｉｎｇｔｉｔｌｅ：／／网页的标题

Ｓｔｒｉｎｇｃｏｎｔｅｎｔ；／／网页的主要内容

Ｒｅｇｉｏｎ［］ｔｏｋｅｎｓ；

Ｔｅｘｔ［】ｗｏｒｄｓ；

Ｔａｇ［］ｔａｇｓｌ／／网页中的所有标签

Ｅｌｅｍｅｎｔ［］ｅｌｅｍｅｎｔ；／／网页文档结构树中的所有节点

Ｅｌｅｍｅｎｔｒｏｏｔ；／／网页文档结构树的根

Ｌｉｎｋ［］ｌｉｎｋｓ；／／网页中的所有链接

（３）ｌｉｎｋ类

ｌｉｎｋ类封装了网页之间链接的属性和操作，包括链接的父网页对应的Ｐａｇｅ

对象，链接的地址以及链接的Ａｎｃｈｏｒ文字等元数据。

ｌｉｎｋ类的主要数据成员如下；

ｐｒｉｖａｔｅＰａｇｅ

ｐｒｏｔｅｃｔｅｄＵＲＬ

ｐｒｉｖａｔｅｆｌｏａｔｐａｇｅ：／／链接的父网页对应的Ｐａｇｅ对象ｕｒｌ；／／链接的ＵＲＬ地址ｐｒｉｏｒｉｔｙ；／／链接的主题相关性权值

ｄｐ：／／链接的下载参数ｐｒｉｖａｔｅＤｏｗｎｌｏａｄＰａｒａｍｅｔｅｒｓ

（４）Ｃｒａｗｌｅｒ类

Ｗｅｂ搜集器的核心是Ｃｒａｗｌｅｒ类，它实现了收集主题相关网页的功能。

Ｃｒａｗｌｅｒ类的主要数据成员如下：

ｐｒｏｔｅｃｔｅｄ１ｗｏｒｋｌｏａｄＳｔｏｒａｂｌｅｗｏｒｋｌｏａｄ；／／数据库接口，管理Ｃｒａｗｌｅｒ搜集到的链接（ＵＲＬ），等待ＣｒａｗｌｅｒＷｏｒｋｅｒ线程池中的线程下载分析

[硕士论文] 垂直搜索引擎的设计与实现(21).doc 将本文的Word文档下载到电脑

下载这篇word文档

上一篇：微生物学第四章 2015

下一篇：03.新中文DC油圧回路

精彩图片

大家正在看

电话沟通技巧及服务礼仪 m法和k法可灵活组合的刚性抗滑桩 2010年江苏省公务员A类行测真题 ASTM D1141-98(2003)海水代用品学生会生活部述职报告第三章剪切和扭转(pdf) 申请经费的请示汉语习得过程中的语序问题

[硕士论文] 垂直搜索引擎的设计与实现(21)

精彩图片

猜你喜欢

热门精选

经典双语美文：加油为了心中的梦想

美文赏析：花开向暖，素锦留香

经典美文：花开向暖，素锦留香

经典美文：青春如歌，携一份懂得同行

在雨中静听自己的心跳美文

浅谈当今大学教育的含金量双语美文

大家正在看