[硕士论文] 垂直搜索引擎的设计与实现(19)

时间：2026-04-27

[硕士论文] 垂直搜索引擎的设计与实现

西北工业大学硕士学位论文第三章Ｗｅｂ搜集器

第三章Ｗｅｂ搜集器

Ｗｅｂ搜集器的功能是在互联网中漫游、发现和搜集信息。它常常是一个计算

机程序（也称为ｓｐｉｄｅｒ，ｃｒａｗｌｅｒ和ｒｏｂｏｔ等），日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息，同时因为互联网上信息更新很快，所以还要定期访问已经搜集过的旧信息，以避免死链接和无效链接．

本文设计的Ｗｅｂ搜集器能够根据某一类信息需求，从互联网上的各个信息阿

站（主要是独立制作发布信息的网站），收集围绕着某个（或某类）主题的相关信息资料。

３．１Ｗｅｂ搜集器算法

Ｗｅｂ搜集器算法包括四个重要的队列：ｕｒｌ＿ｑｕｅｕｅ包括网络蜘蛛（Ｃｒａｗｌｅｒ）访

问过的与主题无关的ＵＲＬ；相应的Ｔｏｐｉｃ＿ｕｒｌｑｕｅｕｅ包含网络蜘蛛搜集到的与主题相关的ＵＲＬ，这些ＵＲＬ对应的页面需要扩展；一旦一个网页被访问过，该网页与它对应的ＵＲＬ一同存储在ｃｒａｗｌｅｄ＿ｐａｇｅｓ中；Ｌｉｎｋｓ包含着ＵＲＬ对（ｕＩ，Ｕ２），Ｕ。是父网页的ＵＲＬ，ｕ２是子网页的ＵＲＬ。其中ｕｒｌ＿ｑｕｅｕｅ和Ｔｏｐｉｃ＿ｕｒｌ＿ｑｕｅｕｅ队列中的ＵＲＬ的权值的捧序通过函数ｒｅｏｒｄｅｒ＿ｑｕｅｕｅ０来实现。其算法如下：

输入：ｓｔａｒｔｉｎｇ＿ｕｒｌ（种子ＵＲＬ）

执行过程：

［１］ｅｎｑｕｅｕｅ（ｕｒｌ—ｑｕｅｕｅ，ｓｔａｒｔｉｎｇ＿ｕｒｌ）

［２］ｗｈｉｌｅ（ｎｏｔｅｍｐｔｙ（ｔｏｐｉｃ＿ｕｒｌ—ｑｕｅｕｅ）ａｎｄ

［３］ｎｏｔｅｍｐｔｙ（ｕｒｌ＿ｑｕｅｕｅ））ｕｒｌ＝ｄｅｑｕｅｕｅ２（ｔｏｐｉｃ＿ｕｒｌｑｕｅｕｅ，ｕｒｌ＿ｑｕｅｕｅ）

［４］ｐａｇｅ＝ｃｒａｗｌ＿ｐａｇｅ（ｕｒｌ）

［５］

［６］

［７】ｅｎｑｕｅｕｅ（ｃｒａｗｌｅｄ＿ｐａｇｅｓ，（ｕｒｌ，ｐａｇｅ））ｕｒｌ—ｌｉｓｔ＝ｅｘｔｒａｃｔ＿ｕｒｌｓ（ｐａｇｅ）ｆｏｒｅａｃｈｕｉｎｕｒｌ—ｌｉｓｔ

［８］

［９］

［１０］

［１１］

［１２］

［１３］ｅｎｑｕｅｕｅ（１ｉｎｋｓ，（ｕｒｌ，ｕ））ｉｆ（ｕ隹ｕｒｌ＿ｑｕｅｕｅａｎｄｕ岳ｔｏｐｉｃ＿ｕｒｌ—ｑｕｅｕｅａｎｄｕ圣ｃｒａｗｌｅｄ＿ｐａｇｅｓ）ｉｆ（ｃｌａｓｓｉｆｉｅｒ（ａｎｃｈｏｒａｎｄｓｕｒｒｏｕｎｄｉｎｇａｎｄｕｒｌｔｅｘｔｏｆｕ）＞Ｃ）ｅｎｑｕｅｕｅ（ｔｏｐｉｃ—ｕｒｌ—ｑｕｅｕｅ，ｕ）ｅｌｓｅｅｎｑｕｅｕｅ（ｕｒｌ—ｑｕｅｕｅ，ｕ）

[硕士论文] 垂直搜索引擎的设计与实现(19).doc 将本文的Word文档下载到电脑

下载这篇word文档