[硕士论文] 垂直搜索引擎的设计与实现(11)

时间：2026-04-28

[硕士论文] 垂直搜索引擎的设计与实现

西北工业大学硕士学位论文第二章垂直搜索引擎的结构单查询机制就使用了７５％以上的资源。

２．１．２Ｈａｒｖｅｓｔ搜索引擎结构

Ｈａｒｖｅｓｔ结构是基于网络蜘蛛与索引机制结构的几种变种之一，其结构如图

２—２所示阍。Ｈａｒｖｅｓｔ使用分布式体系结构获取数据与分发数据，已被ＣＩＡ，ＮＡＳＡ，ＵＳＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅ和ＵＳＧｏｖｅｒｎｍｅｎｔＰｒｉｎｔｉｎｇＯｆｆｉｃｅ使用，另外Ｎｅｔｓｃａｐｅ的目录服务也是Ｈａｒｖｅｓｔ的一种商业化版本；网络应用缓存是Ｈａｒｖｅｓｔ缓存的一种商业化应用。

图２－２Ｈａｒｖｅｓｔ结构

Ｈａｒｖｅｓｔ结构包含两个方面的内容：收集器（ｇａｔｈｅｒｉｎｇ）与Ｂｒｏｋｅｒ。收集器的

任务是定期收集并从多个服务器中抽取索引信息，完成信息的搜集过程。Ｂｒｏｋｅｒ主要对搜集的数据建立索引机制，并完成用户对搜索引擎的查询过程。Ｂｒｏｋｅｒ可以从搜集器中接收信息或从其他的Ｂｒｏｋｅｒ中获取信息来更新其本身的索引。

同时，Ｂｒｏｋｅｒ也可以通过过滤信息或者将所获得的信息发送给其他的未获取相应信息的Ｂｒｏｋｅｒ来节省这些Ｂｒｏｋｅｒ的时间开销。

２．Ｉ．３ＧｏｏｇＩｅ搜索引擎结构

Ｇｏｏｇｌｅ搜索引擎主要依赖于超文本中的结构信息，利用Ｃ／ｃ＋＋编写，运行在

Ｓｏｌａｒｉｅｓ／Ｌｉｎｕｘ平台，其结构如图２—３所示：

网页爬行（Ｃｒａｗｌｉｎｇ，指网页的下载过程）技术是由若干个分布式的网络爬

虫实现的。其中，一个叫做ＵＲＬＳｅｒｖｅｒ的服务器负责把需要下载的ＵＲＬ地址列表分派给这些网络爬虫进行处理。网页数据如果被取回，将立即被送到ＳｔｏｒｅＳｅｒｖｅｒ中。ＳｔｏｒｅＳｅｒｖｅｒ对网页数据进行压缩，然后保存到Ｒｅｐｏｓｉｔｏｒｙ数据库中。每一个文档都拥有一个与之相关的唯一的ＩＤ编号，Ｇｏ０９１ｅ称它为ｄｏｃＩＤ。每当有一个新的链接从网页中破解析出来，它所指向的文档就自动获得一个

[硕士论文] 垂直搜索引擎的设计与实现(11).doc 将本文的Word文档下载到电脑

下载这篇word文档