[硕士论文] 垂直搜索引擎的设计与实现(11)
发布时间:2021-06-07
发布时间:2021-06-07
[硕士论文] 垂直搜索引擎的设计与实现
西北工业大学硕士学位论文第二章垂直搜索引擎的结构单查询机制就使用了75%以上的资源。
2.1.2Harvest搜索引擎结构
Harvest结构是基于网络蜘蛛与索引机制结构的几种变种之一,其结构如图
2—2所示阍。Harvest使用分布式体系结构获取数据与分发数据,已被CIA,NASA,USNationalAcademyofScience和USGovernmentPrintingOffice使用,另外Netscape的目录服务也是Harvest的一种商业化版本;网络应用缓存是Harvest缓存的一种商业化应用。
图2-2Harvest结构
Harvest结构包含两个方面的内容:收集器(gathering)与Broker。收集器的
任务是定期收集并从多个服务器中抽取索引信息,完成信息的搜集过程。Broker主要对搜集的数据建立索引机制,并完成用户对搜索引擎的查询过程。Broker可以从搜集器中接收信息或从其他的Broker中获取信息来更新其本身的索引。
同时,Broker也可以通过过滤信息或者将所获得的信息发送给其他的未获取相应信息的Broker来节省这些Broker的时间开销。
2.I.3GoogIe搜索引擎结构
Google搜索引擎主要依赖于超文本中的结构信息,利用C/c++编写,运行在
Solaries/Linux平台,其结构如图2—3所示:
网页爬行(Crawling,指网页的下载过程)技术是由若干个分布式的网络爬
虫实现的。其中,一个叫做URLServer的服务器负责把需要下载的URL地址列表分派给这些网络爬虫进行处理。网页数据如果被取回,将立即被送到StoreServer中。StoreServer对网页数据进行压缩,然后保存到Repository数据库中。每一个文档都拥有一个与之相关的唯一的ID编号,Go091e称它为docID。每当有一个新的链接从网页中破解析出来,它所指向的文档就自动获得一个
上一篇:微生物学第四章 2015
下一篇:03.新中文DC油圧回路