[硕士论文] 垂直搜索引擎的设计与实现(15)

发布时间:2021-06-07

[硕士论文] 垂直搜索引擎的设计与实现

西北工业大学硕士学位论文第二章垂直搜索引擎的结构在海量信息而且复杂多变,Web搜集器的实现常常采用分布式、并行计算技术,

以提高信息发现和更新速度。

本文设计的%b搜集器能够根据某一类信息需求,从互联网上的各个信息网

站(主要是独立制作发布信息的网站),收集围绕着某个(或某类)主题的相关信息资料。它是垂直搜索引擎的核心部分,详细内容将在第三章介绍.

2.3.2索引子系统

索引予系统包括索引器和索引数据库。索引器将原始数据库的内容重新组

织,建立索引数据库,以提高检索效率.索引子系统如图2—7所示。

图争7索引子系统结构

索引予系统的第一步就是为原始网页建立索引,实现图2-7中索引网页库;

接下来对索引网页库进行分析,它包括提取正文信息和把正文信息切分为索引项两个阶段;最后将网页到索引项的映射转化为索引项到网页的映射,形成倒排文件(包括倒排表和索引项表),同时将网页中包含的不重复的索引项汇聚成索引项表。

2.3.2.1索引网页库

索引网页库的任务就是完成给定一个URL,在原始网页库中定位到该URL所

指向的记录旧。

如果不对网页库建立索引信息,可以通过顺序查找的方法完成URL到指定记

录的过程,但是会消耗大量的I/o,数据量增大的时候不能满足垂直搜索引擎的快速响应要求,所以需要创建索引。对原始网页集R,索引网页库算法描述如图2—8所示”’。

网页索引文件以ISAM(索引顺序访问模式)存储。这种结构可以保证数据的紧凑性和O(1)的检索能力。为节省空间,索引文件中的每一行记录不保存文

[硕士论文] 垂直搜索引擎的设计与实现(15).doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219