[硕士论文] 垂直搜索引擎的设计与实现(13)
发布时间:2021-06-07
发布时间:2021-06-07
[硕士论文] 垂直搜索引擎的设计与实现
西北工业大学硕士学位论文第二章垂直搜索引擎的结构的搜索程序中,连同PageRank和倒排索引一起,为用户提供查询服务。
2.2分类目录式搜索引擎
分类目录式搜索引擎是互联网上最早提供唧资源查询的工具。分类目录式
搜索引擎,也称为目录型检索工具,或目录搜索引擎。它主要包含:网页采集、网页分类、网页索引、搜索器等旧。其中网页的采集过程一般需要由编辑人员查看信息后人工生成信息摘要,并将信息置于事先确定的分类框架中m。网页的分类过程分为人工和自动两种,由于一个分类目录式搜索引擎一般要采集数亿个网页,因此,信息的分类是个非常繁琐的工作。用户查询时,通过逐级层层浏览这些类目,寻找自己所需的网址信息。这类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大等。国外具有代表性的目录搜索引擎有:Yahoo,LookSmart,OpenDirectory,60Guide等。国内具有代表性的目录搜索引擎有:搜狐、新浪,中文雅虎等。
2.3垂直搜索引擎的结构
根据搜索引擎设计的复杂度不同,搜索引擎的设计框架也不一样,简单的基
于查询串的搜索引擎如AltaVista等,只包含两部分的功能:搜索与用户查询服务。复杂的搜索引擎提供目录服务以及其他的内容。本文根据常用的搜索结构,
有机地将分类目录式搜索引擎和基于查询串的搜索引擎结合起来,设计了一个垂直搜索引擎的体系结构,如图2—4所示。
其各部分功能简述如下:
l、爬虫软件:也称为spider,crawler和robot等,定向搜索各类信息前
十名的网站,并负责将这些Web文档搜集到原始数据库中。
2、索引器:负责对原始数据库的文档构造索引,并且存储在索引数据库中。
索引是检索的有利工具,好的索引机制会导致检索效率的提高。
3、检索器:是垂直搜索引擎的核心。检索器利用索引数据库中的索引来查
找与用户查询相匹配的文档,计算各个文档和查询关键词的相关度,并将相关度大于阈值的文档按照相关度递减的顺序排列,返回给用户。
4、用户接口:提供可视化的查询输入和结果输出界面。一般来说,在输出
界面中,垂直搜索引擎将检索结果展示为一个线形的文档列表,其中包含了文档的标题和超链等信息。
从图2-4可以看出:垂直搜索引擎系统包括搜集子系统、索引子系统和检索
子系统三个组成部分。9
上一篇:微生物学第四章 2015
下一篇:03.新中文DC油圧回路