[硕士论文] 垂直搜索引擎的设计与实现(8)

发布时间:2021-06-07

[硕士论文] 垂直搜索引擎的设计与实现

西北工业大学硕士学位论文第一章绪论1.3选题意义

综合分类和主题的优势,垂直搜索引擎将能展示更为优秀的检索功能。它在

实际应用中,也有广阔的使用范围。具体的表现形式有三个:

1、垂直搜索引擎系统检索时采用分类目录和主题检索相结合的方法有利于

专业信息的查找,同时消除无关信息,这其实正是专业搜索引擎的一种表现。专业搜索引擎主要针对某一专业的相关网页信息进行索引和提供检索,此时分类且录扮演着重要的角色,因为专业搜索引擎在遍历互联网的时候,通常是利用搜集的网页索引词来给出所属类目,从而判断是否为专业的相关网页。

2、垂直搜索引擎在显示时采用主题和类目结合的方法有利于结果的展示,

提高了网页相关度显示能力,即结果呈现以类聚集的特点,用户以类为对象进行整体查询,效率和查准率都能得到提高。

3、用于构建中、小企业的门户网站或分类信息网。

1.4论文贡献

互联网的快速发展,对搜索引擎提出了更高的要求。巨大的使用需求推动了

搜索引擎技术的发展,各种新技术纷纷应用到搜索引擎中。搜索引擎是这些技术的基础和平台,它决定着这些技术的开发和应用。但一般的研究机构不可能拥有和商业搜索引擎一样规模的计算机资源,因此需要一种对资源要求低、体系开放的搜索引擎来作为各种新技术的平台。

本文在深入分析网页获取、索引生成、信息检索等搜索引擎核心技术的基础

上,设计并实现了一种新的搜索引擎一垂直搜索引擎。该搜索引擎使用网络蜘蛛实现网页获取;通过信息抽取、中文分词和建立倒排文件等技术建立索引数据库;信息检索返回的网页的级别使用本文定义的“页面距离”来度量,大大降低了搜索引擎对于计算机资源的要求。论文主要贡献如下:

1、提出了一种Web搜集器算法,并用.1ava成功实现。

2、在分析了HTML语法特点的基础上,利用Chorasky语法分析的方法,归纳

HTML数据的语法规则,从而达到抽取模式数据,为存储设计提供元数据的目的。这种方法不但能够快速、准确地提取元数据信息,而且容错性强,能够处理不完整的HTML数据片断。

3、提出了一种对HTML数据的检索方法。该方法吸收了信息检索领域的倒排

表索引的优点,结合HTML数据的结构和内容双重索引的设计,能发挥结构信息的语义指导作用,提高了检索的查询精度。

[硕士论文] 垂直搜索引擎的设计与实现(8).doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219