[硕士论文] 垂直搜索引擎的设计与实现(6)
发布时间:2021-06-07
发布时间:2021-06-07
[硕士论文] 垂直搜索引擎的设计与实现
西北工业大学硕士学位论文第一章绪论即时通讯(41.996)、论坛/BBS/讨论组等(41.6%)。
然而,事实也已经证明单纯依靠搜索引擎提供的分类目录和关键词检索,搜
索效果并不理想。分类目录所涵盖的网页资源需要人工编辑,因此数量有限。而对于关键词检索,虽然搜索引擎技术几经完善,但是信息的查全率和查准率还是相当低下,特别是较低的查准率使得用户得到搜索结果后还需进一步挑选,智力负担相当重。即使比较著名的诸如Google等搜索引擎对检索结果采用了基于超链接的相关度排序,但它们主要依据的也只是网页被其他网页认可的程度,并非网页与用户真实检索需求之间的关联程度,同时结果中包含了大量与用户查询请求不相关的文档,用户在返回的动辄成千上万条记录中寻找相关文档犹如大海捞针。
造成这种现象的原因很多,从主观上讲,对于分类目录,用户通常并不一定
清楚搜索引擎提供的分类目录是否真正包含自己所需的内容,而且缺乏必要的分类知识也会使得用户难以在庞大的、经常动态调整的类目间准确定位。1。而对于关键词检索,用户通常键入的词语是非常简练的,而且也无法保证是否与命中记录存在关系。从客观上讲,搜索引擎技术还有相当大的完善空间。目前的技术在提高网页查全率和相关度排序上已经达到了较高的水平,但是对于自动网页分类和聚类、基于概念的检索词匹配等方面仍然要求技术突破。除了这些技术原因外,产生目前问题的原因还包括一些设计方面存在的缺陷。如搜索引擎系统与用户的接口设计存在障碍,让彼此难以通过现有的界面进行良好的表达和反馈,用户无法有效地根据搜索引擎的提示调整检索策略,搜索引擎也无法以一种方便用户操作的合理方式来展示查询结果。作为一项直接面对普通用户的检索技术,搜索引擎要想实现检索的成功,一定要能在用户与检索系统之间建立良好的沟通渠道。这个渠道能使用户准确表达自己的检索需求,同时系统能够准确理解用户的检索意图,并且能以一种用户感觉良好的方式显示结果。但事实上,孤立地使用单一的分类目录和关键词检索,往往都使得这种愿望难以实现。在现阶段技术水平下,要提高搜索引擎的检索效果,必须从搜索引擎的基础收录入手,并采用分类目录和主题检索相结合的方法。
1.2搜索引擎的现状分析
搜索引擎起源于传统的全文检索理论,即通过扫描每一篇文档资料中出现的
词语,建立以关键词为单位的索引文件,并通过界面让用户使用关键词进行检索。从深层次来看,搜索引擎的出现有技术的必然性,主要原因在于快速发展的网络提供的资源极大地超出了人们能够自然有效地利用传统方法进行管理的能力范围。传统的管理信息资源的方法主要基于人们对信息的再消化、再理解,以信息
上一篇:微生物学第四章 2015
下一篇:03.新中文DC油圧回路