索引子系统的设计与实现(8)
发布时间:2021-06-08
发布时间:2021-06-08
索引子系统的设计与实现
现代计算机的出现使得采用完整的语词集合表示文献变为可能,在信息检索系统中可以使用全文本逻辑视图。然而对于规模很大的集合来说,采用全文本逻辑视图将会变得不是很合理,于是可以采用排除停用词、提取词干、归类同义词近义词和提取句子语义,同时可以采用压缩技术,实现逻辑视图从全文本到索引词集合的转移。
以计算机为中心和以人为中心是研究现代信息检索问题的两个基本观点,但是索引却是每个现代信息检索系统的核心。信息检索涉及到的其它实践问题有很多,比如说扫描、光学字符识别和跨语言检索等。
XML信息检索作为现代信息检索中很重要的一个分支,现代信息技术的发展在很大的程度上推动了XML信息检索技术的发展。XML信息检索大量运用现代信息检索技术所取得的成果,并结合XML自身的结构特性,在XML数据量日益剧增的背景下,XML信息检索得到了很大的发展。
1.1.3 XML信息检索技术的研究现状
Web的广泛使用已经使得它成为了人类知识和文明的全球存储库,这个存储库史无前例的允许用户在无限的空间中实现思想和信息的共享,因此这个巨型知识存储库将会以一个非常快的速度无限增长。由于信息量的巨大、信息的类别多种多样,再加上Web自身结构的问题,使得人们很难在Web中检索出自己想要的信息。对于XML信息检索来说,关键问题还在于如何建模、标引并检索,这些关键的问题目前都是研究的热点。关于XML信息检索,国外由IEEE Computer Society赞助的INEX从2002年起,每年都要举办一次。
XML信息检索的理论研究已经非常成熟,国外高水平论文非常之多,市场上存在的产品也非常丰富,如基于关键字查询的Google,Yahoo!和baidu等。XML技术也发展得非常健全,WEB上的很多数据都已经以XML的结构方式进行存储,如维基百科的海量数据,同时,维基百科也是使用关键字来检索XML文献集的。
XML文档不同于简单的平面文档,对于平面文档,可以直接对其进行全文检索,建立倒排索引文档,然后根据某种或某几种算法进行关键字检索。但是对于XML文档来说,应该怎样构建带有结构信息的倒排索引文档呢?又能不能扩展查询方式,而不限于关键字查询呢(比如使用定义严格的查询语句)?信息检索本身就具有模糊性,那么又应该怎样利用XML的结构信息来提高检索结果的准确率呢?目前有很多人都在关注这些问题,国内外也已经取得了一些XML信息检索技术的成果,基于XML的信息检索系统也已有原型,例如国外的Max-Planck信息研究所的TopX[4]和国内的中国人民大学WAMDM实验室的OrientX[5]等。在中文环境中研究XML信息检索是完全符合中文XML数据日益剧增的事实的,改善中文XML信息检索的需求也越来越受到更多的关注。