索引子系统的设计与实现(10)
发布时间:2021-06-08
发布时间:2021-06-08
索引子系统的设计与实现
入用户的反馈环节。
1.2.3 中文XML信息检索系统CnX
本论文侧重优化中文XML文献集的检索系统(索引部分)的设计与实现,CnX就是这样的一个侧重于中文的XML信息检索系统。
由于中文和英文(或其他西欧语言)的信息检索有着很大的不同,英文语句中的单词与单词之间都有空格,而中文却没有这个有利于构建倒排索引的便利条件,那么CnX如何对中文语句进行分词呢?这方面中科院的基于多层隐马尔可夫模型的汉语词法分析系统ICTCLAS[6]为CnX提供了很好的解决方法。同时为了提高索引的效率,CnX还对自然语句进行必要的语义处理,降低索引的冗余性。关于语义的处理,目前也有很多人正在研究这方面的课题,语义的处理将会提高索引的质量,并改善用户的信息检索体验等。
1.3 CnX索引子系统
XML信息检索系统CnX与TopX有着很深的渊源,CnX使用了很多TopX里XML信息检索的思想,保留了TopX构建XML文档倒排索引的数据模型,然后使用了面向对象技术加以重新实现,并且还实现了简单的语义处理和中文索引功能等。
CnX索引子系统是CnX信息检索系统的重要组成部分,其主要功能就是构建XML文档的倒排索引,并使用Okapi BM25算法[7]对倒排索引进行评分,以供上层核心查询程序使用。它的主要处理过程包括:解析中文XML文档,将XML文档映射成具有统一结构的树,构建XML文档的倒排索引和对倒排索引中语词对(tag-term)、文档结点元素以及文档进行全局评分等(评分结果也存储在数据库中,成为索引的一部分)。
系统分为以下几个模块,如图1-3所示。
图1-3 CnX索引子系统的逻辑结构
CnX索引子系统采用C/S架构,将倒排索引文档存储在数据库中,数据存