索引子系统的设计与实现(10)

发布时间:2021-06-08

索引子系统的设计与实现

入用户的反馈环节。

1.2.3 中文XML信息检索系统CnX

本论文侧重优化中文XML文献集的检索系统(索引部分)的设计与实现,CnX就是这样的一个侧重于中文的XML信息检索系统。

由于中文和英文(或其他西欧语言)的信息检索有着很大的不同,英文语句中的单词与单词之间都有空格,而中文却没有这个有利于构建倒排索引的便利条件,那么CnX如何对中文语句进行分词呢?这方面中科院的基于多层隐马尔可夫模型的汉语词法分析系统ICTCLAS[6]为CnX提供了很好的解决方法。同时为了提高索引的效率,CnX还对自然语句进行必要的语义处理,降低索引的冗余性。关于语义的处理,目前也有很多人正在研究这方面的课题,语义的处理将会提高索引的质量,并改善用户的信息检索体验等。

1.3 CnX索引子系统

XML信息检索系统CnX与TopX有着很深的渊源,CnX使用了很多TopX里XML信息检索的思想,保留了TopX构建XML文档倒排索引的数据模型,然后使用了面向对象技术加以重新实现,并且还实现了简单的语义处理和中文索引功能等。

CnX索引子系统是CnX信息检索系统的重要组成部分,其主要功能就是构建XML文档的倒排索引,并使用Okapi BM25算法[7]对倒排索引进行评分,以供上层核心查询程序使用。它的主要处理过程包括:解析中文XML文档,将XML文档映射成具有统一结构的树,构建XML文档的倒排索引和对倒排索引中语词对(tag-term)、文档结点元素以及文档进行全局评分等(评分结果也存储在数据库中,成为索引的一部分)。

系统分为以下几个模块,如图1-3所示。

图1-3 CnX索引子系统的逻辑结构

CnX索引子系统采用C/S架构,将倒排索引文档存储在数据库中,数据存

索引子系统的设计与实现(10).doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219