索引子系统的设计与实现(2)

发布时间:2021-06-08

索引子系统的设计与实现

摘 要

CnX索引子系统是一个完整的中文XML文献倒排索引的构建系统,它主要由中英文语义处理模块、倒排索引构建模块和Okapi BM25概率模型评分模块组成,论文设计并实现了基于C/S架构的多线程CnX索引子系统。

与普通的无结构文本文档不同,XML文档是一种半结构化的文档,在构建XML文档倒排索引的时候要考虑在倒排索引中体现XML的结构信息。XML文档的结构就是一棵树,它由很多的结点构成,它的结点又可以分为结构(内部)结点和叶子结点,通常认为只有叶子结点才会包含文本信息。对于每个叶子结点所包含的文本信息,可以跟检索平面文件的方式一样——直接进行简单的全文检索。

由于CnX索引子系统需要支持中文检索,所以在进行创建索引的过程中,先要对中文语句进行分词处理。然后根据XML文档的结构信息构建tag-term的语词对,在内存中调整XML树的结构,并形成一个虚拟的文档树对象。接下来通过运用前后序遍历算法处理这棵树,将XML文档的倒排索引存储到数据库中。最终在完成基本索引的创建之后,再使用Okapi BM25算法对所有索引进行评分,以供上层的核心查询程序使用。

CnX索引子系统是一个完整XML信息检索系统的基础,对于XML信息检索系统的整体构建有着很重要的作用。

关键词:XML;中文;倒排索引;信息检索(IR)

索引子系统的设计与实现(2).doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219