索引子系统的设计与实现(15)
发布时间:2021-06-08
发布时间:2021-06-08
索引子系统的设计与实现
2.2 倒排索引结构需求
倒排索引可以直接存储在文件系统上或者存储在数据库系统里,考虑到实现上的复杂度,可以选择将索引存储在关系数据库里,然后再利用关系数据库的功能对索引进行评分处理。所以就需要先在数据库中构建存储索引的表结构,考虑到XML文档倒排索引的特点——需要存储XML的结构信息,倒排索引结构表的需求如下(以下结构依赖于构建的XML映射树)。
表2-1 oneindex表 字段名 字段含义
path XML结点的XPath路径
bucketId 全局XPath的唯一编号
表2-2 xPath表
字段名 eid
Xpath 字段含义 全局元素唯一编号 当前元素的XPath
表2-3 documents表 字段名
did
fileId
author
title
preview
uri 字段含义 文档全局编号 文档自描述编号 文档作者 文档题目 预览内容 文件定位符
表2-4 elements表
字段名 did
tag
pre
post
lev
bucketId
cpts 字段含义 元素所属文档编号 元素名 前序遍历编号 后续遍历编号 元素(结点)所属层 结点的oneindex标识 结点语词总数
表2-5 features表
字段名
did
tag
term
字段含义 元素所属文档编号 元素(结点)名 元素包含的单个语词