海量文档信息的高效检索算法
时间:2026-01-15
时间:2026-01-15
海量文档信息的高效检索算法
第18卷 第1期
2008年2月长 春 大 学 学 报
JOURNALOFCHANGCHUNUNIVERSITYVol.18
No.1Feb.2008 文章编号:1009-3907(2008)01-0066-04
海量文档信息的高效检索算法
满 鹏
(长春大学 计算中心,吉林 长春 130022)
摘 要:在讨论“文档信息管理系统(DocMis)”的检索技术的发展历程、概念及其功能,主要计算技术的分类及技术特点分析,DocMis系统的构建研究及其性能评价的基础上,讨论了其中的主要计算技术:并行检索、分布式检索、系统架构和检索算法等。
关键词:文档;信息检索;计算技术
中图分类号:TP311 文献标识码:A
0 引 言
,目的是为了规范企事业单位的日常工作流程和员工的日常行为。针对通知文件的管理是企事业单位日常管理工作之一。根据下发文件的部门不同,文件的编号和名称也不同,文件类型和附件数量等信息也各有不同。目前的管理方式几乎都是传统的人工操作,经过长时间的积累,由于文件数量的增多,容易导致文件的混乱、丢失等难以意料的后果,给管理人员的工作造成了一定的困难。因此,迫切需要一种行之有效的方法来解决目前这种窘况。
目前,尽管国内有着品类繁多的文件管理系统,但也只是局限于特定文件的管理,如文本文件、图片文件、媒体文件等。关于系统化的综合型文件管理软件的研究和发展,仍然处于萌芽阶段,而且要实现这一系统在技术上存在很大的困难。
根据目前文档管理的具体情况,在组织专门人员进行了调研和需求分析之后,我们设计开发了一套较为规范化的文档信息管理系统(DocMis),实现文档管理的办公自动化,收到良好的应用效果。本文将从“Doc2Mis”的检索技术和系统架构出发,阐述文档信息检索的设计与实现的方案。
1 相关技术回顾
1.1 并行检索
并行计算指的是,将单个问题划分为多个较小的“子”问题,用多个处理器同时分别处理这些“子”问题来得到单个问题的解。显然,由于并行计算能够同时利用多个处理器资源,所以通常能够减少问题求解的总时间,从而解决大规模的问题。多个可以同时工作的处理部件或处理器构成的计算机系统,称为并行计算机。并行计算系统包括并行计算机或多处理机系统。在并行计算系统中,不同处理器同时运行多个程序或者一个程序的不同进程,从而提高系统的运算速度。
根据指令和数据流的数目不同,并行计算的体系结构通常可以分成SISD、SIMD、MISD、MIMD等四种类型。其中MIMD是现在最通用和使用最广泛的一种类型。后面提到的并行检索也主要基于这种体系结构。MIMD的体系结构如图1所示。
要实现并行检索,首先让我们考察信息检索的一般过程:如图2所示,用户提交一条查询,代理程序(broker)对原始查询进行处理(如查询的分析转换或格式化处理等等),然后将处理后的查询发给搜索程序,收稿日期:2007210231
作者简介:满鹏(19732),男,吉林省长春市人,长春大学计算中心实验师,硕士,主要从事分布式检索技术、数据库技术、软件组
件方面的研究。
海量文档信息的高效检索算法
第1期 满 鹏:海量文档信息的高效检索算法67搜索程序找到结果并进行处理(如排序)后返回给代
理,代理经过必要的处理(如结果的归整、合并等)将结
果返回给用户。
1.2 分布式检索
分布式计算可以把地理位置上分布更广的异构文
档整合成一个更大的逻辑整体。分布计算是利用网络
连接的多台计算机去求解一个问题。从广义上说,分布
式计算可以看成MIMD并行计算的一个特例。不过所
不同的是,分布式计算中的通讯开销比较大,
因此最多
只能算是一个松耦合的并行计算系统。另外,它能够把更
大范围的异构数据整合成一个逻辑整体,因此,分布式计
算具有更强大的计算能力。
利用分布式计算进行信息检索称为分布式检索并行检索比较,:),,分布式检索中图1 MIMD体系结构图2 查询内部的并行处理过程
。就通讯本身而言,由于不同系统的异构性,分布式检索系统中通常采用TCP/IP协议来实现通讯,而并行检索中处理器之间的通讯可以通过共享内存来实现。(2)分布式检索的数据规模相对较大,每个节点的处理能力又不尽相同,因此,分布式检索通常只选择某些数据子集进行检索,而不是像并行检索那样,需要返回每个数据子集的结果。(3)分布式检索的对象的异构性使得统一描述和访问成为必须要考虑的问题。
由于第一个特点,分布式检索通常采用数据集分割而不是查询项分割来划分数据。因为,采用查询项分割后进行信息查询需要更多的通讯操作。
由于第二个特点,需要研究分布式检索中数据集合的划分和子集合的选择方法。数据集合划分的方法很多。一个最简单的方法就是将数据集合按照语义类别(比如:军事、体育等)划分成子集合,在进行查询时,选择相应的语义类别对应的子集合进行查询。在进行数据集划分时可以采用分类或者自动聚类方法。在进行查询时,首先根据查询和每个子集合的相似度来将所有数据子集合进行排序,选择部分子集合进行查询,然后将每个子集合上返回的结果进行合并而得到最后结果。计算查询和数据子集合的相 …… 此处隐藏:2921字,全部文档内容请下载后查看。喜欢就下载吧 ……
下一篇:计算机网络技术学习心得体会