索引子系统的设计与实现(14)
时间:2025-03-09
时间:2025-03-09
索引子系统的设计与实现
另外在程序运行的过程中,程序应该能够实时地反馈必要的处理信息和处理状态给用户。
②功能需求:系统能够正确处理中文XML文献集中的文档、自行定义中文分词短语词典(图2-3)和自行定义停用词词典(图2-4)。
图2-3 用户自定义分词词典
图2-4 用户自定义停用词词典
系统应该把索引的构建过程和索引的评分过程分开,使得系统既能够在构建索引之后立即评分,也能够随时对索引进行评分。对于中文分词和词干提取,系统也应该是可选的,同时,对于任意一个XML文献集,系统都能够提取其XML文档的自描述信息,以供上层查询程序使用,系统还应该能在运行的过程中随时被停止。另外,对于倒排索引的存储可以使用关系数据库,并且不能依赖于某一个关系数据库等等。
③结构需求:系统需采用C/S架构,将数据存储和数据处理分开部署到不同的设备上,系统应采用并行化设计,能够同时处理多个XML文档等。
④运行环境需求:系统应具备跨平台运行能力,应该能够非常容易的就能部署到主流的平台上,如Windows和类Unix平台上等。