数据仓库技术与应用
时间:2025-07-08
时间:2025-07-08
数据仓库技术与应用
2004年第11期
文章编号:100622475(2004)1120086203
计算机与现代化
JISUANJI YU XIANDAIHUA
总第111期
数据仓库技术与应用
项 军,雷英杰
(空军工程大学导弹学院,陕西三原 713800)
摘要:对数据仓库、联机分析处理和数据挖掘等几个概念做了详细的介绍,在此基础上提出适用于电信系统应用的设计思想,详细介绍了该系统的系统结构、关键技术的实现和各子系统功能。关键词:数据仓库;联机分析处理;数据挖掘中图分类号:TP311.13 文献标识码:A
TheTechniqueandApplicationofDataWarehouse
XIANGJun,LEIYing2jie
(MissileInstituteofAirForceEngineeringUniversity,Sanyuan 713800,China)
Abstract:Thispaperintroducestheconceptsofdatawarehouse,on2lineanalyticalprocessinganddatamining,putsforwardthedesignthoughtoftelecommunicationsystemandbrieflyintroducesthesystemstructure,thekeytechniquesofthesystemandthefunctionsofeachsub2system.
Keywords:datawarehouse;on2lineanalyticalprocessing;datamining
0 引 言
近年来,随着企业计算机应用的不断深入,大部
分企业已经投入了大量的时间和资源建立了庞大而复杂的信息系统,积累了大量的宝贵数据资源。面对日益激烈的市场竞争和潜在的金融风险,这些企业迫切希望能有一个强而有力的分析工具来帮助他们从这些海量的数据中充分挖掘有意义的信息,以辅助高层领导者进行计划和指导决策活动。
数据仓库的目的是为了建立一种体系化的数据存储环境,将分析决策所需要的大量数据从传统的操作环境中分离出来,使分散、不一致的操作数据转成集成、统一的信息,进而支持决策。完整的数据仓库包括三个方面的技术内容:数据仓库技术、联机分析处理技术和数据挖掘技术。该文对数据仓库技术及其决策支持工具进行了详尽的讨论,并提出适用电信行业的方案设计思想。
1.1 数据仓库(DataWarehouse)
1 数据仓库及其决策支持工具的概述
根据W.H.Inmon的定义“:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持决策制定过程。”数据仓库是一个专门的数据仓储对象[1]。它通过清理、转移、分析、映射和综合,形成统一的存储格式,最终为用户特别是决策支持者提供对公用数据的更好的访问支持。数据仓库有四个显著特点[2]:
(1)数据仓库的面向主题性。
主题是一个抽象的概念,是在较高的层次上对企业信息系统中的数据综合、归类后进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域的分析对象,是针对某个决策问题而设置的。
(2)数据仓库的数据是集成的。
数据仓库中存储的数据从原来的分散、异构的数据库数据经过抽取、统一、综合转换成全局统一的定义消除不一致和错误之处。
(3)数据仓库的数据是不可更新的。
数据仓库中的数据通常是一起载入与访问的,在
收稿日期:2003212227
基金项目:教育部高等学校骨干教师资助计划项目(GG281029003921003)
作者简介:项军(19792),男,四川绵阳人,空军工程大学导弹学院计算机工程系硕士研究生,研究方向:智能信息处理与人工智能;雷英杰(19562),男,陕西渭南人,教授,博士生导师,研究方向:智能信息处理,模式识别,人工智能。
数据仓库技术与应用
2004年第11期项军等:数据仓库技术与应用
87
数据仓库环境中不进行一般意义上的数据更新。所以数据在一定的时间间隔是稳定的,并且能反映企业当前和历史的数据。
(4)数据仓库的数据是随时间变化的。
数据仓库的数据随时间变化不断增加新的数据内容和删去旧的数据内容。数据仓库中含有大量与时间有关的综合数据。
粒度是数据元素中包含的信息的确切性程度,分为细粒度和粗粒度[3]。它深深地影响存放在数据仓库中的数据量的大小,影响存储介质大小和查询效率;同时影响数据仓库所能回答的查询类型,即所能满足的信息分析的功能需求。1.2 联机分析处理(OLAP)技术
OLAP是On2LineAnalyticalProcessing(联机分析处理)的首字母缩写,是与数据仓库密切相关的一种决策支持工具,是使管理人员和分析人员或执行人员能从多角度对原始数据转化出来的,能够真正为用户所理解的并真实反映企业特性的信息进行快速、一致、交互的存取,从而获得对数据的更深入了解的一类软件技术。其目标是决策支持和多维环境特定的查询和报表需求,其技术核心是“维”这个概念,维是人们观察事物的角度,所以OLAP也可以说是多维数据分析工具的集合。操作数据存储的两种方式分别为多维数据存储和关系数据存储,由此形成了OLAP的两种实现结构:基于多维数据库的OLAP(MOLAP)实现和基于关系数据库的OLAP(ROLAP)实现[4]。
MOLAP是以多维数据库(MDD)为基础,MDD将数据存放在一个n维数组中,存在着大量的稀疏数据,在事件发生的部位,数据聚合在一起,密度很大,成为稠密数据[5]。MDD对稀疏数据进行压缩存储,以减少存储空间占有量,而且数据综合速度快。但多维数据库管理系统缺乏标准且功能不强。
ROLAP是以成熟的关系数据管理系统上,在灵活性和处理数据能力方面有优势。其不足是存放了大量细节数据和较少的综合数据,有时需要牺牲效率为代价动态地综合数据。1.3 数据挖掘(DM)技术数据挖掘是一种决策支持过程,利用 …… 此处隐藏:5043字,全部文档内容请下载后查看。喜欢就下载吧 ……