数据仓库与数据挖掘
发布时间:2024-11-08
发布时间:2024-11-08
数据仓库与数据挖掘主讲人:龚卫华(博士)研究方向:网格计算,数据库系统
教材与参考书
陈文伟,数据仓库与数据挖掘教程,清华大学出版社安淑芝等编著.数据仓库与数据挖掘.清华大学出版社. Jiawei Han,Micheline Kamber.数据挖掘概念与技术.范明等译.机械工业出版社.张云涛,龚玲著.数据挖掘原理与技术.电子工业出版社.(IBM软件学院)2
主要内容与考核方式
内容提要:
数据仓库->DW的设计和OLAP操作数据挖掘->关联规则、聚类和分类算法实验:20%
考核方式:
Sql server 2000 Analysis Service
平时:10%开卷试题:70%3
绪论
数据爆炸问题
自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。
我们拥有丰富的数据,但却缺乏有用的信息解决方法:数据仓库技术和数据挖掘技术
数据仓库(Data Warehouse)和在线分析处理 (OLAP)数据挖掘:在大量的数据中挖掘感兴趣的知识 (规则,规律,模式,约束)
数据库技术的演化 (1)
1960s和以前:
文件系统层次数据库和网状数据库关系数据模型,关系数据库管理系统(RDBMS)的实现5
1970s:
1980s早期:
数据库技术的演化 (2)
1980s晚期:
各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.)面向应用的数据库系统 (空间数据库,时序数据库,多媒体数据库等等)数据挖掘,数据仓库(Inmon),多媒体数据库和网络数据库 95年数据仓库流行:IBM的BI,微软的SQL Server绑定 OLAP服务器流数据管理和挖掘基于各种应用的数据挖掘 XML数据库和整合的信息系统
1990s:
2000s
数据仓库的用途 (三种)
信息处理
支持查询和基本的统计分析,并使用交叉表、表、图表和图进行报表处理
分析处理对数据仓库中的数据进行多维数据分析 支持基本的OLAP操作,切块、切片、上卷、下钻、转轴等数据挖掘 从隐藏模式中发现知识 支持关联分析,构建分析性模型,分类和预测,并用可视化工具呈现挖掘的结果
数据仓库的应用价值
传统的数据库针对OLTP应用理想,但不适合决策分析。原因: 1.决策处理的系统响应时间 可能很长,遍历大部分数据 2.决策数据需求的问题 动态更新,数据需要正确的集成、汇总、概括。 3.决策数据操作的问题 日常事务不能满足决策需要,希望对数据进行多种形式的操作。传统DB的操作型数据与DW的分析型数据区别8
操作型数据细节的在存取瞬间是准确的可更新操作需求事先可
知道生命周期符合SDLC对性能要求高一个时刻操作一个单元事务驱动面向应用(OLTP)一次操作数据量小支持日常操作
分析型数据综合的或提炼的代表过去的不更新操作需求事先不知道完全不同的生命周期对性能要求宽松一个时刻操作一个集合分析驱动面向分析(DSS)一次操作数据量大支持管理需求9
操作型DBS与数据仓库
操作型DBS的主要任务是联机事务处理 OLTP(On Line Transaction Processing )
日常操作:购买,库存,银行,制造,工资,注册,记帐等
数据仓库的主要任务是联机分析处理 OLAP(On Line Analytical Processing )
数据分析和决策支持(DSS),支持以不同的形式显示数据以满足不同的用户需要10
OLTP VS. OLAP (1)
用户和系统的面向性
面向顾客(事务) VS.面向市场(分析)当前的、详细的数据 VS.历史的、汇总的数据实体-联系模型(ER)和面向应用的数据库设计 VS.星型/雪花模型和面向主题的数据库设计11
数据内容
数据库设计
OLTP VS. OLAP (2)
数据视图
当前的、企业内部的数据 VS.经过演化的、集成的数据事务操作 VS.只读查询(但很多是复杂的查询)简短的事务 VS.复杂的查询数十个 VS.数百万个12
访问模式
任务单位
访问数据量
OLTP VS. OLAP (3)
用户数
数千个 VS.数百个 100M-几GB VS. 100GB-数TB高性能、高可用性 VS.高灵活性、端点用户自治事务吞吐量 VS.查询吞吐量、响应时间
数据库规模
设计优先性
度量
国际评测标准(http:///)
TPC-C VS. TPC-H13
为什么需要一个分离的数据仓库?
提高两个系统的性能
DBMS是为OLTP而设计的:存储方式,索引,并发控制,恢复数据仓库是为OLAP而设计:复杂的 OLAP查询,多维视图,汇总历史数据:决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护数据汇总:决策支持需要将来自异种源的数据统一 (如聚集和汇总)数据质量:不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成14
不同的功能和不同的数据:
数据仓库的定义
数据仓库的定义很多,但却很难有一种严格的定义
它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。为统一的历史数据分析提供坚实的平台,对信息处理提供支持
数据仓库区别于其他数据存储系统 “数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”—W. H. Inmon(数据仓库之父)15
数据仓库关键
特征一——面向主题
面向主题,是DW显著区别于面向应用的传统 DB的一个特征概念:从数据组织的角度看,主题就是一些数据集合,它对分析对象进行了比较完整的、一致的数据描述,不仅包括数据自身还包括数据之间的关系。商品
关注决策者的数据建模与分析,而不是集中于组织供应商顾客机构的日常操作和事务处理。主题划分的原则:保证每个主题的独立性。围绕一些主题,例如哪些顾客采购产品数量多?哪些产品销售量大?哪些供应商提供的产品具有竞争力?主题之间可能存在重叠关系,如 16
上一篇:吉首大学信号与系统期末考试试卷1
下一篇:最新国际音标课程讲义