第6章数据挖掘与商务智能技术
发布时间:2021-06-06
发布时间:2021-06-06
第6章 数据挖掘与商务智能技术
2012-3-4
6.1 商务智能概述6.1.1 商务智能技术的发展商务智能的定义商务智能是指透过资料的萃取、整合及分析, 商务智能是指透过资料的萃取、整合及分析,支持决 策过程的技术和商业处理流程, 策过程的技术和商业处理流程,其目的是为了使使用 者能在决策的时候,尽可能得到更好的协助。 者能在决策的时候,尽可能得到更好的协助。 商务智能是运用数据仓库、 商务智能是运用数据仓库、在线分析和数据挖掘技术 来处理和分析数据的技术, 来处理和分析数据的技术,它允许用户查询和分析数 据库,进而得出影响商业活动的关键因素,最终帮助 据库,进而得出影响商业活动的关键因素, 用户做出更好、更合理的决策。 用户做出更好、更合理的决策。
2/29 ©&® by H. Q. Feng, CUFE
6.1 商务智能概述(续) 商务智能概述(6.1.1 商务智能技术的发展(续) 商务智能技术的发展(商务智能的定义( 商务智能的定义(续)商务智能是通过利用多个数据源的信息以及应用经验 和假设,来促进对企业动态性的准确理解, 和假设,来促进对企业动态性的准确理解,以便提高 企业决策能力的一组概念、方法和过程的集合。 企业决策能力的一组概念、方法和过程的集合。 商务智能是通过获取与各个主题相关的高质量和有意 义的信息来帮助人们分析信息、得出结论、 义的信息来帮助人们分析信息、得出结论、形成假设 的过程。 的过程。
3/29 ©&® by H. Q. Feng, CUFE
6.1 商务智能概述(续) 商务智能概述(6.1.2 商务智能与管理决策商务智能技术能够帮助企业实现商业信息收集 和处理的自动化,以降低运营成本; 和处理的自动化,以降低运营成本; 商务智能能够帮助企业真实地分析财务状况和 盈利水平,规范企业的业务行为和管理行为, 盈利水平,规范企业的业务行为和管理行为, 使企业的管理决策实现由人为经验型到科学决 策型转变; 策型转变;4/29 ©&® by H. Q. Feng, CUFE
6.1 商务智能概述(续) 商务智能概述(6.1.2 商务智能与管理决策(续) 商务智能与管理决策(使用商务智能可以使企业深入了解自己的客户 并保持稳定的客户群; 并保持稳定的客户群; 商务智能的引人可以帮助企业整合这些集成应 用系统,使这些相对独立、 用系统,使这些相对独立、各自为战的系统发 挥更大的作用,使数据信息得到更有效的利用。 挥更大的作用,使数据信息得到更有效的利用。
5/29 ©&® by H. Q. Feng, CUFE
6.2 商务智能过程6.2.1 知识发现知识发现的特征
知识模式是使用一种形式化语言来进行 的表达, 的表达,
表达描述了事实集合的子集中 的一种显著的事实。 的一种显著的事实。通过某种知识发现方法得到一个顾客细分的结果子 集为{41岁顾客 岁顾客, 岁顾客 岁顾客, 岁顾客 岁顾客, 岁顾客 岁顾客, 集为 岁顾客,42岁顾客,48岁顾客,43岁顾客, 64岁顾客 ,可可以归纳为“40岁之上的顾客” 岁顾客…},可可以归纳为“ 岁之上的顾客 岁之上的顾客” 岁顾客 或者“中年以上的顾客” 或者“中年以上的顾客”等。
知识发现强调模式的有效性、新颖性、 知识发现强调模式的有效性、新颖性、 潜在有用性以及最终能被理解。 潜在有用性以及最终能被理解。6/29 ©&® by H. Q. Feng, CUFE
6.2 商务智能过程(续) 商务智能过程(6.2.2 知识发现过程1、理解所要进行研究的领域、与之相关的以前 、理解所要进行研究的领域、 的知识、以及用户的目标; 的知识、以及用户的目标; 2、创建/选择目标数据集合; 、创建 选择目标数据集合; 选择目标数据集合 3、数据清理和预处理; 、数据清理和预处理; 4、数据缩减和投影; 、数据缩减和投影; 5、选定数据挖掘任务; 、选定数据挖掘任务; 6、选择数据挖掘算法; 、选择数据挖掘算法; 7、数据挖掘过程; 、数据挖掘过程; 8、对挖掘出来的模式进行解释; 、对挖掘出来的模式进行解释; 9、完善和巩固所发现的知识。 、完善和巩固所发现的知识。7/29 ©&® by H. Q. Feng, CUFE
6.2 商务智能过程(续) 商务智能过程(6.2.3 知识表达形式与数据挖掘数据挖掘方法分类分析例如信用卡用户可以分为按时还款客户和拖欠还款客户等。 例如信用卡用户可以分为按时还款客户和拖欠还款客户等。
回归分析根据历年的劳动力水平,总投资等因变量来回归得到与GDP有关的 根据历年的劳动力水平,总投资等因变量来回归得到与 有关的 回归模型方程,进一步用以预测。 回归模型方程,进一步用以预测。
关联规则牛仔裤” 购买《信息系统》 如“年轻顾客会购买Levi’s牛仔裤”,“购买《信息系统》一书的顾 年轻顾客会购买 牛仔裤 客经常会购买《 语言 一书” 语言》 客经常会购买《C语言》一书” 。
聚类分析将相似的对象聚集在一起的一种分析方法。 将相似的对象聚集在一起的一种分析方法。8/29 ©&® by H. Q. Feng, CUFE
6.2 商务智能过程(续) 商务智能过程(6.2.4 数据预处理(1)数据集整理 )将相关的数据都整理在一个或多个二维表中; 将相关的数据都整理在一个或多个二维表中; 注意数据的一致性以及完整性。 注意数据的一致性以及完整性。
(2)数据采样 )通过随机采样等方法从海量数据中抽
取少量的记录; 通过随机采样等方法从海量数据中抽取少量的记录; 采样只能在记录维度上,而不能在属性维度上。 采样只能在记录维度上,而不能在属性维度上。
(3)数据清洗 )将不必要的属性剔除; 将不必要的属性剔除; 修正或删除有明显错误和冲突的数据; 修正或删除有明显错误和冲突的数据; 识别异常值。 识别异常值。©&® by H. Q. Feng, CUFE 9/29
6.2 商务智能过程(续) 商务智能过程(6.2.4 数据预处理(续) 数据预处理((4)缺失数据处理 )缺失值指的是应该有但却没有的数据; 缺失值指的是应该有但却没有的数据; 采用该属性的平均值或是众数替代; 采用该属性的平均值或是众数替代; 采取回归或神经元网络等技术来进行计算和预测相应的 数值; 数值; 利用软计算方法来处理缺失值。 利用软计算方法来处理缺失值。
(5)初步统计分析 )描述均值,中位数,众数,最大值,最小值,标准差, 描述均值,中位数,众数,最大值,最小值,标准差, 数据个数; 数据个数; 两两相关系数、数据直方图等。 两两相关系数、数据直方图等。10/29 ©&® by H. Q. Feng, CUFE
6.3 数据挖掘方法6.3.1 分类分类分析是对对象的特征进行分析, 分类分析是对对象的特征进行分析,并将之归类 到已定义类中。 到已定义类中。 分类分析的过程首先,基于训练数据集,采用分类算法来构造分类器; 首先,基于训练数据集,采用分类算法来构造分类器;训练数据集指一个已有的数据集, 训练数据集指一个已有的数据集,其中每条记录都已经属于一个已 知的类别中。 知的类别中。
其次,使用分类器对新数据集进行分类。 其次,使用分类器对新数据集进行分类。
11/29 ©&® by H. Q. Feng, CUFE
6.3 数据挖掘方法(续) 数据挖掘方法(6.3.1 分类(续) 分类(分类分析的评估标准速度:即生成和使用分类器的计算花费; 速度:即生成和使用分类器的计算花费; 鲁棒性:即给定噪音数据, 鲁棒性:即给定噪音数据,分类器能够正确预测的 能力; 能力; 可伸缩性:即在大量数据规模时, 可伸缩性:即在大量数据规模时,有效构造分类器 的能力; 的能力; 可解释性: 可解释性:及通过训练得到的分类器可理解和被解 释的层次和水平。 释的层次和水平。
12/29 ©&® by H. Q. Feng, CUFE
6.3 数据挖掘方法(续) 数据挖掘方法(6.3.2 聚类聚类分析是将一个数据对象的集合按照某种标准 进行划分,但是要划分的类是未知的。 进行划分,但是要划分的类是未知的。 一个聚类内部的数据对象按照该标准具有极高的 相似性,而类与类之间的数据
对象的相似性很低。 相似性,而类与类之间的数据对象的相似性很低。 如猫和狗、动物和植物。 如猫和狗、动物和植物。 聚类分析软件: 聚类分析软件:SPSS、SAS等。 、 等
13/29 ©&® by H. Q. Feng, CUFE
6.3 数据挖掘方法(续) 数据挖掘方法(6.3.2 聚类(续) 聚类(聚类的局限性对数据要求严,要聚类结果要明确, 对数据要求严,要聚类结果要明确,就需分离度很好 的数据。 的数据。 所有聚类方法分析的仅是简单的一对一的关系, 所有聚类方法分析的仅是简单的一对一的关系,可能 忽视商务和经济系统多因素和非线性的特点。 忽视商务和经济系统多因素和非线性的特点。
14/29 ©&® by H. Q. Feng, CUFE
6.3 数据挖掘方法(续) 数据挖掘方法(6.3.3 关联规则大规模客户交易数据库中会存在着数据项之间所 潜在的相互关系的知识模式。 潜在的相互关系的知识模式。 如“年轻顾客会购买Levi’s牛仔裤”,“购买 牛仔裤” 年轻顾客会购买 牛仔裤 语言》 《信息系统》一书的顾客经常会购买《C语言》 信息系统》一书的顾客经常会购买《 语言 一书” 一书”等。 关联规则挖掘已经成为商务智能中引人注目且发 展相当迅速的分支。 展相当迅速的分支。15/29 ©&® by H. Q. Feng, CUFE
6.4 复杂类型数据挖掘6.4.1 空间数据挖掘空间数据包括:地图,遥感图片,医学图像等。 空间数据包括:地图,遥感图片,医学图像等。 空间数据的特点包括距离、位置、色块、气温等信息。 包括距离、位置、色块、气温等信息。 通常按照复杂、多维的空间索引结构组织数据。 通常按照复杂、多维的空间索引结构组织数据。
16/29 ©&® by H. Q. Feng, CUFE
6.4 复杂类型数据挖掘(续) 复杂类型数据挖掘(6.4.1 空间数据挖掘(续) 空间数据挖掘(空间数据挖掘是指对空间中非显式存在的知识、 空间数据挖掘是指对空间中非显式存在的知识、 空间关系或其他有意义的模式等进行提取, 空间关系或其他有意义的模式等进行提取,需要 综合数据挖掘与空间数据库技术。 综合数据挖掘与空间数据库技术。 例如,通过对地质断裂带应力分析可以推断出哪 例如, 些地方近期发生地震的概率较高, 些地方近期发生地震的概率较高,这个挖掘过程 中,不但需要对地址断裂带的地理位置数据进行 处理,还需要结合地震历史数据和时间数据进行 处理, 挖掘。 挖掘。
17/29 ©&® by H. Q. Feng, CUFE
6.4 复杂类型数据挖掘(续) 复杂类型数据挖掘(6.4.2 多媒体数据挖掘多媒体数据包括:音频数据、视频数据、 多媒体数据包括:音频数据、视频数据、图像数 据等。 据等。 典型的多媒体
数据库系统包括Google Earth,百 典型的多媒体数据库系统包括 , 度图像,人类基因数据库等。 度图像,人类基因数据库等。 如在反恐档案和追踪系统中, 如在反恐档案和追踪系统中,应用恐怖份子图像 查询和搜索,音频匹配与语音识别等方面。 查询和搜索,音频匹配与语音识别等方面。
18/29 ©&® by H. Q. Feng, CUFE
6.4 复杂类型数据挖掘(续) 复杂类型数据挖掘(6.4.3 时序数据和序列数据挖掘时序数据库是指由随时间变化的序列值或事件组 成的数据库, 成的数据库,即每个数据对象都有一个相应的时 间属性值。如,股票市场的每日行情等。 间属性值。 股票市场的每日行情等。 时序数据库和序列数据库挖掘的主要内容包括趋 势分析,相似性搜索以及序列模式挖掘。 势分析,相似性搜索以及序列模式挖掘。
19/29 ©&® by H. Q. Feng, CUFE
6.4 复杂类型数据挖掘(续) 复杂类型数据挖掘(6.4.4 文本数据挖掘文本数据来自各种数据源,如新闻文章、 文本数据来自各种数据源,如新闻文章、研究论 电子书籍、电子邮件和Web页面等。 页面等。 文、电子书籍、电子邮件和 页面等 文本数据库中存储最多的数据是半结构化数据, 文本数据库中存储最多的数据是半结构化数据, 它既不是完全结构化的也不是完全无结构。 它既不是完全结构化的也不是完全无结构。例如,一个电子邮件中即包括标题、作者、出版日期、 例如,一个电子邮件中即包括标题、作者、出版日期、 长度和时间等结构化数据, 长度和时间等结构化数据,也会包含大量非结构化数据 内容,如内容文本和摘要等。 内容,如内容文本和摘要等。
Google和百度搜索引擎就是典型的文本挖掘的系 和百度搜索引擎就是典型的文本挖掘的系 统应用。 统应用。20/29 ©&® by H. Q. Feng, CUFE
6.4 复杂类型数据挖掘(续) 复杂类型数据挖掘(6.4.5 网络挖掘网络数据特点:复杂性更大, 网络数据特点:复杂性更大,网络数据具有极强 的动态性,用户需求多种多样。 的动态性,用户需求多种多样。 网络数据挖掘应用网页有效排序 链接结构挖掘 Web文档的自动分类和组织 文档的自动分类和组织 Web记录挖掘 记录挖掘
21/29 ©&® by H. Q. Feng, CUFE
上一篇:土壤全氮的测定-开氏法