电子商务教案7(16)

时间：2026-05-01

从技术角度讲：数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。

从商业角度看：数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。简而言之，数据挖掘其实是一类深层次的数据分析方法。其可以描述为：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。

（2）数据挖掘与传统分析方法的区别。

数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知，有效和可实用三个特征。

2. 数据挖掘的功能

数据挖掘的任务是从大量数据中发现知识。数据是由原始事实组成的，如企业原材料的采购量、库存量、商品销售量等。

数据挖掘的目标是从数据库中发现隐含的、有意义的知识，主要有以下功能。

（1）自动预测趋势和行为。数据挖掘自动在大型数据库中寻找预测性信息，它根据时间序列型数据，由历史的和当前的数据去推测未来的数据。一个典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推销中的大量数据找出其中最有可能对将来的邮件推销做出反应的客户。目前，预测方法有经典的统计方法、神经网络和机器学习等。

（2）关联分析。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。

（3）聚类。聚类如同通常所说的“物以类聚”，是把一组个体按照相似性归纳成若干类别。它的目的是使属于同一类别的个体之间的距离尽可能的小，而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。通过聚类，数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们对客观现实的认识，是进行概念描述和偏差分析的先决条件。

（4）概念描述。概念描述就是对某类对象的内涵进行描述，并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多，如决策树方法、遗传算法等。

（5）偏差检测。数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识，如分类中的反常实例、不满足规则的特例、观测结果

电子商务教案7(16).doc 将本文的Word文档下载到电脑

下载这篇word文档