第1章 数据挖掘概述_2.0

时间:2026-01-23

关于数据挖掘的资料

第一部分 正确认识数据挖掘技术

第一章 数据挖掘概述

案例分析1:

假如一个医院将诊断过的所有病人的情况记录在一个数据库中,下表是数据样本的一个小部分,分析人员希望归纳出判断病人是否患了链球菌种感染性炎症的诊断规则,于是他们运用一些我们即将介绍的方法进行了分析。

表1 疾病诊断假想训练数据

关于数据挖掘的资料

经过一段时间,分析人员从以上数据中归结出以下规则:

1.如果病人淋巴肿,则可以诊断为链球菌感染性咽炎症;

2.如果病人没有淋巴肿的症状,但是发烧,则可以诊断为感冒;

3.如果病人没有淋巴肿的症状,也不发烧,则可以诊断为敏感症。

案例分析2:一些会计学者对数据挖掘的误解

美国鲍勃·瑞安等人合著的《财务和会计研究方法与方法论》中,作者总结了会计学研究的传统领域,以及研究内容的发展和研究范式的演变,从中可以发现会计研究的基本目标。

关于数据挖掘的资料

1.早期的规范会计理论:归纳学派和演绎学派.

1929年的世纪大萧条使得对会计理论的研究受到重视,对会计准则的研究成果纷纷涌现。

2.先验研究方法

反对会计进行武断地理论解释,呼吁采用科学的严谨的方法对会计学科构造科学的大厦,建立符合经济学原理又符合会计规则的收益计量原理模型。

运用先验的理论假说对现存的理论进行演绎推导。

3.经验研究方法

20世纪60年代后期,会计准则的研究成为美国英国的主要问题,但是由于缺少前后如一的理论框架,并且不同利益集团对会计的立场不同,导致美国会计准则公布的31份意见公告书和4份报告得不到承认。

由此认为,没有理想的收益计量模型,只是不同决策背景下的使用者要求使用不同的收益模型,会计学这应该建立符合使用者的收益决定模型,并且有助于做决策。

关于数据挖掘的资料

4.实证会计研究方法

对于“实证会计”的批评从一产生就存在了,在20世记50年代实证研究的开始阶段,就有学者对此产生怀疑,例如Stephen

A.Ross等人在《公司理财》第6版中认为: 对实证会计方法感到怀疑的人批评这种所谓的“数据挖掘”。研究人员在研究过程中选择那些特别的参数常常是因为它们已经显示出与收益有关。例如,对于美国亚利桑那州的SAT成绩与其它变量之间的关系,但是你可能发现成绩与长颈鹿的生长有密切的关系,而数据也能够显示出之中关系。可是,事实上果真如此吗?由于,相关性的偶然性是显示于其它更多的地方,所以单纯的分析并不能够说明内在的实证规律。

会计人员更多地习惯了“假设---检验”模式的数据分析思路,许多人不能正确地理解数据挖掘。由于对数据挖掘理解的错误或者不准确造成对数据挖掘的误解,原因可以归结为如下几点原因:

(1)所处的年代没有为他们提供理解数据挖掘所必需的技术环境;

关于数据挖掘的资料

(2)他们自身的学术背景使得他们自己不能透彻理解数据挖掘技术;

(3)他们对知识的发现过程持有不同的观念,他们反对“透过现象来归纳知识”,而是喜欢从一个推论到另外一个推论;

第一节 数据挖掘的定义

数据挖掘(Data Mining)的定义多种多样,但是基本上可以将其看作利用一种或者多种计算机学习技术,自动分析数据库中的数据并提取知识的处理过程,或者说数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来作出决策或预测。

数据库中的知识发现,以下简称为KDD(Knowledge Discovery in Database),是一个通常可以和DM互换的术语。

于是,上述定义可以知道,数据挖掘(DM)具有以下几个特征:

1.数据挖掘处理的是“海量数据”,事先对数据中的规律并不晓得,但是可能有一个基本

关于数据挖掘的资料

的预期;

2.强调计算机自动处理;

3.揭示事物本质的面貌,需要领域知识和数据挖掘知识的结合;

同时,可见知道数据挖掘的本质如下:

1.数据挖掘并非漫无目的,只是在挖掘之前并不知道最终的结果

挖掘,野地里挖宝。应该是有针对性的挖 掘,但是确实不知道最终的结果。 案例分析3:

1984年,一台推土机在狮子山村西南取土的时候偶然铲出了一批汉代兵马俑,根据经验分析这是汉墓的一部分,象征着卫戍王陵的部队。但是,考古队耗费了大量的资金却没有能够发现最终的墓地。

后来,在6年之后的一次 闲谈中,考古家王垲在村里和人交谈的时候,了解到村里一户人家的地窖特别大,超过了一般人的想象,于是感到有点奇怪。于是,经过挖掘才找到了最终的陵墓。

可以发现两个问题:(1)考古工作者为什么在发现实物后才推论附近可能存在墓

关于数据挖掘的资料

地,而没有根据古代的记载?(2)依据经验,发现兵马俑之后就应该发现王陵,可是为什么却没有理解发现呢?

2.“假设----验证”不是发现规律的唯一途径 很多人认为数据挖掘不是理性的推导所建立的规律,而是数据的分析, …… 此处隐藏:2857字,全部文档内容请下载后查看。喜欢就下载吧 ……

第1章 数据挖掘概述_2.0.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:4.9 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:19元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219