实用统计分析方法与SPSS应用
发布时间:2024-08-31
发布时间:2024-08-31
实用统计分析方法与SPSS应用
(初稿)
张文璋
zhangwenzhang@http://www.77cn.com.cn
二○○○年十月
目录
详细目录...........................................................................................................................................2
第一章 概论...........................................................................................................................5
第二章 SPSS软件基础.......................................................................................................12
第三章 统计数据的收集、整理与描述.............................................................................34
第四章 总体与样本的描述.................................................................................................54
第五章 由样本推断总体.....................................................................................................77
第六章 方差分析...............................................................................................................100
第七章 相关分析...............................................................................................................112
第八章 回归分析...............................................................................................................121
第九章 含虚拟自变量的回归分析...................................................................................178
第十章 Logistic回归分析.................................................................................................186 第十一章 非参数检验...........................................................................................................198 第十二章 聚类分析...............................................................................................................221 第十三章 主成分分析...........................................................................................................241 第十四章 因子分析...............................................................................................................270 第十五章 事件史分析...........................................................................................................298 附录一 Excel在统计分析中的应用.................................................................................308 附录二 常用统计表...........................................................................................................367 参考文献..................................................................................................................................- 379 -
详细目录
详细目录...........................................................................................................................................2
第一章 概论...................................................................................................................................5
第一节 市场经济呼唤统计学...............................................................................................5
第二节 统计学的研究对象及其学科分类...........................................................................5
第三节 实用统计分析方法概述...........................................................................................8
第二章 SPSS软件基础.......................................................................................................12
第一节 统计分析软件简介.................................................................................................12
第二节 SPSS简介...............................................................................................................14
第三节 SPSS基本操作.......................................................................................................21
第三章 统计数据的收集、整理与描述.......................................................................................34
第一节 统计数据的来源.....................................................................................................34
第二节 统计数据的收集.....................................................................................................35
第三节 统计数据的整理.....................................................................................................38
第四节 统计数据的描述.....................................................................................................45
第五节 统计数据的探索性分析.........................................................................................51
第四章 总体与样本的描述.................................................................................................54
第一节 总体、样本与随机变量.........................................................................................54
第二节 总体与随机变量的描述.........................................................................................56
第三节 样本的描述.............................................................................................................63
第四节 抽样分布——总体与样本的连接点.....................................................................66
第五章 由样本推断总体.....................................................................................................77
第一节 抽样.........................................................................................................................77
第二节 估计.........................................................................................................................81
第三节 检验.........................................................................................................................87
第六章 方差分析...............................................................................................................100
第一节 单因素方差分析...................................................................................................100
第二节 多因素方差分析...................................................................................................107
第三节 案例:证券信息的定量分析..................................................................................110
第七章 相关分析...............................................................................................................112
第一节 简单相关分析.......................................................................................................112
第二节 偏相关分析...........................................................................................................115
第三节 其它相关系数分析...............................................................................................117
第八章 回归分析...............................................................................................................121
第一节 一元线性回归分析...............................................................................................121
第二节 一元线性回归模型估计量的性质与分布...........................................................129
第三节 一元线性回归模型的检验...................................................................................131
第四节 多元线性回归基本概念.......................................................................................135
第五节 多元线性回归模型的估计和检验.......................................................................137
第六节 非线性回归与曲线回归.......................................................................................143
第七节 多重共线性...........................................................................................................150
第八节 异方差...................................................................................................................154
第九节 自相关...................................................................................................................161
第十节 回归模型的应用...................................................................................................165 第十一节 案例1:我国经济增长持续性的实证研究.......................................................167 第十二节 案例2:中德人口老龄化水平之比较............................................................170
第九章 含虚拟自变量的回归分析...................................................................................178
第一节 虚拟变量回归模型的基本概念...........................................................................178
第二节 包含一个质因素的虚拟变量模型.......................................................................178
第三节 包含多个质的因素的虚拟变量模型...................................................................183
第四节 案例:虚拟变量在新股上市模型中的应用.........................................................183
第十章 Logistic回归分析...............................................................................................186
第一节 Logistic回归基本概念.........................................................................................186
第二节 Logistic回归模型的估计与检验.........................................................................187
第三节 案例:审计意见预测模型的构建.......................................................................193 第十一章 非参数检验.......................................................................................................198
第一节 非参数检验基本概念...........................................................................................198
第二节 非参数检验方法...................................................................................................199 第十二章 聚类分析...............................................................................................................221
第一节 聚类分析概述.......................................................................................................221
第二节 数据变换处理.......................................................................................................223
第三节 聚类统计量...........................................................................................................225
第四节 聚类方法...............................................................................................................230
第五节 案例:汽车市场需求情况定量研究...................................................................236 第十三章 主成分分析...........................................................................................................241
第一节 主成分分析的基本思想.......................................................................................241
第二节 总体主成分...........................................................................................................243
第三节 样本主成分...........................................................................................................247
第四节 案例: 新兴股市的多因素模型............................................................................258 第十四章 因子分析.............................................................................................................270
第一节 因子分析模型.......................................................................................................270
第二节 因子分析模型估计方法.......................................................................................276
第三节 因子旋转...............................................................................................................285
第四节 因子得分...............................................................................................................288
第五节 案例:研究生院规模的因子分析.......................................................................291 第十五章 事件史分析.........................................................................................................298
第一节 事件史分析方法的源流.......................................................................................298
第二节 事件史分析方法的内容概述...............................................................................299
第三节 事件史案例分析...................................................................................................303 附录一 Excel在统计分析中的应用.................................................................................308
第一节 中文Excel概述....................................................................................................308
第二节 Excel基本操作.....................................................................................................314
第三节 Excel在描述统计中的应用.................................................................................319
第四节 Excel在推断统计中的应用.................................................................................325 附录二 常用统计表...................................................................................................................367 参考文献..................................................................................................................................- 379 -
第一章 概论
第一节 市场经济呼唤统计学
许多人简单地认为统计(Statistics)就是收集数字,其实这仅仅是统计学的原始意义。现代统计学已远远超出了这个范围,发展成为广泛应用于社会科学、自然科学等领域的科学方法。它是研究客观事物数量特征和数量关系的方法论学科,能够告诉人们如何通过打开几扇窗口去探索一个未知的世界,教会人们怎样用一种新的方式来思考问题,是一门很实用的学科。
大千世界,万事万物,无一不具有它的质量、数量两个方面,都是一定质量和数量的结合和表现。在对事物质的了解基础上,从数量方面认识事物,把握事物的数量方面,做到胸中有数,是对事物认识深化的具体表现。统计作为一种强有力的定量分析方法,在社会、经济、政治、生活等领域得到了广泛的应用,起着日益重要的作用。大至国家的宏观决策,小至企事业单位的微观管理,都离不开统计的应用。现代市场经济对统计信息的需求急剧增加,对统计理论与方法提出了更高的要求。
面对二十一世纪,我国的人文社会科学肩负着时代的重托。社会发展问题、经济可持续发展问题、国际竞争力问题、金融风险管理问题、保险精算问题、人口与社会保障问题、环境保护问题等等,这些都迫切地等待着我们去深入地研究。要解决这些问题,置身于古老东方文化氛围之中的中国学者需要冷静思考。时代要求我们必须抛开偏见,正确理解与批判地吸收建立在发达商品经济基础上的外来文化,加强数学方法、统计学方法的学习,提高我们的定性分析与定量分析相结合的能力。这样,中国人才会在新的世纪里大步赶上世界发达国家。
第二节 统计学的研究对象及其学科分类
一、统计学的研究对象
1992年11月,国家技术监督局正式批准统计学为一级学科,国家标准局颁布的学科分类标准已将统计学列为一级学科,1998年教育部进行的专业调整也将统计学归入理学类一级学科。建设一级学科统计学的构想反映了统计学学科建设的内在要求,符合国际统计学发展的大趋势。所谓一级学科统计学,指的是研究搜集和分析数据、研究客观事物数量特征和数量关系的方法论科学。一级学科统计学首先是一门方法论,它是研究客观现象(包括自然现象和社会现象)数量特征和数量关系、具有明确对象的方法论科学。统计方法论性质是指它作为一门认识方法论科学,为人们提供一套从不确定的现象中探索现象规律性的理论和方法。这里作为统计学研究对象具体体现的“数据”,是指进行各种统计(指统计工作)、计算、科学研究或技术设计等所依据的数值。
统计数据所具有的不同特点,使得统计学百花园色彩纷呈,各具特色。数据中的实验数据主要来自自然技术现象,如对产品配方检验得到的数据等等,这类数据大多在可控条件下通过物理测量取得,这类数据的搜集、整理工作并不复杂,研究的重点在于数据分析。另一
类是观察数据,它主要来自社会经济现象,如国内生产总值(GDP)数据、某年度的货币购买力数据等等。由于社会经济现象的复杂性,尤其是不能通过一定条件下的物理或化学实验进行研究,致使观察数据的搜集往往十分困难,统计学不仅要研究观察数据的整理、分析技术,而且要花很大力气研究观察数据的调查搜集技术。正因为实验数据和观察数据有不同特点,所以以实验数据作为研究对象的自然技术统计学,如生物统计学、统计力学等等,和以观察数据作为研究对象的社会经济统计学,如农业统计学、工业统计学等等,就表现出很不相同的特点。社会经济统计学利用统计指标、统计分组方法,不厌其详地研究数据搜集的技术,研究资料来源、指标口径和计算方法,至于数据整理、尤其是数据分析的技术,则由于社会经济各专门统计的共同特点,出于简化篇幅的考虑,一般安排在社会经济统计学原理中作统一研究。自然技术统计学的生物统计学等等,与社会经济统计学的农、工业统计学则恰恰相反,它的研究重点往往放在对数据所作的各种分析上,至于数据搜集、整理的技术,则考虑到自然技术各专门统计所具有的共同特点,一般放到作为自然技术统计学原理的数理统计学中作简要讨论(之所以往往仅作简要讨论,是因为实验数据的搜集和整理远比观察数据的搜集整理简单)。从上面的分析中不难看出,自然技术统计学和社会经济统计学本没有不可逾越的鸿沟,两者只是由于研究对象所具有的不同特点,才产生了不同的理论体系和学科特色。建设一级学科统计学的构想,兼容自然技术统计学与社会经济统计学,反映了统计学发展的内在要求,对促进自然技术统计学和社会经济统计学各自的发展,都具有重要的意义。
二、统计学的学科分类①
统计学作为一门研究客观事物数量特征和数量关系的方法论科学,其内容构成错综复杂,既有层次性,又有交叉性,所以对其学科的分类迄今未得到合理的解决。较为流行的划分是把统计学分为社会经济统计学和数理统计学,或者分为描述统计与推断统计。这些分类都无法完全包括现代意义上的统计学内容,是不妥当的。与一级统计学相对应,我们把统计学分为理论统计学、应用统计学、与其他统计学等(如图1-1所示)。
理论统计学包括各种统计基础理论,又可以分为描述统计学和推断统计学。描述统计学指以总体全面资料或非随机性局部资料为基础的统计理论与方法体系,包括统计总体论(有关总体、指标和分组等理论)、统计设计、统计调查、统计整理、统计指数、动态分析理论、统计平衡理论、统计数据库等等,不同于仅研究如何整理和概括大量数据的“描述统计学”。推断统计学指依据随机样本推断总体特征的理论与方法体系,也就是数理统计学,又可以分为理论数理统计学和应用数理统计学。理论数理统计学侧重于统计方法的数理基础,包括概率论、经典统计理论、贝叶斯理论、统计判决理论等。应用数理统计学(现代意义上的数理统计学)则侧重于统计方法的应用形式,包括抽样技术、试验设计、相关分析、方差分析、多重应答分析、多元统计分析、序贯分析、线性统计模型、时间序列分析、非参数统计等。这里的描述统计学与推断统计学并无“普通统计学”与“高级统计学”之分,实际上,推断统计学的某些内容是非常初等的,而描述统计学中的某些方法(如统计指数理论)却具有相当的理论深度和复杂性。
应用统计学只涉及某一特定现象领域的统计研究,又可以分为核算统计学和实验统计学。核算统计学是通过核算手段研究社会现象及其过程的数量特征或统计规律性的理论与方法体系,包括经济统计学、社会统计学、科技统计学、环境统计学等等。而实验统计学是运用实验手段研究自然现象自身及其过程的数量特征或统计规律性的理论与方法体系,包括统计物理学、生物统计学、天文统计学、气象统计学、心理统计学、农业试验统计学、工程技术统计学等等。 ① 杨灿:《统计学基本问题研究》,《统计研究》,1993年第3期;
黄良文、黄沂木:《大学科统计刍议》,《统计研究》,1995年。
除了理论统计学和应用统计学外,还有统计史学、统计法制学、比较统计学等其他统计学科,以及经济计量学、保险精算学、运筹学、信息论等边缘学科。
从统计学的学科分类可以看出,统计学的内容是十分丰富的,其研究和应用的领域非常广泛。本书主要是为非统计专业的学生和统计工作者提供一本关于实用统计分析方法的读物,所以,主要包括了应用数理统计的一些内容。本书强调统计分析方法的基本思想和应用条件,培养用计算机进行统计计算的能力,并希望通过案例分析提高学生的解决实际问题的能力。
图1-1 统计学分类
第三节 实用统计分析方法概述
一、变量(Variable)的分类
要进行统计分析,离不开统计数据。在搜索数据之前,必须首先了解数据的种类。数据涉及到变量的取值,通常用变量的取值来描述数据。变量可按多种方法分类,这些分类有助于选择适当的统计分析方法作进一步的分析与研究。下面按三种方法对变量进行分类:按间隙分类、按作用分类和按测量尺度分类。
(一)按间隙(gaps)划分
根据一个变量紧挨着的两个观测值之间是否有空隙(缺口),可以把变量分为两类:离散型变量(discrete variable)和连续型变量(continuous variable)。如果一个变量的观测值之间有空隙,该变量称为离散型变量,否则称为连续型变量,如图1-2 (A)所示。更准确地说,当一个变量的任意两个可能取值之间没有其他取值时,该变量是离散的;当一个变量的任意两个可能取值之间还有其他可能取值时,该变量是连续的。例如,性别(设男性取值为0,女性取值为1)、企业数目、分组情况(设A组取值为1,B组取值为2等)等为离散型变量;身高、体重、血压、GDP等为连续型变量。
图1-2 离散型变量与连续型变量
没有空隙
(A)离散变量的取值 (B)连续变量的取值
需要指出的是,由于分析的需要,离散型变量经常作为连续型变量处理。而连续型变量也可以作为离散型变量处理,如可以把“血压”变量分为“低”、“中”、“高”三组变为离散型变量。
(二)按作用划分
根据一个变量在分析时的作用,可以把变量分为因变量(dependent variable)或自变量(independent variable)。如果一个变量由其他变量来描述,该变量称为因变量或反应变量(response variable);如果一个变量与其他变量一起用于描述因变量,该变量称为自变量或预测变量(predictor variable)。例如,在分析家庭收入、性别等因素对消费支出的影响时,收入变量和性别变量是自变量,消费支出变量是因变量。
一个变量是因变量还是自变量,与统计分析的目的有关。同一个变量在某种分析中作为因变量,而在其它分析中可能作为自变量。
(三)根据测量尺度划分
根据变量测量精度不同,可把变量由低到高分为四种尺度:定类变量、定序变量、定距变量和定比变量。
1、定类变量
定类变量又称为名义(nominal)变量。这是一种测量精确度最低、最粗略的基于“质”因素的变量,它的取值只代表观测对象的不同类别,例如“性别”变量、“职业”变量等都是定类变量。定类变量的取值称为定类数据或名义数据。定类数据的其同特点是用不多的名称来加以表达,并由被研究变量每一组出现的次数及其总计数所组成,这种数据是枚举性的,即由计数一一而得。唯一适合于定类数据的数学关系是“等价关系”。因而,在定类数据中,同一组内各单位是等价的,同时若更换各不同组的符号并不会改变数据原有的基本信息。因
此,最常用来综合定类数据的统计量是频数、比率或百分比等。
2、定序变量
定序变量又称为有序(ordinal)变量、顺序变量,它的取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。例如,“最高学历”变量的取值是:1—小学及以下、2—初中、3—高中、中专、技校、4—大学专科、5—大学本科、6—研究生以上。由小到大的取值能够代表学历由低到高。定序变量的取值称为定序数据或有序数据。适合于定序数据的数学关系是“大于(>)”和“小于(<)”关系。在定序数据中,同一组内各单位是等价的,相邻组之间的单位是不等价的,它们存在“大于”或“小于”的关系。而且,并进行保序变换(或称单调变换),则不改变数据原有的基本信息即等级顺序。最适合用于综合定序数据取值的集中趋势的统计量是中位数。
3、定距变量
定距变量又称为间隔(interval)变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小。例如,“年龄”变量,其取值60与20相比,表示60岁比20岁大,并且可以计算出大40岁(60-20)。定距变量的取值称为定距数据或间隔数据。定距数据是一些真实的数值,具有公共的、不变的测定单位,可以进行加减乘除运算。定距数据的基本特点是两个相同间隔的数值的差异相等,例如,年龄的60岁与50岁之差等于40岁与30岁之差。对于定距数据,不仅可以规定“等价关系”以及“大于关系”和“小于关系”,而且也可以规定任意两个相同间隔的比值或差值。如果将每个数值分别乘以一个正的常数再加上一个常数,即进行正线性变换,并不影响定距数据原有的基本信息。因此,常用的统计量如均值、标准差、相关系数等都可直接用于定距数据。
4、定比变量
定比变量又称为比率(ratio)变量,它与定距变量意义相近,细微差别在于定距变量中的“0”值只表示某一取值,不表示“没有”。例如,人的身高就是一个定比变量,如果身高值为“0”米,则表示这个人不存在。而定比变量的“0”值表示“没有”。而在测定温度的摄氏表中,0oC并不表示没有温度,因为还有在零点以下的温度。定比变量的取值称为定比数据或比率数据。定比数据也同样可进行算术运算和线性变换等。通常对定距变量和定比变量不需再加以区别,两者统称为定距变量或间隔变量。
一般地,定类变量和定序变量用于描述定性数据,属于定性变量;而定距变量和定比变量用于描述定量数据,属于定量变量。
同其他分类标准一样,一个变量在不同分析中可当作不同尺度的变量。例如,“年龄”在某些分析中(如回归分析)当作定距变量,而在另外一些分析中(如方差分析)可通过分组作为定类变量处理。
另外,较高尺度的变量包含了较低尺度变量的性质。定序变量包含了定类变量的所有特征,定距变量同时包含了定序变量和定类变量的特征。这种性质允许在分析数据时把一些较高尺度变量作为较低尺度变量处理。例如,定距变量可当作定类变量或定序变量看待,而定序变量可作为定序变量分析。
以上通过三种不同方法对变量进行分类。这些分类是可以重叠的。一个变量可能是离散型变量、自变量、定类变量(如“最高学历”),也可能是连续型变量、因变量、定距变量(如“血压”)。按间隙分类和按测量尺度分类的重叠如图1-3所示。
图1-3 变量分类的重叠
因为自变量与因变量是根据分析目的而不是按变量本身性质来划分的,所以图1-3中没有包括这种分类。从图1-3中可以看出,定类变量必须是离散变量,而定距变量和定序变量可以是离散变量或连续变量;连续变量必须是定序变量或定距变量。例如,变量“性别”是离散变量又是定类变量;变量“年龄”可当作定距变量、连续变量,也可以作为定类变量、离散变量。
二、统计分析方法的分类与选择
对数据进行统计分析时,选择正确的分析方法是非常重要的。选择统计分析方法时,必须考虑许多因素,主要有:(1)统计分析的目的,(2)所用变量的特征,(3)对变量所作的假定,(4)数据的收集方法(即抽样过程)。选择统计分析方法时一般考虑前两个因素就足够了。
(一)根据统计分析目的不同进行分类
统计分析方法根据统计分析目的的不同,可以分成四大类:相关分析方法、结构简化方法、分类分析方法、预测决策方法①。
(二)根据变量特征的不同进行分类
根据变量的分类不同分类方法,把变量分为因变量、自变量以及定量变量、定性变量,可把统计分析方法一一进行归类(如表1-1所示),这是正确选择统计分析方法的一种有效方法。
表1-1 统计分析方法分类表 ① 详见何晓群编著:《现代统计分析方法与应用》,中国人民大学出版社,1998年。
变量类型
因变量
定量
定量 自变量 定量 定性
定性、定
量
定性
定量
定性、定
量
定性、定
量 统计分析方法 回归分析(或线性模型)、相关分析 T检验、方差分析 协方差分析(或线性模型) 列联分析,Logit模型 Logistic回归分析、判别分析、聚类分析 对数线性模型 统计分析目的 描述一个或多个自变量与一个因变量之间的因果依存关系,或变量之间的相关关系。描述一个连续型因变量与一个或多个定类自变量之间的关系。 描述在控制了一个或多个连续型自变量的影响下一个连续因变量与一个或多个定类自变量之间的关系。 描述定性变量之间的相互影响关系。 描述多个定量变量与定性变量之间的依赖关系。 描述定性或定量变量与分类变量之间的关系。 定量 定性 定性 定性 定性、定量
相依模型
主成分分析、因子分析、对应分析等。 描述变量、样品或类型之间的结构关系。
第二章 SPSS软件基础
第一节 统计分析软件简介
进行统计分析时,涉及到的变量和样本数据很多,计算量很大。靠手工方法进行统计计算是不现实的,不借助于计算机往往难以实现,只有计算机才能快速得到精确的结果。在微机上使用的统计软件有许多种,在实际工作中应用比较普遍的主要有SPSS、SAS、TSP、EViews、BMDP、TPL、CENTS、DET、SP、SARP、Excel、Lotus 1-2-3、Matlab、S-Plus、Minitab等,为帮助读者了解选择和使用这些软件,我们在此作一简单介绍,具体的应用技术和操作方法请参阅相应的软件说明书及有关书籍。
(一)SAS统计分析系统
SAS(Statistical Analysis System)软件是为处理数据而研制的大型统计分析系统,是融数据管理和统计分析于一体,由多个子软件构成的一个大型软件。该软件1972年由美国SAS软件研究所推入市场以来,经过不断完善,已成为当今世界上最有影响的统计分析系统之一,它具有完备的数据访问、数据管理、数据分析以及数据呈现能力。其中,强大的数据分析能力是使SAS成为业界著名应用软件的重要因素。SAS支持多种软硬件平台,广泛地运行在各种型号的大、中、小型机和微型计算机上。SAS系统中提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、决策分析、财务分析和全面质量管理工具等等。
SAS系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASE SAS模块。BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。也就是说,SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。它除可单独存在外,也可与其他产品或模块共同构成一个完整的系统。各模块的安装及更新都可通过其安装程序非常方便地进行。SAS系统具有灵活的功能扩展接口和强大的功能模块,在BASE SAS的基础上,还可以增加如下不同的模块而增加不同的功能:SAS/STAT(统计分析模块)、SAS/GRAPH(绘图模块)、SAS/QC(质量控制模块)、SAS/ETS(经济计量学和时间序列分析模块)、SAS/OR(运筹学模块)、SAS/IML(交互式矩阵程序设计语言模块)、SAS/FSP(快速数据处理的交互式菜单系统模块)、SAS/AF(交互式全屏幕软件应用系统模块)等等。
在统计功能方面(SAS/STAT),SAS可以完成以下任务:
(1)方差分析:单因素、多因素方差分析和单变量、多变量方差分析。
(2)离散型数据的分析:二维列表分析、分层分析、对数线性模型、Logistic模型。 (3)回归分析:多元线性回归、多项式回归、逐步回归、非线性回归、正交回归等。 (4)生成分析:生命表及Cox回归模型。
(5)时间序列分析。
(6)多元统计分析:相关分析、样品聚类、变量聚类、判别分析、因子分析、对应分析。
(7)一般线性模型。
SAS有一个智能型绘图系统,不仅能绘各种统计图,还能绘出地图。
SAS提供多个统计过程,每个过程均含有极丰富的任选项。用户还可以通过对数据集的一连串加工,实现更为复杂的统计分析。此外,SAS还提供了各类概率分析函数、分位
数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。
SAS提供两种非交互式运行方式(批处理方式、程序方式)和两种交互式(命令行方式、菜单方式),以适应不同的应用场合和不同层次的使用者。非交互式适用于大批量、经济性统计分析和用户应用系统。交互方式则适用于临时性统计分析和程序调试。其中菜单方式只需用户在屏幕上显示的程序框架中填入合适的参数,尤其适于不熟悉SAS的使用者。SAS多窗口技术提供多种系统定义窗口,使运行情况一目了然。此外,用户还可自己定义各种窗口,使用户研制的系统更为方便、“友善”。
SAS的通讯功能允许用户与主机进行数据及程序交换,可实现SAS数据文件与SQL Server、Access、Excel等互相交换数据。
SAS系统简单易学、使用方便、即使是没有编程经验甚至不太熟悉计算机的用户,也可以在很短的时间内学会使用SAS系统作基本的数据分析和统计工作。对统计人员来说,SAS系统是一个得心应手的工具,所有的工作都可以在本系统内完成,而不象有的统计软件那样,需要先在一个系统内作数据管理工作,再在另一个系统内作数据分析和统计工作,从而简化了处理过程。
最近SAS软件研究所又发布了SAS系统8.2新版本。与以往的版本比较,8.2版的SAS系统除在功能和性能方面得到增加和提高外,GUI界面也进一步加强。SAS 通过对ODBC、COLE和MailAPIs等业界标准的支持,大大加强了SAS系统和其它软件厂商的应用系统之间相互操作的能力,为各应用系统之间的信息共享和交流奠定了坚实的基础。有关SAS系统的最新动态新参见SAS主页http://www.77cn.com.cn。
(二)Micro TSP时间序列软件包
Micro TSP(Time Series Processor)是原国家教委所推荐的功能强大的经济计量分析软件,主要用于时间序列分析,当然也包括了基本的统计运算。其主要功能为:(1)基本统计运算,如平均数、方差、标准差等。(2)相关分析。(3)回归分析,包括简单回归分析和多元回归分析。(4)统计预测,即根据回归模型进行历史外推。(5)季节数据整理。(6)ARMA模型的建立。(7)文件及数据管理。(8)统计图形与图形打印。(9)联立方程模型估计求解功能。该软件可采用对话式操作,也可用命令编程运行。Micro TSP for DOS的最高版本为V6.53,其Windows版改名为EViews。
(三)EViews软件
EViews是Econometric Views(经济计量视图)的缩写,为Micro TSP的Windows版本。EViews充分利用Windows操作系统的强大功能,引入了全新的面向对象概念,通过操作对象实现各种分析功能。EViews提供了在运行Windows的微机上进行复杂的数据分析、回归和预测的强大工具。用EViews可以快速地建立起数据间的统计模型,并用此模型进行预测。EViews的版本有V1.0、V2.0、V3.0、V3.1和V4.0等。有关EViews软件的最新动态见http://www.77cn.com.cn。
(四)MiniTab for Windows
MiniTab for Windows统计软件比SAS、SPSS等小得多,但其功能并不弱,特别是它的试验设计及质量控制等功能。MiniTab提供了对存储在二维工作表中的数据进行分析的多种功能,包括:基本统计分析、回归分析、方差分析、多元分析、非参数分析、时间序列分析、试验设计、质量控制、模拟、绘制高质量三维图形等。可在其主页(http://www.77cn.com.cn)上查询最新动态或下载30天全功能试用版。
(五)NCSS 2000 for Windows
NCSS for Windows是一个十分优秀的统计软件,其界面友好,功能齐全。其主要功能有:描述性统计、相关及回归分析、试验设计、质量控制、生存及可靠性分析、多元分析、
时间序列分析及预测、统计图表绘制等。其主页(http://www.77cn.com.cn)上有全功能30天试用版可下载。
(六)DPS For Windows
这是一款国产的数据处理软件,除了输出结果较为简单外,其功能十分齐全,是一个“通用多功能数理统计和数学模型处理软件”。它是用Delphi开发的,采用TideStone公司的FormulaOne控件作为其电子表格。与国外同类专业统计分析软件(如SAS、SPSS、STAT、STATISTICA等)相比,DPS系统是独特的,它在使用时不必拘泥于一般电子表格的行列规定,行和列由系统辨认。DPS在统计分析及模型模拟方面功能齐全,易于掌握,尤其是对广大中国用户。其配套书实际上是一本难得的统计分析资料,因为书中对各种统计过程的原理都作了较深入的介绍。
(七)其它统计分析软件其网址。
Statistica,http://www.77cn.com.cn
BMDP,http://www.77cn.com.cn
SYSTAT,http://www.77cn.com.cn
StatMost,http://www.77cn.com.cn
Stata,http://www.77cn.com.cn
S-Plus,http://www.77cn.com.cn/splus
SimStat,http://www.77cn.com.cn
SHAZAM,http://shazam.econ.ubc.ca
DataDesk,http://www.77cn.com.cn/datadesk
Matlab,http://www.77cn.com.cn
第二节 SPSS简介
一、SPSS概述
SPSS是英文Statistical Package for the Social Science(社会科学统计软件包)的缩写。20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。20世纪80年代以前,SPSS统计软件主要应用于企事业单位。1984年SPSS总部首先推出了世界第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。SPSS名为社会科学统计软件包,这是为了强调其在社会科学应用的一面(因为社会科学研究中的许多现象都是随机的,要使用统计学来进行研究),而实际上广泛应用于经济学、社会学、生物学、教育学、心理学、医学以及体育、工业、农业、林业、商业和金融等各个领域。
SPSS现已推广到多种各种操作系统的计算机上,它和SAS、BMDP并称为国际上最有影响的三大统计软件。和国际上几种统计分析软件比较,它的优越性更加突出。在众多用户
对国际常用统计软件SAS、BMDP、GLIM、GENSTAT、EPILOG、MiniTab的总体印象分的统计中,其诸项功能均获得最高分①。在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之大和信誉之高。
SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。
二、SPSS for Windows的不同版本
到目前为止,SPSS已具有适合于DOS、Windows、Unix、Macintosh、OS/2等多种操作系统使用的产品,国内常用的是其DOS和Windows版本。SPSS for DOS通常称为SPSS/PC+,现已较少使用。由于SPSS for Windows界面友好,功能强大,使用者越来越多。SPSS for Windows的主要版本有SPSS V7.0、SPSS V7.5、SPSS V8.0、SPSS V9.0、SPSS V10.0、SPSS V11.0等,SPSS V10.0以上有服务器(Server)与本地(Local)/客户版本之分。SPSS各个版本的主要新增功能如表1-2所示。表1-2 SPSS for Windows不同版本新增特性② ①
② 汤旦林、王松柏:《几种国际通用统计软件的比较》,《数理统计与管理》,1996.1。 参见SPSS帮助文件和SPSS公司的网址(http://www.77cn.com.cn/)。
SPSS版本
SPSS V7.0主要新增特性 1、 充分利用了Windows 95的强大功能,提供了新的输出界
面和灵活的帮助;
2、 添加了Summarize和GLM(一般线性模型)等统计分析
过程。
1、 首次加入了脚本引擎,可以采用与Visual Basic完全兼容
的Sax Basic语言编写脚本程序定制输出或自动运行某
些任务;
2、 可以把输出结果以HTML文件格式导出;
3、 新增了Statistics Coach(统计教练)帮助新用户选择合适
的统计分析过程以及Variance Components Analysis等。
1、 新增了动态的交互式图表;
2、 增强了方差分析、探索性分析、均值分析、可靠性分析、
生存分析、回归分析等过程的功能;
3、 增强了输出结果管理、数据管理和帮助系统的功能。
1、 对界面作了一些改动,如用[Analyze(分析)]菜单项代替
以前各版本的[Statistics(统计)]等;
2、 添加了多种交互式图表类型;
3、 增强了可靠性分析、交叉表分析、回归分析和ROC曲线
过程等;
4、 提供了新的文件管理。
1、 新的数据管理功能允许对大数据文件进行分析,减少了
分析时间和所需的临空间;
2、 新的数据编辑器使得数据的录入、检查、组织更为方便;
3、 简化了与SQL数据库、Excel等的数据交互,可以直接
分析Excel文件中的数据,并支持最新的XML文件格式;
4、 增强了图表和输出结果管理等功能;
5、 新增了一些统计过程,如非线性主成分分析、PLUM等;
6、 改进了Logistic回归分析和Cox回归分析的输出;
7、 增加了分布式分析,即把数据提交给SPSS 10.0的服务
器版本进行分析,大大提高了效率。 SPSS V7.5SPSS V8.0SPSS V9.0SPSS V10.0
本书以运行于Windows 9X/NT/2000上的SPSS 10.0 for Windows本地版本为例,并简称SPSS。
三、SPSS的运行环境
(一)SPSS的硬件环境
能运行Windows 95/NT/2000或以上版本的微机。
(二)SPSS的软件环境
目前SPSS还没有简体中文版,SPSS能在中英文Windows 9X、Windows NT 4.0、Windows 2000及更高版本的Windows操作系统上运行。
四、SPSS的安装
如果您的计算机中没有安装SPSS,则按下列步骤进行SPSS的安装:
1、启动Windows后,把SPSS系统安装软盘(或光盘)插入软驱(或光驱),并找到SPSS的安装程序的可执行文件Setup.exe。