回归分析与方差分析
发布时间:2021-06-05
发布时间:2021-06-05
回归分析,方差分析
回归分析与方差分析的异同比较
回归分析与方差分析是统计学中两种常用的统计分析方法,比较分析它们
的不同和相似之处,无论对把握两种方法的基本原理,还是对拓广其应用范围,无疑都是十分重要的。
一、两种方法的联系
回归分析与方差分析之间有许多相似之处,这体现了两者之间的内在联系。我们把这种相似性具体归纳为如下几个方面。
(一)在概念上具有相似性
回归分析是为了分析一个变数如何依赖其它变数而提出的一种统计分析方法。运用回归分析法,可以从变数的总变差中分解出回归因子解释的变差和未被解释的变差。回归分析的目的是要确定引起应变数变异的各个因素。而方差分析是为了分析实验数据而提出的一种统计分析方法。运用方差分析,可以从变数的总变差中分解出 因子的效应和随机因子的效应。方差分析的目的是要确定产生变差的有关各种因素。两种分析在概念上所具有的相似性是显而易见的。
(二)在目的实现上具有相似性
回归分析确定因素X是否为Y的影响因素时,从实现程序上先进行变数X与变数y的相关分析,然后建立变数间的回归模型,最后进行对参数的统计显著性检验。方差分析确定因素X是否是Y的影响因素时,从实现程序上,先从实验数据的分析入手,然后考察数据模型,最后对样本均值是否相等进行统计显著性检验。实现程序显然是相近的。
(三)在假设条件上具有相似性
回归分析有四条基本假定:(1)线性假定,即模型为Y a bX u;(2)随机性、零均值、同方差、正态性假定,即 N(0, u2);(3)独立性假定,即
Cov( i, j) 0;(4)扰动项与解释变量无关假定,即Cov(X, ) 0。方差分析对试验数据也有四条假定:(1)线性假定,即数据模型为Yij Yj ij(Yj为影响因素X在Xi水平上变数Y的试验均值);(2)正态假定,即Yij N(Yj, 2j);(3)独立性假定,即所有数据都是独立取得的;(4)方差齐次性假定,即
2 12 2 ... 2。
回归分析,方差分析
(四)在总变差分解的形式上具有相似性
在回归分析中,变数Y的总变差为 (Yi Y)2,未被解释的变差为
Y)2。因此,变数Y的总变差可分解 )2,影响因素X解释的变差为 (Y (Y Y
i
为由回归自变数解释的变差和未被解释的变差之和,即
i Y)2 (Y Y )2。而在方差分析中变数Y的试验数据总变差为 (Y Y)2 (Y
i
i
i
(Y
j 1i 1m
nj
m
nj
2
ij
Y ),组间变差为 (Y j Y ),组内变差为 (Yij Y j)。因此
j 1i 1
j 1i 1
m
nj
2
m
nj
2
变数Y的总变差可分解为组间变差与组内变差之和,即
2
ij
(Y
j 1i 1
Y ) (Y j Y ) (Yij Y j)
j 1i 1
j 1i 1
m
nj
2
m
nj
2
式中:Yij表示因素X在Xj水平上第i次试验变数Y的试验数值,
1
Y j
nj
1m
Yij,Y njY j,nj为因素X在Xj水平上变数Y的试验次数,N为 Nj 1i 1
mj 1
nj
试验的总次数N nj。
(五)在确定影响因素的基本思路上具有相似性
为简化分析起见,我们假设只有一个因素X影响变数Y。在回归分析中,要确定因素X是否是Y的影响因素,就要看当因素X已知时,对变数Y的总偏差有无影响。如果因素X不是影响Y的因素,那么已知数据列 Xi 和 Yi 就等同于只知变数Y的数据列一样,此时用去估计每个Yi的值,所犯的错误(即偏差) (Yi Y)2为最小。如果因素X是影响Y的因素,那么当已知X值后就要用Xi所对应的Yi去估计每个Yi的值,这时变数Y的总偏差为 (Yi Yi)2,所有Yi的连线即为回归线,当回归线是光滑线时就是回归直线,即
a bX (Y Y)。由于(Y Y) (Y Y ) Y Y,故有Y
i
i
i
i
i
i
i
i
)2 (Y Y)2,因此,X是影响Y的总偏差的因素。这一事实告诉我 (Yi Yii们,当因素X取水平Xi时,变数Y的均值Yi不等于Y时,就意味着因素X是影响变数Y的因素。这种确定影响因素的基本思路正是方差分析所遵循的思想。在方差分析中,数据模型为Yij Y J ij Y j ij(i 1,2...nj,j 1,2...m),可见,在每个数据中都携带因素X的影响 j和随机误差 ij的信息。如果
1 2 m 0等价于Y 1 Y 2 Y m Y 。可见,两种方法在确定影响
因素的基本思路上是一致的。
回归分析,方差分析
(六)在统计显著性检验上具有相似性
在回归分析和方差分析中为构造模型的检验统计量都要分析总偏差平方和,即每个因变量的观测值与总平均的偏差平方和ST。在回归分析中总偏差平
i Y)2 (Y Y )2 S S方和ST分解为:ST (Yi Y)2 (YiiRE 其中残差平方和SE是受误差影响引起部分,这里误差包括试验的随机误
差和模型不足引起的误差。回归平方和SR是引进回归自变量后引起的残差平方和的减少量,自变量对模型影响大时SR也变的较大。因此,当回归平方和SR相对残差平方和SE比较大时认为回归模型显著,即拟合的较好,于是检验统计量是利用SR和SE的比值来构造的F分布统计量。
方差分析的显著性检验是一种根据样本数据提取信息所进行的显著性检验。零假设为 1 2 m 0,即Y 1 Y 2 Y m,它也是通过F检验进行的。令ST (Yij Y )
j 1i 1m
nj
2
m
nj
2
m
nj
2
,
SA (Y j Y )
j 1i 1
,
SE (Yij Y j)
j 1i 1
,则F
统计量为
若
F
(m 1)
SE(N m)。
F F0.05(m 1,N m)
Yij
,则拒绝零假设,即接受平均值之间有显著差异,都含有因素X的影响
或者说变数Y的每个数据素。
j
,因此X是引起Y变差的因
二、两种方法的区别
回归分析与方差分析尽管有上述诸多相似之处,但毕竟是两种不同的统计分析方法,因此,对两种方法的差异性分析,从某种意义上讲比相似性分析显得更重要,我们认为,至少存在以下几点差异: (一)使用的数据不同
回归分析使用的是非试验资料的数据,因此,不需要试验设计,数据的结构为应变数Y和因素X对应的顺序数据,即 Yi,Xi|i 1,2,...,n 。方差分析使用的是试验资料数据,要进行试验设计,在试验方案确定之后,得到试验数据结构为
回归分析,方差分析
(二)研究变数的侧重不同
回归分析方法既研究变数Y,又研究变数X,并在此基础上集中研究变数Y与变数X的函数关系,因此需建立模型并估计参数。方差分析法集中研究变数Y的值及其变差,而变数X值仅用来把Y值划分为子群或组,因此不需要建立模型和估计参数,前边提到变数Y的数据模型只是一种定义式或叫会计恒等式。
(三)提供的信息不同
回归分析可提供两种类型的信息:一是不同解释变数对于应变数影响的数值;二是应变数Y的总变差分解为相加的分量。而方差分析仅仅提供后一种类型的信息。因此,当我们用非试验资料数据研究经济关系时,回归分析法比方差分析法更为有效。
(四)确定应变数Y的影响因素的属性不同
回归分析研究的是定量因素X对应变数Y的影响,变数Y与X均用定距尺度去测量。当然,在回归分析中也不是绝对排斥定性因素对应变数Y的影响,因为对定性因素可采用虚拟变数的处理方法。方差分析多数或主要研究的是定性因素X对应变数Y的影响,变数Y用定距尺度去测量,变数X用定类尺度测
回归分析,方差分析
量。由于方差分析无需知道X的确切数值,因此,通常认为研究定性因素对某一变数的影响时,采用方差分析法比较合适。
(五)确定影响因素X在某一水平上对应的应变数Y的均值方法不同 回归分析由于使用的对应顺序数据,即Xi只有一个Yi与之对应,因此Yi无
a bX 法由已知数据确定,它是建立回归方程Yii求得的(Yi Yi)。而方差分
1
对应的是直接通过试验数据求得的,即XY Yii析因素i
nj
Y
i 1
nj
ij
另外,由于这两种方法都可以编制方差分析表,用来检验与研究目的有关的假设,因此,方差分析可以与回归分析结合使用。
综上所述,回归分析与方差分析是两种既有联系又有区别的重要的统计分析方法,应用的时候要特别注意这种区别和联系,因为正确方法的使用是得出正确结论的前提。