线性回归分析

发布时间:2021-06-06

§ 8.3 线性回归分析 一、回归分析原理 回归分析实际上就是建立某种数学模型并做检验。假定: 一列(或多列)数据的变化同另一列数据的变化呈某种函数关 系,衡量数据联系强度的指标,并通过指标检验其符合的程度, 就称为回归分析。

回归分析包括:一元回归、多元回归以及线性回归和非线 性回归: 一元回归:Y(因变量)取值:y1 y2 y3… X(自变量)取值:x1 x2 x3 … 建立一元线性回归方程: Y=BX+C(方程中的 B 为回归系 数,C为常数) 或者是非线性回归方程:Y=f(X)

多元回归:Y(因变量)取值: y1 y2 y3… X1(自变量1)取值: x11 x12 x13 … X2(自变量2)取值: x21 x22 x23 … ……

Xn(自变量n)取值: xn1 xn2 xn3 …

建立多元线性回归方程:Y=B1X1+B2X2…+ BnXn + B0(方 程中的Bi为回归系数) 或者是非线性回归方程:Y=f(X1 X2…Xn)

二、回归分析的概念 假定测量数据为: 因变量 自变量1 自变量2 … 自变量n y1 x11 x21 … xn1 y2 x12 x22 … xn2 … … … ym x1m x2m … xnm 建立因变量与自变量的关系,回归方程: Y=B1X1+B2X2 …+ B0 纳入前:

y j xij 0 j

εj为随机因素影响,即残差。

纳入后:

Y j Bxij B02 ( Y y ) j j j 1

要求组内离差平方和 最小。 m

纳入方程的自变量应满足: ①自变量的作用显著 X的变化应引起Y的显著变化。从而需要对回归方程做F 检验: m 2 组间离差平方和: S R (Y j y )

j 1

组内离差平方和:

S E (Y j y j )j 1

m

2

总离差平方和:

ST SR SER

回归均方差(组间方差): M

2 ( Y y ) j j 1

m

n2 ( Y y ) j j j 1 m

残差均方差(组内方差):

ME

m n 1

计算F值,

MR F ME

由F值查表,得到P。讨论显著度水平: <=α 自变量作用显著 P >α 自变量作用不显著

将未进入方程的某自变量 Xi与 Y做方差分析,各水平均值 差异显著,满足: F > 3.84 或P<= 0.05 则该Xi可以进入回归方程。而已进入回归方程的Xi与回归 后的Y如果出现: F < 2.71 , P> 0.1 则该Xi 必须从回归方程中剔除。 ②方程中回归系数的作用显著 对已进入方程的变量的回归系数做 T检验,该检验的零假 设是Bi=0,即回归系数可以忽略,备择假设是Bi不为零。T值 的计算为: B

T

i

通过查表可以得到P(即:Sig T)。 若P> 0.1的Xi须可以考虑首先从回归方程中剔除。 其中: Bi为偏回归系数 SEBi为偏回归系数的标准误

SEBi

③欲进入方程的自变量应当与已进入的自变量相关程度 足够低。 引进描述相关程度的量:容忍度Tolerance,即变量之间 的相关系数的显著度水平。若: Tolerance > 0.0001 表明欲进入方程的自变量与其它自变量的相关程

度低, 即:xi 与xj相关程度低,则xi可以进入回归方程。

三、自变量纳入回归方程的方式 SPSS for Win8.0系统提供的自变量纳入方程的方式有五种, 分别为: ①强行介入法Enter(一次性进入) 这是一种不检验F和Tolerance,一次将全部自变量无条件 地纳入回归方程。 ②强行剔除Remove(一次性剔除) 指定某些变量不能进入方程。这种方法通常同别的方法联 合使用,而不能首先或单独使用,因为第一次使用或单独使用 将意味着没有哪个变量进入方程。 ③逐步进入Stepwise 每次选择符合进入条件的自变量进入方程,进入后立即检 验,不合格者剔除,直到全部合格自变量进入方程。 ④反向剔除Backward 先强行介入,再逐个剔除不合格变量,直到全合格。 ⑤正向进入Forward 每次选择符合进入条件的自变量进入方程,逐个选择,逐 个进入,直到全部合格自变量进入方程。

四、操作步骤 ⒈回归分析命令菜单 执行:[Statistics][Regression] [Linear] 选择因变量到:“Dependent”因变量框内 选择若干个自变量移动到:“Independent(s)”自变量框内。 ⒉回归方法 “Method”下拉菜单提供了五种回归方法供选择: 强行介入法Enter 正向进入Forward 反向剔除Backward 逐步进入Stepwise 强行剔除Remove

“Block 1 of n” 可以将回归步骤分为若干组块。在指定了 一组因变量和自变量后,可以用“Next”按钮再建立另一个组 块,以便再次指定一组因变量和自变量。在建立了若干组块以 后,执行回归分析命令,将能够逐一组块地进行分析。 例如:在研究“小麦产量”时,收集了“土壤成分”、 “农家肥料”、“化肥”、“灌溉”以及“种谷物的产量”等 数据。假定:“小麦产量”为因变量。要求在回归方程中先以 “土壤成分”、“化肥”和“种谷物的产量”为自变量,然后 剔除“种谷物的产量”,再将其它自变量根据系统的计算来确 定是否纳入方程。因此 可以分成三个组块来完成: ①在第一组块Block 1中使用强行介入法Enter,选“土壤 成分”、“化肥”和“种谷物的产量”为自变量。单击“Next” 按钮。 ②在第二组块Block 2中使用强行剔除Remove,选择“种 谷物的产量”。 再单击“Next”按钮。 ③在第三组块Block 3中使用正向进入Forward,选择其它 自变量。 在最后结果中,“土壤成分”、“化肥” 将成为自变量 无条件进入方程,而“种谷物的产量”将不出现在方程中,其

“Selection Variable”为指定抽样变量以及抽样规则。 例如:以年份year为抽样变量,并指定抽样规则为 1985年 以后的样本,则可以指定“Selection Variable” 为year。 在定义抽样规则项“Define Selection rule ”中定义: Greater tha

n 1985。 ⒊统计量的计算 单击计算统计按钮:“Statistics” 在计算统计对话窗口中, 可以见到如下几方面的内容: ⑴回归系数的计算Regression Coefficients: ①“Estimates”计算各个自变量的回归系数B、相关系数R、 标准误SEB、标准化回归系数Beta、t检验的双侧概率以及容忍 度Tolerance。 ②“Confidence interval”回归系数的95%的置信区间。 ③“Covariance matrix”生成协方差矩阵。

⑵统计输出选项 ①“ Model fit” 模式拟合。计算相关系数 R、可决系数 R2 、 调整相关系数Adjusted R-Square以及计算标准误Std.Error of Estimates。 ②“R squared change”可决系数的变化。当纳入的一个自 变量的可决系数显著大于其它自变量的可决系数,说明该自变 量能够很好地描述因变量。 ③“ Descriptives” 计算描述统计量:平均值、标准差、相 关系数的显著度水平的检验矩阵。 ④“Part and partial Correlate”计算零阶以及偏相关系数。 ⑤“ Collinearity diagnostics” 自变量线性相关检验,即容 忍度检验。

⑶残差及样本的检验 ①“Durbin-Watson”杜宾-沃特森检验 对残差的系列相关检验。进一步还计算残差与自变量值 的汇总统计。 ②“Casewise diagnostic”样本诊断 对符合回归标准的样本进行检验,并产生样本诊断表。 其中有两个标准可供选择: ● Outliers outside (n) Standard deviations : 奇 异 值 (Outlier)的诊断。定义大于 n个标准差的样本观测值为奇异值。 系统默认n=3。 ●All cases:诊断所有的样本。 ⒋生成回归统计图形 单击统计图形按钮“Plots” 可以定义作图变量以及图形类 型。系统将根据所选择的变量和图形类型产生相应的图形。图 形包括:

①散点图(Scatterplot) 在对话窗口变量列表中选择自变量X和因变量Y建立图形。 图形中的每个点将是这两个变量的值决定的。用 “Scatter n of” 的按钮“Previous”和“Next”可以定义更多的自变量X和因 变量 Y 来产生图形。图形对话窗口允许生成最多达 9个散点图。 变量列表中的变量分别表示: DEPENDENT:因变量 *ZPRED 标准化预测值(预测值就是回归后因变量的取 值,区别于回归前的观测值) *ZRESID标准化残差(预测值与观测值之差的标准化) *DRESID剔除残差 *ADJPRED调整预测值 *SRESID经过t值化的残差 *SDRESID经过t值化的剔除残差

②偏回归图 复选项“Produce all partial plot”将生成每个自变量的残差 同因变量的残差图。 ③标准化残差图 复选项“Histogram”标准化残差的直方图。 复选项“Normal probability plot”正态概率图,显示了标 准化残差的观测积累概率同期望积累概率的关系。 五、保存变量 “Save”将把分析产生的结果用新变量保存起来。可以保存 的新变量有:

①预测值项Predicted Values Unstandardized非标准化预测值变量 Standardized标准化预测值变量 Adjusted调整预测值变量 S.E.of mean predictions预测值的标准误变量

②距离值项Distances 保存有关不同距离计算的变量: Mahalanobis关于Mahalanobis距离变量 Cook's关于Cook距离变量 Leverage values关于中心点杠杆值变量 预测区间项Prediction intervals 保存预测区间有关的变量: Mean预测区间上下限的平均值变量 Individual观测区间变量 ③残差项Residuals 保存有关残差的变量 Unstandardized非标准化残差变量 Standardized标准化残差变量 Studentized学生化残差变量 Deleted剔除残差变量 Standardized Deleted标准化剔除残差变量

④影响统计项Influence statistics 保存有关影响统计的变量 DfBeta(s)产生的变量将反映:剔除一个可能是影响点的 观测值所引起的回归系数的变化。当一个观测值的标准化残差 的绝对值超过3,则该观测值就是奇异值,回归运算不应考虑 Standardized DfBeta(s)经标准化的 DfBeta(s)值。 DfFit 产生的变量将反映:剔除一个可能是影响点的观测 值所引起的预测值的变化。 Covariance Ratio生成一个协方差率矩阵。该矩阵将是剔 除一个可能是影响点的观测值后的协方差矩阵与保留全部观测 值的协方差矩阵之比。 ⑤Save to new file项 选项Coefficients Statistics的作用是生成一个关于回归系 数的文件。

六、选项 “Options” 选项: ⑴Stepping Method Criteria项 本选项是设置变量纳入方程或从方程中剔除的判据的。 Use probability of F用F检验的显著度水平Sig F。默认值F 的Pin<=0.05可以纳入回归方程。F的Pout>=0.1将从回归方程 中剔除。 Use F value用F检验的F值本身为判据。当Fin值>=3.84, 将可以纳入回归方程。当Fout值 <=2.71,将从回归方程中剔 除。 ⑵Include constant in equation 在回归方程中是否包含常数项。 ⑶Missing value项 Exclude cases listwise排除列表中变量含有缺失值的样本。 Exclude cases pariwise排除运算变量含有缺失值的样本。 Replace with mean用平均值代替缺失值参与运算。

七、线性回归分析所产生的结果 经过线性回归分析,可以产生的主要结果有: ⒈回归方程 例如:Salnow=1.73408Salbeg+2.98048960Edlevel58.950024Age+135.904124 其中: 偏相关系数分别为:1.73408、2.98048960、-58.950024。 常数为:135.904124 ⒉多元相关系数 Multiple R= .895 可决系数:R Square= .801 调整可决系数:Adjusted R Square= .800 各个偏相关系数的T检验值分别为:.000、.000和.000。说 明三个自变量的作用是明显的。

八、语句 REGRESSION /CRITERIA=PIN(.05) POUT(.01) /DEPENDENT 因变量 /METHOD 方式 因变量1…

线性回归分析.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219