回归分析的基本思想及其初步应用(H)

发布时间:2021-06-06

回归分析的基本思想及其初步应用(H)

1.1 回归分析的基本思想 及其初步应用

回归分析的基本思想及其初步应用(H)

温故知新不相关 两个变量的关系 函数关系 相关关系 非线性相关 函数关系中的两个变量间是一种确定性关系。 函数关系中的两个变量间是一种确定性关系。 相关关系是一种非确定性关系。 相关关系是一种非确定性关系。 线性相关

回归分析的基本思想及其初步应用(H)

例1、某大学中随机选取8名女大学生,其身高 某大学中随机选取8名女大学生, 和体重数据如下表所示. 和体重数据如下表所示.编号 体重/kg 体重/kg 1 48 2 57 3 50 4 54 5 64 6 61 7 43 8 59 身高/cm 身高/cm 165 165 157 170 175 165 155 170

求根据女大学生的身高预报体重的回归方程, 求根据女大学生的身高预报体重的回归方程, 并预报一名身高为172cm的女大学生的体重 的女大学生的体重. 并预报一名身高为 的女大学生的体重

回归分析的基本思想及其初步应用(H)

解:1、选取身高为自变量 ,体重为因变量 ,作散点图: 、选取身高为自变量x,体重为因变量y,作散点图:

2、由散点图知道身高和体重有比较好的线性相关关系, 、由散点图知道身高和体重有比较好的线性相关关系, 因此可以用线性回归方程刻画它们之间的关系。 因此可以用线性回归方程刻画它们之间的关系。

回归分析的基本思想及其初步应用(H)

样本点呈条状分布,身高和体重有较好的线性相关关 样本点呈条状分布, 因此可以用回归方程来近似的刻画它们之间的关系. 系,因此可以用回归方程来近似的刻画它们之间的关系. (x,y)称 (x,y)称为

$ $ 就是未知参数a和 的最好估计 心 根据最小二乘法估计a 和b 就是未知参数 和b的最好估计, 样的最好估计, 本点的中n n ∑(xi - x)(yi - y) ∑ xiyi - nxy 探究P4: 探究 : i=1 b = i=1 n = n = 0.849, 的女大学生的体重一定是 于是有 身高为172cm的女大学生的体重一定是 身高为 的女大学生的体重一定是60.316kg吗? 吗 2 2 2 ∑(xi - x) ∑ xi - nx 如果不是,你能解析一下原因吗? 如果不是,你能解析一下原因吗? i=1 i=1 a = y - bx = -85.712

y 所以回归方程是 $ = 0.849 x 85.712所以,对于身高为 的女大学生, 所以,对于身高为172cm的女大学生,由回归方程可以预报其体重为 的女大学生

$ = 0.849 ×172 85.712 = 60.316(kg ) y

回归分析的基本思想及其初步应用(H)

解:散点图: 散点图:

思考P3 思考产生随机误差项e 产生随机误差项 的原因是什么? 的原因是什么?

3、从散点图还看到,样本点散布在某一条直线的附 、从散点图还看到, 线性回归模型来表示: 来表示 我们可以用下面的线性回归模型来表示: 而不是在一条直线上, 近,而不是在一条直线上,所以不能用一次函数 y=bx+a+e,其中a和b为模型的未知参数, y=bx+a+e,其中a 为模型的未知参数, y=bx+a简单描述它们关系。 简单描述它们关系

。 简单描述它们关系 e称为随机误差。 称为随机误差。

回归分析的基本思想及其初步应用(H)

思考P3 思考 产生随机误差项e的原因是什么 的原因是什么? 产生随机误差项 的原因是什么?随机误差e的来源(可以推广到一般): 随机误差e的来源(可以推广到一般): 1、其它因素的影响:影响体重 y 的因素不只是身高 、其它因素的影响: x,可能还包括遗传基因、饮食习惯、生长环境等 ,可能还包括遗传基因、饮食习惯、 因素; 因素; 2、身高 x的观测误差。 的观测误差。 、 的观测误差

回归分析的基本思想及其初步应用(H)

线性回归模型y=bx+a+e增加了随机误差项e,因 线性回归模型y=bx+a+e增加了随机误差项e y=bx+a+e增加了随机误差项 变量y的值由自变量x和随机误差项e共同确定, 变量y的值由自变量x和随机误差项e共同确定,即自 变量x只能解析部分y的变化。 变量x只能解析部分y的变化。 在统计中,我们也把自变量x称为解析变量, 在统计中,我们也把自变量x称为解析变量,因变 解析变量 预报变量。 量y为预报变量。

回归分析的基本思想及其初步应用(H)

残差数据点和它在回归直线上相应位置的差异 称为相应于点( 残差。 称为相应于点(xi,yi ) 的残差。

$ e i = yi $ i y

例:编号为6的女大学生,计算随机误差的效应(残差) 编号为6的女大学生,计算随机误差的效应(残差)

61 (0.849 × 165 85.712) = 6.627残差平方和把每一个残差所得的值平方后加起来, 把每一个残差所得的值平方后加起来,用数学符号表 n 示为: 示为: ( yi $ i ) 2 y ∑i =1

称为残差平方和 称为残差平方和 在例1 在例1中,残差平方和约为128.361。 残差平方和约为128.361。 128.361

回归分析的基本思想及其初步应用(H)

残差分析与残差图的定义: 残差分析与残差图的定义:$ $ $ 来判断模型拟合的效果, 我们可以通过残差 e1 , e 2 ,L , e n 来判断模型拟合的效果,判断原始 数据中是否存在可疑数据,这方面的分析工作称为残差分析。 数据中是否存在可疑数据,这方面的分析工作称为残差分析。表1-4列出了女大学生身高和体重的原始数据以及相应的残差数据。 列出了女大学生身高和体重的原始数据以及相应的残差数据。 列出了女大学生身高和体重的原始数据以及相应的残差数据

编号 身高 体重/kg 体重 残差

1 165 48-6.373

2 165 572.627

3 157 502.419

4 170 54-4.618

5 175 641.137

6 165 616.627

7 155 43-2.883

8 170 590.382

我们可以利用图形来分析残差特性,作图时纵坐标为残差, 我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可 以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残 以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残 差图。 差图。

回归分析的基本思想及其初步应用(H)

残差图的制作及作

用。 残差图的制作及作用。 坐标纵轴为残差变量,横轴可以有不同的选择; 坐标纵轴为残差变量,横轴可以有不同的选择; 若模型选择的正确,残差图中的点应该分布在以 若模型选择的正确, 横轴为心的带形区域; 横轴为心的带形区域; 对于远离横轴的点,要特别注意。 对于远离横轴的点,要特别注意。

身 高 与 体 重 残 差 图

异 常 点 错误数据 模型问题

:

个样本点和第6个样本点的残差比较大, 个样本点和第 个样本点的残差比较大,需要确认在采集过程中是否有人为 个样本点的残差比较大 如果数据采集有错误,就予以纠正, 如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数 果数据采集没有错误,则需要寻找其他的原因。 果数据采集没有错误,则需要寻找其他的原因。 残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适, 残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这 状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。 状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。

回归分析的基本思想及其初步应用(H)

我们可以用相关指数 2来刻画回归的效果,其计算公式是 我们可以用相关指数R 来刻画回归的效果, 相关指数(yi - yi )2 ∑ $ R2 = 1 i=1 n n

∑(yi=1

i

- y)2

显然, 的值越大,说明残差平方和越小, 显然,R2的值越大,说明残差平方和越小,也就是说模型拟合 效果越好。 效果越好。 R2越接近 ,表示回归的效果越好(因为 2越接近 ,表示解析 越接近1,表示回归的效果越好(因为R 越接近1, 变量和预报变量的线性相关性越强)。 变量和预报变量的线性相关性越强)。 如果某组数据可能采取几种不同回归方程进行回归分析, 如果某组数据可能采取几种不同回归方程进行回归分析, 总的来说: 总的来说: 则可以通过比较R 的值来做出选择, 选取R 。 则可以通过比较R2的值来做出选择,即选取R2较大的模型作为 相关指数R2是度量模型拟合效果的一种指标。 相关指数 是度量模型拟合效果的一种指标 这组数据的模型。 它代表自变量刻画预报变量的能力。 在线性模型中, 在线性模型中,

回归分析的基本思想及其初步应用(H)

用身高预报体重时,需要注意下列问题: 用身高预报体重时,需要注意下列问题: 1、回归方程只适用于我们所研究的样本的总体; 、回归方程只适用于我们所研究的样本的总体; 2、我们所建立的回归方程一般都有时间性; 、我们所建立的回归方程一般都有时间性; 3、样本采集的范围会影响回归方程的适用范围; 、样本采集的范围会影响回归方程的

适用范围; 4、不能期望回归方程得到的预报值就是预报变量的 精确值。事实上,它是预报变量的可能取值的平均值。 精确值。事实上,它是预报变量的可能取值的平均值。

回归分析的基本思想及其初步应用(H)

一般地,建立回归模型的基本步骤为: 一般地,建立回归模型的基本步骤为: (1)确定研究对象,明确哪个变量是解析变量,哪个变量 确定研究对象,明确哪个变量是解析变量, 是预报变量。 是预报变量。 (2)画出确定好的解析变量和预报变量的散点图,观察 画出确定好的解析变量和预报变量的散点图, 它们之间的关系(如是否存在线性关系等)。 它们之间的关系(如是否存在线性关系等)。 (3)由经验确定回归方程的类型(如我们观察到数据呈线 由经验确定回归方程的类型( 性关系,则选用线性回归方程y=bx+a y=bx+a) 性关系,则选用线性回归方程y=bx+a). (4)按一定规则估计回归方程中的参数(如最小二乘法)。 按一定规则估计回归方程中的参数(如最小二乘法)。 (5)得出结果后分析残差图是否有异常(个别数据对应残差 得出结果后分析残差图是否有异常( 过大,或残差呈现不随机的规律性,等等),过存在异常, ),过存在异常 过大,或残差呈现不随机的规律性,等等),过存在异常,则 检查数据是否有误,或模型是否合适等。 检查数据是否有误,或模型是否合适等。

回归分析的基本思想及其初步应用(H)

作业: 作业: 块并排的、 在7块并排的、形状大小相同的实验田上进行施 块并排的 肥量对水稻产量影响的试验, 肥量对水稻产量影响的试验,得到如下一组表所示 的数据(单位: ) 的数据(单位:kg)施化肥量x 施化肥量x 水稻产量y 水稻产量y 15 330 20 345 25 365 30 405 35 445 40 450 45 455

(1)以x为解释变量,y为预报变量,作出散点图 以 为解释变量 为解释变量, 为预报变量 为预报变量, (2)求y与x之间的回归方程,并求施肥量为 之间的回归方程, 求 与 之间的回归方程 并求施肥量为28kg时 时 的水稻产量的预报值 (3)计算各组残差,并计算残差平方和 计算各组残差, 计算各组残差 (4)求R2,并说明残差变量对产量影响有多大? 并说明残差变量对产量影响有多大? 求

回归分析的基本思想及其初步应用(H).doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219