1、13.1 回归分析的基本思想及其初步应用学习目标 1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果.3.掌握建立线性回归模型的步骤知识点一 线性回归模型思考 某电脑公司有 5 名产品推销员,其工作年限与年推销金额数据如下表:推销员编号 1 2 3 4 5工作年限 x/年 3 5 6 7 9推销金额 y/万元 2 3 3 4 5请问如何表示推销金额 y 与工作年限 x 之间的相关关系? y 关于 x 的线性回归方程是什么?答案 画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系设所求的线性回归方程为 x ,y b a 则 0.
2、5,b 5i 1xi xyi y5i 1xi x2 1020 0.4.a y b x所以年推销金额 y 关于工作年限 x 的线性回归方程为 0.5 x0.4.y 梳理 (1)函数关系是一种确定性关系,而相关关系是一种非确定性关系(2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法(3)对于一组具有线性相关关系的数据( x1, y1),( x2, y2),( xn, yn),回归直线y bx a 的斜率和截距的最小二乘估计公式分别为2 , ,其中( , )称为样本点的中心b ni 1xi xyi yni 1xi x2ni 1xiyi nx yni 1x2i nx2 a y b x
3、x y(4)线性回归模型 y bx a e,其中 a 和 b 是模型的未知参数, e 称为随机误差,自变量 x称为解释变量,因变量 y 称为预报变量知识点二 线性回归分析具有相关关系的两个变量的线性回归方程为 x .y b a 思考 1 预报变量 与真实值 y 一样吗?y 答案 不一定思考 2 预报值 与真实值 y 之间误差大了好还是小了好?y 答案 越小越好梳理 (1)残差平方和法 i yi i yi xi (i1,2, n)称为相应于点( xi, yi)的残差e y b a 残差平方和 (yi i)2越小,模型的拟合效果越好ni 1 y (2)残差图法残差点比较均匀地落在水平的带状区域中,
4、说明选用的模型比较合适这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高(3)利用相关指数 R2刻画回归效果其计算公式为: R21 ,其几何意义: R2越接近于 1,表示回归的效果越好ni 1yi y i2ni 1yi y2知识点三 建立回归模型的基本步骤1确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量2画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)3由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程)4按一定规则(如最小二乘法)估计回归方程中的参数5得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随
5、机的规律性等)若存在异常,则检查数据是否有误,或模型是否合适等31求线性回归方程前可以不进行相关性检验( )2在残差图中,纵坐标为残差,横坐标可以选为样本编号( )3利用线性回归方程求出的值是准确值( )类型一 求线性回归方程例 1 某研究机构对高三学生的记忆力 x 和判断力 y 进行统计分析,得下表数据:x 6 8 10 12y 2 3 5 6(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出 y 关于 x 的线性回归方程 x ;y b a (3)试根据求出的线性回归方程,预测记忆力为 9 的同学的判断力(相 关 公 式 : b ni 1xiyi nxyni 1x2i
6、 nx2, a y b x)考点 线性回归方程题点 求线性回归方程解 (1)如图:(2) iyi6283105126158,4i 1x 9,x6 8 10 124 4,y2 3 5 6446 28 210 212 2344,4i 1x2i 0.7,b 158 494344 492 1420 40.792.3,a y b x故线性回归方程为 0.7 x2.3.y (3)由(2)中线性回归方程可知,当 x9 时, 0.792.34,预测记忆力为 9 的同学的y 判断力约为 4.反思与感悟 (1)求线性回归方程的基本步骤列出散点图,从直观上分析数据间是否存在线性相关关系计算: , , , iyi.x
7、yni 1x2ini 1y2ini 1x代入公式求出 x 中参数 , 的值y b a b a 写出线性回归方程并对实际问题作出估计(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义跟踪训练 1 假设关于某设备的使用年限 x(年)和所支出的维修费用 y(万元)有如下的统计数据:x 2 3 4 5 6y 2.2 3.8 5.5 6.5 7.0由此资料可知 y 对 x 呈线性相关关系(1)求线性回归方程;(2)求使用年限为 10 年时,该设备的维修费用为多少?考点 线性回归方程题点 求线性回归方程解 (1)由上表中的数据可得4, 5, 90, iy
8、i112.3,x y5i 1x2i5i 1x5 b 5i 1xiyi 5xy5i 1x2i 5x2 1.23,112.3 54590 542 51.2340.08.a y b x线性回归方程为 1.23 x0.08.y (2)当 x10 时, 1.23100.0812.38.y 即使用年限为 10 年时,该设备的维修费用约为 12.38 万元类型二 回归分析命 题 角 度 1 线 性 回 归 分 析例 2 在一段时间内,某种商品的价格 x 元和需求量 y 件之间的一组数据为:x 14 16 18 20 22y 12 10 7 5 3求出 y 对 x 的线性回归方程,并说明拟合效果的程度考点 残
9、差分析与相关指数题点 残差及相关指数的应用解 (1416182022)18,x15 (1210753)7.4.y1514 216 218 220 222 21 660,5i 1x2iiyi14121610187205223620,5i 1x可得回归系数 b 5i 1xiyi 5x y5i 1x2i 5x2 1.15,620 5187.41 660 51826所以 7.41.151828.1,a 所以线性回归方程为 1.15 x28.1.y 列出残差表:yi iy 0 0.3 0.4 0.1 0.2yi y 4.6 2.6 0.4 2.4 4.4则 (yi i)20.3, (yi )253.2.
10、5i 1 y 5i 1 yR21 0.994.5i 1yi y i25i 1yi y2所以回归模型的拟合效果很好反思与感悟 (1)该类题属于线性回归问题,解答此类题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助线性回归方程对实际问题进行分析(2)刻画回归效果的三种方法残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适残差平方和法:残差平方和 (yi i)2越小,模型的拟合效果越好ni 1 y 相关指数法: R21 越接近 1,表明回归的效果越好ni 1yi y i2n
11、i 1yi y2跟踪训练 2 关于 x 与 y 有如下数据:x 2 4 5 6 8y 30 40 60 50 70有如下的两个线性模型:(1) 6.5 x17.5;(2) 7 x17.试比较哪一个拟合效果更好y y 考点 残差分析与相关指数题点 残差及相关指数的应用7解 由(1)可得 yi i与 yi 的关系如下表:y yyi iy 0.5 3.5 10 6.5 0.5yi y 20 10 10 0 20 (yi i)2(0.5) 2(3.5) 210 2(6.5) 20.5 2155,5i 1 y (yi )2(20) 2(10) 210 20 220 21 000.5i 1 y R 1 1
12、 0.845.215i 1yi y i25i 1yi y2 1551 000由(2)可得 yi i与 yi 的关系如下表:y yyi iy 1 5 8 9 3yi y 20 10 10 0 20 (yi i)2(1) 2(5) 28 2(9) 2(3) 2180,5i 1 y (yi )2(20) 2(10) 210 20 220 21 000.5i 1 y R 1 1 0.82.25i 1yi y i25i 1yi y2 1801 000由于 R 0.845, R 0.82,0.8450.82,21 2 R R .21 2(1)的拟合效果好于(2)的拟合效果命 题 角 度 2 非 线 性 回
13、 归 分 析例 3 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x(单位:千元)对年销售量 y(单位:t)和年利润 z(单位:千元)的影响对近 8 年的年宣传费 xi和年销售量8yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值x y w(xi )28i 1 x (wi )28i 1 w (xi )8i 1 x(yi )y(wi )8i 1 w(yi )y46.6 563 6.8 289.8 1.6 1 469 108.8表中 wi , i.xi w188i 1w(1)根据散点图判断, y a bx 与 y c d 哪一个适宜作为年销售量 y 关于年宣传费 x
14、 的x回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方程;(3)已知这种产品的年利润 z 与 x, y 的关系为 z0.2 y x.根据(2)的结果回答下列问题:年宣传费 x49 时,年销售量及年利润的预报值是多少?年宣传费 x 为何值时,年利润的预报值最大?附:对于一组数据( u1, v1),( u2, v2),( un, vn),其回归直线 v u 的斜率和截距的最小二乘估计分别为 , . ni 1ui uvi vni 1ui u2 v u考点 非线性回归分析题点 非线性回归分析解 (1)由散点图可以判断, y c d 适宜作为
15、年销售量 y 关于年宣传费 x 的回归方程类x型(2)令 w ,先建立 y 关于 w 的线性回归方程x9由于 68,d 8i 1wi wyi y8i 1wi w2 108.81.6 563686.8100.6,c y d w所以 y 关于 w 的线性回归方程为 100.668 w,y 因此 y 关于 x 的回归方程为 100.668 .y x(3)由(2)知,当 x49 时,年销售量 y 的预报值 100.668 576.6,y 49年利润 z 的预报值 576.60.24966.32.z 根据(2)的结果知,年利润 z 的预报值0.2(100.668 ) x x13.6 20.12.z x
16、x所以当 6.8,x13.62即 x46.24 时, 取得最大值z 故年宣传费为 46.24 千元时,年利润的预报值最大反思与感悟 求非线性回归方程的步骤(1)确定变量,作出散点图(2)根据散点图,选择恰当的拟合函数(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果(5)根据相应的变换,写出非线性回归方程跟踪训练 3 在一次抽样调查中测得样本的 5 个样本点,数值如下表:x 0.25 0.5 1 2 4y 16 12 5 2 1试建立 y 与 x 之间的回归方程考点 非线性回归分析题点 非线性回归分析解
17、 由数值表可作散点图如图,10根据散点图可知 y 与 x 近似地呈反比例函数关系,设 ,令 t ,则 kt,原数据变为:y kx 1x y t 4 2 1 0.5 0.25y 16 12 5 2 1由置换后的数值表作散点图如下:由散点图可以看出 y 与 t 呈近似的线性相关关系,列表如下:i ti yi tiyi t2i1 4 16 64 162 2 12 24 43 1 5 5 14 0.5 2 1 0.255 0.25 1 0.25 0.062 5 7.75 36 94.25 21.312 5所以 1.55, 7.2.t y所以 4.134 4,b 5i 1tiyi 5t y5i 1t2i
18、 5t2 0.8.a y b t所以 4.134 4 t0.8.y 11所以 y 与 x 之间的回归方程是 0.8.y 4.134 4x1下列两个变量之间的关系不是函数关系的是( )A角度和它的余弦值B正方形的边长和面积C正 n 边形的边数和内角度数和D人的年龄和身高考点 回归分析题点 回归分析的概念和意义答案 D解析 函数关系就是变量之间的一种确定性关系A,B,C 三项中的两个变量之间都是函数关系,可以写出相应的函数表达式,分别为 f( )cos , g(a) a2, h(n)( n2).D选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高,故选 D.2设有一个线性回归
19、方程 21.5 x,当变量 x 增加 1 个单位时( )y A y 平均增加 1.5 个单位B y 平均增加 2 个单位C y 平均减少 1.5 个单位D y 平均减少 2 个单位考点 线性回归分析题点 线性回归方程的应用答案 C解析 由回归方程中两个变量之间的关系可以得到3如图四个散点图中,适合用线性回归模型拟合其中两个变量的是( )A B C D12考点 回归分析题点 回归分析的概念和意义答案 B解析 由图易知两个图中样本点在一条直线附近,因此适合用线性回归模型4某产品在某零售摊位的零售价 x(单位:元)与每天的销售量 y(单位:个)的统计资料如下表所示:x 16 17 18 19y 50
20、 34 41 31由上表可得回归直线方程 x 中的 5,据此模型预测当零售价为 14.5 元时,每天y b a b 的销售量为( )A51 个 B50 个C54 个 D48 个考点 线性回归分析题点 线性回归方程的应用答案 C解析 由题意知 17.5, 39,代入回归直线方程得 126.5,126.514.5554,故x y a 选 C.5已知 x, y 之间的一组数据如下表:x 0 1 2 3y 1 3 5 7(1)分别计算: , x1y1 x2y2 x3y3 x4y4, x x x x ;xy 21 2 23 24(2)已知变量 x 与 y 线性相关,求出线性回归方程考点 线性回归方程题点
21、 求线性回归方程解 (1) 1.5, 4,x0 1 2 34 y 1 3 5 74x1y1 x2y2 x3y3 x4y40113253734,x x x x 0 21 22 23 214.21 2 23 2413(2) 2,b 34 41.5414 41.52 421.51,a y b x故线性回归方程为 2 x1.y 回归分析的步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程 x );y b a (4)按一定规则估算
22、回归方程中的参数;(5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等一、选择题1对于线性回归方程 x ( 0),下列说法错误的是( )y b a b A当 x 增加一个单位时, 的值平均增加 个单位y b B点( , )一定在 x 所表示的直线上x y y b a C当 x t 时,一定有 y tb a D当 x t 时, y 的值近似为 t b a 考点 线性回归分析题点 线性回归方程的应用答案 C解析 线性回归方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,所以有些散点不
23、一定在回归直线上2给定 x 与 y 的一组样本数据,求得相关系数 r0.690,则( )A y 与 x 的线性相关性很强B y 与 x 的相关性很强C y 与 x 正相关14D y 与 x 负相关考点 线性相关系数题点 线性相关系数的应用答案 D解析 因为 r0, 0 B. 0, 0 D. 0.故 0, 0.y a a b 7已知某地的财政收入 x 与支出 y 满足线性回归方程 y bx a e(单位:亿元),其中b0.8, a2,| e|0.5,如果今年该地区的财政收入为 10 亿元,那么年支出预计不会超过( )A9 亿元 B10 亿元C9.5 亿元 D10.5 亿元考点 残差分析与相关指数
24、题点 残差及相关指数的应用答案 D解析 y0.8102 e10 e10.5.8下列数据符合的函数模型为( )x 1 2 3 4 5 6 7 8 9 10y 2 2.69 3 3.38 3.6 3.8 4 4.08 4.2 4.3A.y2 x B y2e x13C y2 eD y2ln x考点 非线性回归分析题点 非线性回归分析答案 D解析 分别将 x 值代入解析式判断知满足 y2ln x.9为了考查两个变量 x 和 y 之间的线性相关性,甲、乙两位同学各自独立地做了 100 次和150 次试验,并且利用最小二乘法求得的回归直线分别为 l1和 l2.已知两个人在试验中发现对变量 x 的观测数据的
25、平均值都是 s,对变量 y 的观测数据的平均值都是 t,那么下列说法中正确的是( )A l1与 l2有交点( s, t)B l1与 l2相交,但交点不一定是( s, t)C l1与 l2必定平行D l1与 l2必定重合考点 线性回归方程题点 样本点中心的应用答案 A解析 回归直线 l1, l2都过样本点的中心( s, t),但它们的斜率不确定,故选项 A 正确17二、填空题10在一组样本数据( x1, y1),( x2, y2),( xn, yn)(n2, x1, x2, xn不全相等)的散点图中,若所有样本点( xi, yi)(i1,2, n)都在直线 y x1 上,则这组样本数据12的样本
26、相关系数为_考点 线性相关系数题点 线性相关系数的应用答案 1解析 根据样本相关系数的定义可知,当所有样本点都在一条直线上时,相关系数为 1.11若一个样本的总偏差平方和为 80,残差平方和为 60,则相关指数 R2为_考点 线性相关系数题点 线性相关系数的应用答案 0.25解析 R21 0.25.608012已知一个线性回归方程为 1.5 x45, x1,5,7,13,19,则 _.y y考点 线性回归方程题点 样本点中心的应用答案 58.5解析 9,且 1.5 x45,x1 5 7 13 195 y 1.594558.5.y13在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指
27、数曲线ye bx a的周围令 ln y,求得线性回归方程为 0.25 x2.58,则该模型的回归方程z z 为_考点 非线性回归分析题点 非线性回归分析答案 ye 0.25x2.58解析 因为 0.25 x2.58, ln y,z z 所以 ye 0.25x2.58 .三、解答题14某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:18零件的个数 x(个) 2 3 4 5加工的时间 y(小时) 2.5 3 4 4.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出 y 关于 x 的线性回归方程 x ,并在坐标系中画出回归直线;y b a (3)试预测
28、加工 10 个零件需要多少时间?(注: , )b ni 1xiyi nx yni 1x2i nx2 a y b x考点 线性回归方程题点 求线性回归方程解 (1)散点图如图(2)由表中数据得 iyi52.5,4i 1x3.5, 3.5, 54,x y4i 1x2i所以 0.7,b ni 1xiyi nx yni 1x2i nx2 52.5 43.53.554 43.5219所以 3.50.73.51.05.a y b x所以 0.7 x1.05.y 回归直线如图中所示(3)将 x10 代入回归直线方程,得 0.7101.058.05,y 所以预测加工 10 个零件需要 8.05 小时四、探究与
29、拓展15甲、乙、丙、丁 4 位同学各自对 A, B 两变量进行回归分析,分别得到散点图与残差平方和 (yi i)2如下表:ni 1 y 甲 乙 丙 丁散点图残差平方和 115 106 124 103以上的试验结果体现拟合 A, B 两变量关系的模型拟合精度高的是( )A甲 B乙 C丙 D丁考点 残差分析与相关指数题点 残差及相关指数的应用答案 D解析 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据, R2的表达式中 (yi )2为确定的数,则残差平方和越小, R2ni 1 y越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要
30、好些16为了研究某种细菌随时间 x 变化繁殖个数 y 的变化情况,收集数据如下:时间 x(天) 1 2 3 4 5 6繁殖个数 y 6 12 25 49 95 190(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图;(2)求 y 与 x 之间的回归方程;(3)计算相关指数 R2,并描述解释变量与预报变量之间的关系考点 非线性回归分析题点 非线性回归分析20解 (1)散点图如图所示:(2)由散点图看出样本点分布在一条指数曲线 y c1ec2x 的周围,于是令 zln y,则x 1 2 3 4 5 6z 1.79 2.48 3.22 3.89 4.55 5.25所以 0.69 x1.115,则有 e 0.69x1.115 .z y (3)y 6.08 12.12 24.17 48.18 96.06 191.52y 6 12 25 49 95 190 (yi )24.816 1,6i 1e 2i6i 1 y (yi )2 6 224 642.83,6i 1 y6i 1y2i yR21 1 0.999 8,6i 1yi y i26i 1yi y2 4.816 124 642.83即时间解释了 99.98%的细菌繁殖个数的变化