1、1第三章 统计案例章末复习学习目标 1.会求线性回归方程,并用回归直线进行预报.2.理解独立性检验的基本思想及实施步骤1最小二乘法对于一组数据( xi, yi), i1,2, n,如果它们线性相关,则线性回归方程为 x ,其中 , .y b a b ni 1xi xyi yni 1xi x2ni 1xiyi nx yni 1x2i nx2 a y b x222 列联表22 列联表如表所示:B B 总计A a b a bA c d c d总计 a c b d n其中 n a b c d 为样本容量23独立性检验常用随机变量K2 来检验两个变量是否有关系nad bc2a bc da cb d类型一
2、 回归分析例 1 (2016全国改编)如图是我国 2008 年到 2014 年生活垃圾无害化处理量(单位:亿吨)的折线图注:年份代码 17 分别对应年份 20082014(1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明;(2)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2019 年我国生活垃圾无害化处理量附注:参考数据: i9.32, iyi40.17, 0.55, 2.646.7i 1y7i 1t7i 1yi y2 7参考公式:相关系数 r ,ni 1ti tyi yni 1ti t2ni 1yi y2回归方程 t 中斜率和截距的最小二乘估
3、计公式分别为:y a b , .b ni 1ti tyi yni 1ti t2 a y b t考点 线性回归分析题点 线性回归方程的应用3解 (1)由折线图中数据和附注中参考数据得4, (ti )228, 0.55,t7i 1 t7i 1yi y2(ti )(yi ) iyi i40.1749.322.89,7i 1 t y7i 1t t7i 1yr 0.99.2.8922.6460.55因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从而可以用线性回归模型拟合 y 与 t 的关系(2)由 1.331 及(1)得y9.327 0.103,b 7i 1ti
4、tyi y7i 1ti t2 2.8928 1.3310.10340.92.a y b t所以 y 关于 t 的回归方程为 0.920.10 t.y 将 2019 年对应的 t12 代入回归方程得0.920.10122.12.y 所以预测 2019 年我国生活垃圾无害化处理量约为 2.12 亿吨反思与感悟 解决回归分析问题的一般步骤(1)画散点图根据已知数据画出散点图(2)判断变量的相关性并求回归方程通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程(3)回归分析画残差图或计算 R2,进行残差分析(4)实际应用依据求得的回归方程解决实际问题
5、跟踪训练 1 经分析预测,美国通用汽车等 10 家大公司的销售总额 xi(i1,2,10,单位:百万美元)与利润 yi(i1,2,10,单位:百万美元)的近似线性关系为0.026 x ,经统计 i623 090, i29 300.y a 10i 1x 10i 1y(1)求 ;a 4(2)若通用汽车公司的销售总额 x1126 974(百万美元),残差 1387,估计通用汽车的e 利润;(3)福特公司的销售总额为 96 933 百万美元,利润为 3 835,比较通用汽车公司与福特公司利润的解释变量对于预报变量变化的贡献率说明了什么?(以上答案精确到个位)考点 残差分析与相关指数题点 残差及相关指数
6、的应用解 (1)由 i623 090, i29 300,10i 1x10i 1y得样本点中心为(62 309,2 930),所以 2 9300.02662 3091 310.a (2)由(1)知 0.026 x1 310,y 当 x1126 974 时,10.026126 9741 3104 611,y 所以 y1 1 14 611(387)4 224,y e 估计通用汽车公司的利润为 4 224 百万美元(3)由(1)(2)可得通用汽车公司利润的解释变量对于预报变量变化的贡献率为 R ,21则 R 1 1 0.91191.1%.21y1 y 12y1 y2 38721 2942设福特公司利润
7、的解释变量对于预报变量变化的贡献率为 R ,2由 0.026 x1 310 得y 20.02696 9331 3103 830,y 则 R 1 1 0.999 9723 835 3 83023 835 2 9302 52905299.997%.由 R R 知,用 0.026 x1 310 作为解释变量与预报变量的关系,预报通用汽车公司的21 2 y 效果没有预报福特公司的效果好,或者说预报通用汽车公司的精确度低于预报福特公司的精确度类型二 独立性检验例 2 奥运会期间,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了 60 人,结果如下:5是否愿意提供志愿者服务性别 愿意
8、 不愿意男生 20 10女生 10 20(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取 6 人,其中男生抽取多少人?(2)你能否在犯错误的概率不超过 0.01 的前提下认为该校高中生是否愿意提供志愿者服务与性别有关?下面的临界值表供参考:P(K2 k0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001k0 2.072 2.706 3.841 5.024 6.635 7.879 10.828独立性检验统计量 K2 ,其中 n a b c d.nad bc2a bc da cb d考点 独立性检验思想的应用题点 分类变量与统计、概率的综合性问题解 (1)由题意
9、,男生抽取 6 4(人)2020 10(2)K2 6.667,由于 6.6676.635,所以能在犯错误的概602020 1010230303030率不超过 0.01 的前提下认为该校高中生是否愿意提供志愿者服务与性别有关反思与感悟 独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性(2)通过公式 K2nad bc2a bc da cb d先计算观测值 k,再与临界值表作比较,最后得出结论跟踪训练 2 某学生对其亲属 30 人的饮食习惯进行了一次调查,并用茎叶图表示 30 人的饮食指数,如图所示(说明:图中饮食指数低于 70 的人,
10、饮食以蔬菜为主;饮食指数高于70 的人,饮食以肉类为主)6(1)根据茎叶图,帮助这位同学说明其亲属 30 人的饮食习惯;(2)根据以上数据完成下列 22 列联表;主食蔬菜 主食肉类 合计50 岁以下50 岁以上总计 (3)在犯错误的概率不超过 0.01 的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?考点 独立性检验思想的应用题点 独立性检验在分类变量中的应用解 (1)30 位亲属中 50 岁以上的人多以食蔬菜为主,50 岁以下的人多以食肉类为主(2)22 列联表如表所示:主食蔬菜 主食肉类 合计50 岁以下 4 8 1250 岁以上 16 2 18总计 20 10 30(3)K2 106
11、.635,308 128212182010故在犯错误的概率不超过 0.01 的前提下认为“其亲属的饮食习惯与年龄有关” 1甲、乙、丙、丁四位同学各自对 A, B 两变量进行线性相关检验,并用回归分析方法分别求得相关系数 r 如下表:甲 乙 丙 丁r 0.82 0.78 0.69 0.857则这四位同学的试验结果能体现出 A, B 两变量有更强的线性相关性的是( )A甲 B乙C丙 D丁考点 线性相关系数题点 线性相关系数的应用答案 D解析 由相关系数的意义可知,相关系数的绝对值越接近于 1,相关性越强,结合题意可知丁的线性相关性更强故选 D.2为了解高中生作文成绩与课外阅读量之间的关系,某研究机
12、构随机抽取了 60 名高中生,通过问卷调查,得到以下数据:作文成绩优秀 作文成绩一般 总计课外阅读量较大 22 10 32课外阅读量一般 8 20 28总计 30 30 60由以上数据,计算得到 K2的观测值 k9.643,根据临界值表,以下说法正确的是( )A没有充足的理由认为课外阅读量大与作文成绩优秀有关B有 0.5%的把握认为课外阅读量大与作文成绩优秀有关C有 99.9%的把握认为课外阅读量大与作文成绩优秀有关D有 99.5%的把握认为课外阅读量大与作文成绩优秀有关考点 独立性检验及其基本思想题点 独立性检验的方法答案 D解析 根据临界值表,10.8289.6437.879,在犯错误的概
13、率不超过 0.005 的前提下,认为课外阅读量大与作文成绩优秀有关,即有 99.5%的把握认为课外阅读量大与作文成绩优秀有关3某化妆品公司为了增加其商品的销售利润,调查了该商品投入的广告费用 x 与销售利润y 的统计数据如下表:广告费用 x(万元) 2 3 5 6销售利润 y(万元) 5 7 9 11由表中数据,得线性回归方程 l: x ,则下列结论正确的是( )y b a 8A. 0 B. 0b a C直线 l 过点(4,8) D直线 l 过点(2,5)考点 线性回归方程题点 样本点中心的应用答案 C解析 因为 1.40, 81.442.40,所以排除 A,B;因为b a y b x1.4
14、x2.4,所以 1.422.45.25,所以点(2,5)不在直线 l 上,所以排除 D;因为y 4, 8,所以回归直线 l 过样本点的中心(4,8),故选 C.x y4在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁为了考察某种埃博拉病毒疫苗的效果,现随机抽取 100 只小鼠进行试验,得到如下列联表:感染 未感染 总计服用 10 40 50未服用 20 30 50总计 30 70 100附表:P(K2 k0) 0.10 0.05 0.025k0 2.706 3.841 5.024参照附表,在犯错误的概率不超过_(填百分比)的前提下,认为“小鼠是否被感染与服用疫苗有关” 考点 独
15、立性检验及其基本思想题点 独立性检验的方法答案 5%解析 K2的观测值 k 4.762 3.841,所以在犯错误的概1001030 2040230705050率不超过 5%的前提下,认为“小鼠是否被感染与服用疫苗有关” 5对于线性回归方程 x ,当 x3 时,对应的 y 的估计值是 17,当 x8 时,对应的y b a y 的估计值是 22,那么,该线性回归方程是_,根据线性回归方程判断当x_时, y 的估计值是 38.考点 线性回归分析9题点 线性回归方程的应用答案 x14 24y 解析 首先把两组值代入线性回归方程,得Error!解得 Error!所以线性回归方程是 x14.y 令 x14
16、38,可得 x24,即当 x24 时, y 的估计值是 38.1.建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量(2)画出散点图,观察它们之间的关系(3)由经验确定回归方程的类型(4)按照一定的规则估计回归方程中的参数(5)得出结果后分析残差图是否有异常2独立性检验是利用随机变量 K2来判断两个分类变量间是否存在相关关系的方法,常用的直观方法为等高条形图,等高条形图由于是等高的,因此它能直观地反映两个分类变量之间的差异的大小,而利用假设的思想方法,计算出某一个随机变量 K2的值来判断更精确些一、选择题1有人收集了春节期间平均气温 x 与某取暖商品销售额
17、y 的有关数据如表:平均气温() 2 3 5 6销售额(万元) 20 23 27 30则该商品销售额与平均气温有( )A确定性关系 B正相关关系C负相关关系 D函数关系考点 回归分析题点 回归分析的概念和意义答案 C10解析 根据春节期间平均气温 x 与某取暖商品销售额 y 的有关数据知, y 随 x 的减小而增大,是负相关关系,故选 C.2如果 K2的观测值为 8.654,可以认为“ x 与 y 无关”的可信度为( )A99.5% B0.5%C99% D1%考点 独立性检验及其基本思想题点 独立性检验的方法答案 B解析 8.6547.879, x 与 y 无关的可信度为 0.5%.3下面的等
18、高条形图可以说明的问题是( )A “心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的B “心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同C此等高条形图看不出两种手术有什么不同的地方D “心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有 100%的把握考点 定性分析的两类方法题点 利用图形定性分析答案 D解析 由等高条形图可知选项 D 正确4为了了解疾病 A 是否与性别有关,在某医院随机地对入院的 50 人进行了问卷调查,得到了如下的列联表:患疾病 A 不患疾病 A 总计男 20 5 25女 10 15 25总计 30 2
19、0 50则认为疾病 A 与性别有关的把握约为( )A95% B99%C99.5% D99.9%11考点 独立性检验及其基本思想题点 独立性检验的方法答案 C解析 由公式得 K2 8.333 7.879,故有(10.005)502015 510225253020100%99.5%的把握认为疾病 A 与性别有关5某考察团对全国 10 大城市进行职工人均工资水平 x(单位:千元)与居民人均消费水平y(单位:千元)统计调查, y 与 x 具有线性相关关系,回归方程为 0.66 x1.562.若某城y 市居民人均消费水平为 7.675 千元,估计该城市人均消费额占人均工资收入的百分比约为( )A83%
20、B72%C67% D66%考点 线性相关系数题点 线性相关系数的应用答案 A解析 将 y7.675 代入回归方程,可计算得 x9.26,所以该城市人均消费额占人均工资收入的百分比约为 7.6759.260.83,即约为 83%.6考察棉花种子经过处理与生病之间的关系,得到下表中的数据:种子处理 种子未处理 总计得病 32 101 133不得病 61 213 274总计 93 314 407根据以上数据可得出( )A种子是否经过处理与是否生病有关B种子是否经过处理与是否生病无关C种子是否经过处理决定是否生病D有 90%的把握认为种子经过处理与生病有关考点 独立性检验及其基本思想题点 独立性检验的
21、方法答案 B解析 k 0.1640.455 ,40732213 61101293314133274即没有充足的理由认为种子是否经过处理跟生病有关7为预测某种产品的回收率 y,需要研究它和原料有效成分含量 x 之间的相关关系,现取12了 8 组观察值计算知 i52, i228, 478, iyi1 849,则 y 关于8i 1x8i 1y8i 1x2i8i 1xx 的回归方程是( )A. 11.472.62 xy B. 11.472.62 xy C. 2.6211.47 xy D. 11.472.62 xy 考点 线性回归分析题点 线性回归方程的应用答案 A解析 由 , ,b ni 1xiyi
22、n x yni 1x2i n x2 a y b x直接计算得 2.62, 11.47,b a 所以线性回归方程为 2.62 x11.47.y 8若对于变量 y 与 x 的 10 组统计数据的回归模型中,相关指数 R20.95,又知残差平方和为 120.53,那么 (yi )2的值为( )10i 1 yA241.06 B2 410.6C253.08 D2 530.8考点 残差分析与相关指数题点 残差及相关指数的应用答案 B解析 设总偏差平方和为 x,根据公式 R21 ,有 0.951 ,残 差 平 方 和总 偏 差 平 方 和 120.53x x 2 410.6,故选 B.120.531 0.9
23、513二、填空题9在研究气温和热茶销售杯数的关系时,若求得相关指数 R20.85,则表明气温解释了_的热茶销售杯数变化,而随机误差贡献了剩余的_,所以气温对热茶销售杯数的效应比随机误差的效应大得多考点 残差分析与相关指数题点 残差及相关指数的应用答案 85% 15%解析 由相关指数 R2的意义可知, R20.85 表明气温解释了 85%,而随机误差贡献了剩余的 15%.10为了规定工时定额,需要确定加工零件所花费的时间,为此进行 5 次试验,得到 5 组数据( x1, y1),( x2, y2),( x3, y3),( x4, y4),( x5, y5)根据收集到的数据可知x1 x2 x3 x
24、4 x5150,由最小二乘法求得线性回归方程为 0.67 x54.9,则y y1 y2 y3 y4 y5的值为_考点 线性回归方程题点 样本点中心的应用答案 375解析 由题意,得 (x1 x2 x3 x4 x5)30,且回归直线 0.67 x54.9 恒过点( , ),x15 y x y则 0.673054.975,所以 y1 y2 y3 y4 y55 375.y y11在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是_若 K2的观测值 k6.635,则我们在犯错误的概率不超过 0.01 的前提下认为吃零食与性别有关系,那么在 100 个吃零食的人中必有 99 人是女性;由独
25、立性检验可知在犯错误的概率不超过 0.01 的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为 99%;由独立性检验可知在犯错误的概率不超过 0.01 的前提下认为吃零食与性别有关系时,是指每进行 100 次这样的推断,平均有 1 次推断错误考点 独立性检验及其基本思想题点 独立性检验的思想答案 解析 K2的观测值是支持确定有多大把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过 0.01 的前提下认为吃零食与性别有关系时,是指每进行 100 次这样的推断,平均有 1 次推断错误,故填.三、解答题12如表提供了某厂节能降耗技
26、术改造后生产甲产品过程中记录的产量 x(吨)与相应的生产14能耗 y(吨标准煤)的几组对照数据.x 3 4 5 6y 2.5 3 4 4.5(1)请画出如表数据的散点图;(2)请根据如表提供的数据,用最小二乘法求出 y 关于 x 的线性回归方程 x ;y b a (3)已知该厂技改前 100 吨甲产品的生产能耗为 90 吨标准煤试根据(2)求出的线性回归方程,预测生产 100 吨甲产品的生产能耗比技改前降低多少吨标准煤?考点 线性回归分析题点 线性回归方程的应用解 (1)由题设所给数据,可得散点图如图(2)由数据,计算得: 86,4i 1x2i 4.5,x3 4 5 64 3.5,y2.5 3
27、 4 4.54iyi66.5,4i 1x所以,由最小二乘法确定的回归方程的系数为b 4i 1xiyi 4x y4i 1x2i 4x2 0.7,66.5 44.53.586 44.52 3.50.74.50.35,a y b x因此,所求的线性回归方程为 0.7 x0.35.y (3)由(2)中的线性回归方程及技改前生产 100 吨甲产品的生产能耗,得降低的生产能耗为1590(0.71000.35)19.65(吨标准煤)四、探究与拓展13对某台机器购置后的运营年限 x(x1,2,3,)与当年利润 y 的统计分析知具备线性相关关系,线性回归方程为 10.471.3 x,估计该台机器使用_年最合算y
28、 考点 线性回归分析题点 线性回归方程的应用答案 8解析 只要预计利润不为负数,使用该机器就算合算,即 0,所以 10.471.3 x0,解y 得 x8.05,所以该台机器使用 8 年最合算14某校高一年级理科有 8 个班,在一次数学考试中成绩情况分析如下:班级 1 2 3 4 5 6 7 8大于 145 分人数 6 6 7 3 5 3 3 7不大于 145 分人数 39 39 38 42 40 42 42 38附: xiyi171, x 204.8 i 1 8 i 12i(1)求 145 分以上成绩 y 对班级序号 x 的线性回归方程;(精确到 0.000 1)(2)能否在犯错误的概率不超过
29、 0.01 的前提下认为 7 班与 8 班的成绩是否优秀(大于 145 分)与班级有关系考点 独立性检验思想的应用题点 独立性检验与线性回归方程、均值的综合应用解 (1) 4.5, 5, xiyi171, x 204,x y 8 i 1 8 i 12i b 8 i 1xiyi 8x y 8 i 1x2i 8x2 171 84.55204 84.52 0.214 3,314 5(0.214 3)4.55.964 4,a y b x线性回归方程为 0.214 3 x5.964 4.y (2)K2 1.8,90338 4272454580101.86.635,不能在犯错误的概率不超过 0.01 的前提下认为 7 班与 8 班的成绩是否优秀(大于 145 分)与班级有关系