1、1专题十五 统计、统计案例卷 卷 卷2018统计图的识别与分析T3折线图、线性回归方程模型问题T18茎叶图的应用及独立性检验T182017 _-频率分布直方图、独立性检验T18折线图的识别与分析T3统计图表的识别与分析T42016 _ _ 折线图、相关性检验、线性回归方程及应用T18纵向把握趋势卷3 年 1 考,题型为选择题且难度较小,涉及统计图的识别与分析预计 2019 年会以选择题的形式考查折线图、线性回归方程等问题,难度适中卷3 年 2 考,题型均为解答题的第 18 题,涉及折线图、频率分布直方图、线性回归方程、独立性检验,难度适中预计 2019 年仍会以解答题的形式考查独立性检验或线性
2、回归模型的应用卷3 年 4 考,既有选择题也有解答题,小题主要考查统计图表、折线图的识别与分析,解答题考查线性回归方程的应用及独立性检验预计 2019 年会以解答题的形式考查线性回归模型的应用,同时以选择题的形式考查统计图表的识别与分析横向把握重点1.统计与统计案例在选择题或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在 34 题的位置2.统计与统计案例在解答题中多出现在 18 或 19 题,多考查直方图、茎叶图及数字特征计算、统计案例的应用.抽样方法题组全练1(2018石家庄模拟)某校高一年级有男生 560 人,女生 420 人,用分层抽样的
3、方法从该年级全体学生中抽取一个容量为 140 的样本,则此样本中男生人数为( )2A80 B120C160 D240解析:选 A 因为男生和女生的比例为 56042043,样本容量为 140,所以应该抽取男生的人数为 140 80,故选 A.44 32(2018南宁模拟)已知某地区中小学生人数和近视情况分别如图甲和图乙所示为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取 2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )A100,20 B200,20C200,10 D100,10解析:选 B 由题图甲可知学生总人数是 10 000,样本容量为 10 0002%200,抽
4、取的高中生人数是 2 0002%40,由题图乙可知高中生的近视率为 50%,所以高中生的近视人数为 4050%20,故选 B.3从 30 个个体(编号为 0029)中抽取 10 个样本,现给出某随机数表的第 11 行到第15 行(见下表),如果某人选取第 12 行的第 6 列和第 7 列中的数作为第一个数并且由此数向右读,则选取的前 4 个的号码分别为( )9264 4607 2021 3920 7766 3817 3256 16405858 7766 3170 0500 2593 0545 5370 78142889 6628 6757 8231 1589 0062 0047 3815513
5、1 8186 3709 4521 6665 5325 5383 27029055 7196 2172 3207 1114 1384 4359 4488A76,63,17,00 B16,00,02,30C17,00,02,25 D17,00,02,07解析:选 D 在随机数表中,将处于 0029 的号码选出,满足要求的前 4 个号码为17,00,02,07.4(2019 届高三南昌调研)某校高三(2)班现有 64 名学生,随机编号为0,1,2,63,依编号顺序平均分成 8 组,组号依次为 1,2,3,8.现用系统抽样方法抽取一个容量为 8 的样本,若在第 1 组中随机抽取的号码为 5,则在第 6
6、 组中抽取的号码为_3解析:由题知分组间隔为 8,又第 1 组中抽取的号码为 5,所以第 6 组中抽取的号648码为 58545.答案:455采用系统抽样方法从 1 000 人中抽取 50 人做问卷调查,将他们随机编号1,2,1 000.适当分组后在第一组采用简单随机抽样的方法抽到的号码为 8.若抽到的50 人中,编号落入区间1,400的人做问卷 A,编号落入区间401,750的人做问卷 B,其余的人做问卷 C,则抽到的人中,做问卷 C 的人数为_解析:根据系统抽样的特点可知,所有做问卷调查的人的编号构成首项为 8,公差 d20 的等差数列 an,通项公式 an820( n1)20 n12,令
7、 75120 n121 1 00050000,得 n ,又 nN *,39 n50,做问卷 C 的共有 12 人76320 2535答案:12系统方法解决抽样问题应关注的两点(1)解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体容量的比值(2)在系统抽样的过程中,要注意分段间隔,需要抽取 n 个个体,样本就需要分成 n 个组,则分段间隔即为 (N 为样本容量),首先确定在第一组中抽取的个体的号码数,再从后Nn面的每组中按规则抽取每个个体.用样本估计总体题组全练1(2019 届高三贵阳模拟)在某中学举行的环保知识竞
8、赛中,将三个年级参赛学生的成绩进行整理后分为 5 组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是 40,则成绩在 80100 分的学生人数是( )4A15 B18C20 D25解析:选 A 根据频率分布直方图,得第二小组的频率是 0.04100.4,频数是40,样本容量是 100,又成绩在 80100 分的频率是(0.010.005)100.15,400.4成绩在 80100 分的学生人数是 1000.1515.2(2018全国卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番为更好地了解该地区农村的经济收入变化情况,
9、统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是( )A新农村建设后,种植收入减少B新农村建设后,其他收入增加了一倍以上C新农村建设后,养殖收入增加了一倍D新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析:选 A 设新农村建设前,农村的经济收入为 a,则新农村建设后,农村经济收入为 2a.新农村建设前后,各项收入的对比如下表: 新农村建设前 新农村建设后新农村建设后变化情况结论种植收入 60%a 37%2a74% a 增加 A 错其他收入 4%a 5%2a10% a 增加一倍以上 B 对养殖收入 30%a 30%2a60% a 增加了一倍
10、 C 对养殖收入第三产业收入(30%6%) a36% a(30%28%)2a116% a超过经济收入2a 的一半D 对5故选 A.3(2018长春质检)已知某班级部分同学一次测验的成绩统计如图,则其中位数和众数分别为( )A95,94 B92,86C99,86 D95,91解析:选 B 由茎叶图可知,此组数据由小到大排列依次为76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,共 17 个,故 92 为中位数,出现次数最多的为众数,故众数为 86,故选 B.4.(2018武汉调研)从某选手的 7 个得分中去掉 1 个最高分,去掉1 个最低
11、分后,剩余 5 个得分的平均数为 91 分,如图所示是该选手得分的茎叶图,其中有一个数字模糊,无法辨认,在图中用 x 表示,则剩余 5 个得分的方差为_解析:去掉一个最高分 99 分,一个最低分 87 分,剩余的得分为 93 分,90 分,(90 x)分,91 分,87 分,则 91,解得 x4,所以这 5 个数的93 90 90 x 91 875方差 s2 (9193) 2(9190) 2(9194) 2(9191) 2(9187) 26.15答案:6系统方法1频率分布直方图的应用(1)已知频率分布直方图中的部分数据,求其他数据可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于
12、 1 就可求出其他数据(2)已知频率分布直方图,求某种范围内的数据可利用图形及某范围结合求解2数字特征及其特点平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义平均数、中位数、众数描述数据的集中趋势,方差和标准差描述数据的波动大小.回归分析6多维例析角度一 线性回归分析(2018陕西质检)基于移动互联网技术的共享单车被称为“新四大发明”之一,例 1短时间内就风靡全国,带给人们新的出行体验某共享单车运营公司的市场研究人员为了解公司的经营状况,对该公司 2018 年 6 月11 月六个月内的市场占有率进行了统计,结果如下表:月份 6 月 7 月 8 月 9
13、月 10 月 11 月月份代码 x 1 2 3 4 5 6市场占有率y(%)11 13 16 15 20 21(1)请在给出的坐标纸中作出散点图,并用相关系数说明能否用线性回归模型拟合市场占有率 y 与月份代码 x 之间的关系;(2)求 y 关于 x 的线性回归方程,并预测该公司 2019 年 3 月份的市场占有率参考数据: (xi )217.5, (xi )(yi )35, 36.5.6i 1 x6i 1 x y 1 330参考公式:相关系数 r ;ni 1 xi x yi yni 1 xi x 2ni 1 yi y 2回归直线方程为 x ,y b a 7其中 , .b ni 1 xi x
14、yi yni 1 xi x 2 a y b x解 (1)作出散点图如下 16,y11 13 16 15 20 216 (yi )276,6i 1 y r 6i 1 xi x yi y6i 1 xi x 26i 1 yi y 2 3517.576 0.96.351 330 3536.5两变量之间具有较强的线性相关关系,故可用线性回归模型拟合市场占有率 y 与月份代码 x 之间的关系(2)由参考数据及(1)知 2,b 6i 1 xi x yi y6i 1 xi x 2 3517.5 3.5,x1 2 3 4 5 66 1623.59,a y b x8 y 关于 x 的线性回归方程为 2 x9.y
15、2019 年 3 月的月份代码为 x10, 210929,y 估计该公司 2019 年 3 月份的市场占有率为 29%.类题通法1求线性回归方程的步骤(1)计算 ,;xy(2)计算 iyi, ;ni 1xni 1x2i(3)计算 ;b ni 1 xi x yi yni 1 xi x 2ni 1xiyi n x yni 1x2i nx2 ;a y b x(4)写出线性回归方程 x .y b a 注意 样本点的中心( , )必在回归直线上x y2相关系数 r(1)当 r0 时,表明两个变量正相关;当 r6.635,有 99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关(2)由 22 列
16、联表可知,设备改造后产品的合格率约为 0.96,192200设备改造前产品的合格率约为 0.86,172200即设备改造后产品的合格率更高,因此,设备改造后性能更好(3)用频率估计概率,1 000 件产品中大约有 960 件合格品,40 件不合格品,则18096010040168 800,该企业大约能获利 168 800 元专题跟踪检测(对应配套卷 P200)1在一次马拉松比赛中,35 名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为 135 号,再用系统抽样方法从中抽取 7 人,则其中成绩在区间139,151上的运动员人数是( )A3 B4C5 D6解析:选 B 由
17、系统抽样可知,35 人分为 7 组,每组 5 人,最后一组成绩均大于151,前两组成绩均小于 139,故成绩在区间139,151上的运动员人数为 4.2 “双色球”彩票中红色球的号码由编号为 01,02,33 的 33 个个体组成,一位彩民利用下面的随机数表选取 6 组数作为 6 个红色球的编号,选取方法是从随机数表第 1 行的第 6 列和第 7 列数字开始由左到右依次选取两个数字,则选出来的第 6 个红色球的编号16为( )49 54 43 54 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 6457 24 55 06 88 77 04 74 47
18、 67 21 76 33 50 25 83 92 12 06 76A.23 B09C02 D17解析:选 C 从随机数表第 1 行的第 6 列和第 7 列数字开始由左到右依次选取两个数字,则选出的 6 个红色球的编号依次为 21,32,09,16,17,02,故选出的第 6 个红色球的编号为 02.故选 C.3(2018昆明调研)下图是 19512016 年我国年平均气温变化图根据上图,判断下列结论正确的是( )A1951 年以来,我国年平均气温逐年增高B1951 年以来,我国年平均气温在 2016 年再创新高C2000 年以来,我国年平均气温都高于 19812010 年的平均值D2000 年
19、以来,我国年平均气温的平均值高于 19812010 年的平均值解析:选 D 由 19512016 年我国年平均气温变化图可以看出,年平均气温有升高的也有降低的,所以选项 A 不正确;2016 年的年平均气温不是最高的,所以选项 B 不正确;2012 年的年平均气温低于 19812010 年的平均值,所以选项 C 不正确;2000 年以来,只有 2012 年的年平均气温低于 19812010 年的平均值,所以 2000 年以来,我国年平均气温的平均值高于 19812010 年的平均值,故选项 D 正确,故选 D.4(2018惠州模拟)某商场为了了解毛衣的月销售量 y(件)与月平均气温 x()之间
20、的关系,随机统计了某 4 个月的月销售量与当月平均气温,其数据如下表:月平均气温 x/ 17 13 8 2月销售量 y/件 24 33 40 55由表中数据算出线性回归方程 x 中的 2,气象部门预测下个月的平均气温y b a b 约为 6 ,据此估计该商场下个月毛衣销售量约为( )A46 件 B40 件C38 件 D58 件17解析:选 A 由题中数据,得 10, 38,回归直线 x 过点( , ),且x y y b a x y2,代入得 58,则回归方程 2 x58,所以当 x6 时, y46,故选 A.b a y 5(2018郑州质量预测)我市某高中从高三年级甲、乙两个班中各选出 7 名
21、学生参加 2018 年全国高中数学联赛(河南初赛),他们取得的成绩(满分 140 分)的茎叶图如图所示,其中甲班学生成绩的中位数是 81,乙班学生成绩的平均数是 86,若正实数 a, b 满足a, G, b 成等差数列且 x, G, y 成等比数列,则 的最小值为( )1a 4bA. B249C. D994解析:选 C 由甲班学生成绩的中位数是 81,可知 81 为甲班 7 名学生的成绩按从小到大的顺序排列的第 4 个数,故 x1.由乙班学生成绩的平均数为 86,可得(10)(6)(4)( y6)57100,解得 y4.由 x, G, y 成等比数列,可得 G2 xy4,由正实数 a, b 满
22、足 a, G, b 成等差数列,可得 G2, a b2 G4,所以 (a b)1a 4b 14 (54) (当且仅当 b2 a 时取等号)故 的最小值为 ,选 C.(1a 4b) 14 14 94 1a 4b 946某高校调查了 200 名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是17.5,30,样本数据分组为17.5,20),20,22.5),22.5,25),25,27.5),27.5,30根据频率分布直方图,这 200 名学生中每周的自习时间不少于 22.5 小时的人数是( )A56 B60C120 D140解析:选 D 由频率分布直方图可知,
23、每周的自习时间不少于 22.5 小时的频率为(0.160.080.04)2.50.7,所以每周的自习时间不少于 22.5 小时的人数是2000.7140.7.空气质量指数(Air Quality Index,简称 AQI)是定量描述空气质量状况的指数,空气质量按照 AQI 大小分为六级,050 为优;51100 为良;18101150 为轻度污染;151200 为中度污染;201300 为重度污染;大于 300 为严重污染从某地一环保人士某年的 AQI 记录数据中,随机抽取 10 个,其茎叶图记录如图所示根据该统计数据,估计此地该年 AQI 大于 100 的天数约为_(该年为 365 天)解析
24、:该样本中 AQI 大于 100 的频数是 4,频率为 ,由此估计该地全年 AQI 大于 10025的概率为 ,估计此地该年 AQI 大于 100 的天数约为 365 146.25 25答案:1468某学校高二年级共有女生 300 人,现调查她们每天的课外运动时间,发现她们的课外运动时间介于 30 分钟到 90 分钟,如图是统计结果的频率分布直方图,则她们的平均运动时间大约是_分钟解析:由题图得平均运动时间约为350.1450.1550.5650.2750.05850.0556.5(分钟)答案:56.59.如图所示的茎叶图记录了甲、乙两位射箭运动员的 5 次比赛成绩(单位:环),若两位运动员平
25、均成绩相同,则成绩较为稳定(方差较小)的那位运动员成绩的方差为_解析:由题意知 90,87 89 90 91 935则 90,88 89 90 91 90 x5解得 x2,所以 s (8790) 2(8990) 2(9090) 2(9190) 2(9390) 24,2甲15s (8890) 2(8990) 2(9090) 2(9190) 2(9290) 22,2乙15所以 s s ,所以成绩较为稳定(方差较小)的那位运动员成绩的方差为 2.2甲 2乙答案:210某公司为了解广告投入对销售收益的影响,在若干地区共投入 4 万元广告费用,19并将各地的销售收益绘制成频率分布直方图(如图所示)由于工
26、作人员操作失误,横轴的数据丢失,但可以确定横轴是从 0 开始计数的(1)根据频率分布直方图,计算图中各小矩形的宽度;(2)试估计该公司投入 4 万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:广告投入 x/万元 1 2 3 4 5销售收益 y/万元 2 3 2 7由表中的数据显示, x 与 y 之间存在线性相关关系,请将(2)的结果填入空白栏,并求出 y 关于 x 的回归直线方程附: , .b ni=1xiyi nx yni=1x2i nx2 a y b x解:(1)设各小矩形的宽度为 m,由频率分布
27、直方图中各小矩形的面积和为 1,可知(0.080.100.140.120.040.02) m1,解得 m2,故图中各小矩形的宽度为 2.(2)由(1)知各分组依次是0,2),2,4),4,6),6,8),8,10),10,12,它们的中点的横坐标分别为 1,3,5,7,9,11,各组对应的频率分别为 0.16,0.20,0.28,0.24,0.08,0.04,故可估计销售收益的平均值为10.1630.2050.2870.2490.08110.045.(3)由(2)可知空白栏中填 5,由题意可知, 3,x1 2 3 4 55 3.8,y2 3 2 5 7520iyi122332455769,5i
28、=1x1 22 23 24 25 255,5i=1x2i所以 1.2,b 69 533.855 5323.81.230.2,a 故所求的回归直线方程为 1.2 x0.2.y 11(2018全国卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式的效率,选取 40 名工人,将他们随机分成两组,每组 20 人第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由(2)求 40 名工人完成生产任务所需时间的中位数 m,并将完成生产任务
29、所需时间超过m 和不超过 m 的工人数填入下面的列联表:超过 m 不超过 m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异?附: K2 ,n ad bc 2 a b c d a c b d解:(1)第二种生产方式的效率更高理由如下:()由茎叶图可知:用第一种生产方式的工人中,有 75%的工人完成生产任务所需时间至少 80 min,用第二种生产方式的工人中,有 75%的工人完成生产任务所需时间至多 79 21min.因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为 85.5 min,用第二
30、种生产方式的工人完成生产任务所需时间的中位数为 73.5 min.因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于 80 min;用第二种生产方式的工人完成生产任务所需平均时间低于 80 min.因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎 8 上的最多,关于茎 8 大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎 7 上的最多,关于茎 7 大致呈对称分布又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式
31、完成生产任务所需的时间更少因此第二种生产方式的效率更高(以上给出了 4 种理由,考生答出其中任意一种或其他合理理由均可得分)(2)由茎叶图知 m 80.79 812列联表如下:超过 m 不超过 m第一种生产方式 15 5第二种生产方式 5 15(3)因为 K2 106.635,所以有 99%的把握认为两种生产40 1515 55 220202020方式的效率有差异12在一次抽样调查中测得样本的 6 组数据,得到一个变量 y 关于 x 的回归方程模型,其对应的数值如下表:x 2 3 4 5 6 7y 3.00 2.48 2.08 1.86 1.48 1.10(1)请用相关系数 r 说明 y 与
32、x 之间存在线性相关关系(当| r|0.75 时,说明 y 与 x 之间具有线性相关关系);(2)根据(1)的判断结果,建立 y 关于 x 的回归直线方程并预测当 x9 时,对应的 值y 为多少( 精确到 0.01)b 附:回归直线方程为 x ,y b a 22其中 , ,b ni 1xiyi nxyni 1x2i nx2 a y b x相关系数 r 的公式为 r .ni 1 xi x yi yni 1 xi x 2ni 1 yi y 2参考数据:iyi47.64, 139, (xi )(yi )6.36,6i 1x6i 1x2i6i 1 x y4.18, 1.53.6i 1 xi x 26i
33、 1 yi y 2解:(1)由题意,得 (234567)4.5,x16 (3.002.482.081.861.481.10)2,y16又 (xi )(yi )6.36, 4.18, 1.53,6i 1 x y6i 1 xi x 26i 1 yi y 2所以 r 0.99.6i 1 xi x yi y6i 1 xi x 26i 1 yi y 2 6.364.181.53因为| r|0.75,所以 y 与 x 之间存在线性相关关系(2)因为 b 6i 1xiyi 6x y6i 1x2i 6x2 47.64 64.52139 64.520.3630.36, 20.3634.53.63,a y b x
34、所以 y 关于 x 的线性回归方程为 0.36 x3.63.y 23将 x9 代入回归方程得 0.3693.630.39.y 13(2019 届高三广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜过去50 周的资料显示,该地周光照量 X(单位:小时)都在 30 小时以上,其中不足 50 小时的有5 周,不低于 50 小时且不超过 70 小时的有 35 周,超过 70 小时的有 10 周根据统计,该基地的西红柿增加量 y(千克)与使用某种液体肥料的质量 x(千克)之间的对应数据为如图所示的折线图(1)依据折线图计算相关系数 r(精确到 0.01),并据此判断是否可用线性回归模型拟合y 与 x
35、 的关系(若| r|0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量 X 限制,并有如下关系:周光照量 X/小时 3070光照控制仪运行台数 3 2 1对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为 3 000 元;若某台光照控制仪未运行,则该台光照控制仪周亏损 1 000 元若商家安装了 3 台光照控制仪,求商家在过去 50 周的周总利润的平均值附:相关系数公式: r ,ni 1 xi x yi yni 1 xi x 2ni 1 yi y 2参考数据: 0.55
36、, 0.95.0.3 0.9解:(1)由已知数据可得 5,x2 4 5 6 85 4.y3 4 4 4 55因为 (xi )(yi )(3)(1)000316,5i 1 x y 2 ,5i 1 xi x 2 3 2 1 2 02 12 32 524 ,5i 1 yi y 2 1 2 02 02 02 12 2所以相关系数 r5i 1 xi x yi y5i 1 xi x 25i 1 yi y 2 0.95.6252 0.9因为| r|0.75,所以可用线性回归模型拟合 y 与 x 的关系(2)由条件可得在过去 50 周里,当 X70 时,共有 10 周,此时只有 1 台光照控制仪运行,每周的周总利润为 13 00021 0001 000(元)当 50 X70 时,共有 35 周,此时有 2 台光照控制仪运行,每周的周总利润为 23 00011 0005 000(元)当 30X50 时,共有 5 周,此时 3 台光照控制仪都运行,每周的周总利润为 33 0009 000(元)所以过去 50 周的周总利润的平均值为4 600(元),1 00010 5 00035 9 000550所以商家在过去 50 周的周总利润的平均值为 4 600 元25