1、1第二讲 统计与统计案例年份 卷别 考查角度及命题位置 命题分析及学科素养统计图表的应用T 3卷频率分布直方图的应用T 19卷 回归分析及应用T 18抽样方法T 142018卷茎叶图与独立性检验T 18样本的数字特征T 2卷样本的数字特征的综合应用T 19卷 频率分布直方图与独立性检验T 192017卷 折线图的应用T 3统计图表的应用T 42016 卷 回归分析及应用T18命题分析统计部分在选择、填空题中的命题热点有随机抽样、用样本估计总体以及变量的相关性,难度较低回归分析常在解答题中考查学科素养统计与统计案例主要考查用样本估计总体与回归分析,着重考查学生数学抽象、数学运算及数据分析核心素养
2、.样本估计总体授课提示:对应学生用书第 59 页悟通方法结论1直方图的两个结论(1)小长方形的面积组距 频率频 率组 距(2)各小长方形的面积之和等于 1.2统计中的四个数字特征(1)众数:在样本数据中,出现次数最多的那个数据(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据如果数据的个数为偶数,就取中间两个数据的平均数作为中位数(3)平均数:样本数据的算术平均数,即 (x1 x2 xn)x1n(4)方差与标准差2方差: s2 (x1 )2( x2 )2( xn )21n x x x标准差: s .1nx1 x2 x2 x2 xn x2(2016高考北京卷)(12 分)某市居民用水拟
3、实行阶梯水价每人每月用水量中不超过 w 立方米的部分按 4 元/立方米收费,超出 w 立方米的部分按 10 元/立方米收费从该市随机调查了 10 000 位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果 w 为整数,那么根据此次调查,为使 80%以上居民在该月的用水价格为 4 元/立方米, w 至少定为多少?(2) 当 w3 时,估计该市居民该月的人均水费学审题条件信息 想到方法 注意什么信息中给出频率分布直方图由图读出月用水量在各区间内的频率直方图中纵轴数据表示为 常误认为频率频 率组 距信息已知超出 3 立方米利用用水量的频率分布直方图得出用水费用的频率分布表条件
4、中水费的计算方法规范解答 (1)由用水量的频率分布直方图,知该市居民该月用水量在区间0.5,1,(1,1.5,(1.5,2,(2,2.5,(2.5,3内的频率依次为 0.1,0.15,0.2,0.25,0.15. (2 分)所以该月用水量不超过 3 立方米的居民占 85%,用水量不超过 2 立方米的居民占 45%.依题意, 至少定为 3. (6 分)(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表如下:组号 1 2 3 4 5 6 7 8分组 2,4 (4,6 (6,8 (8,10 (10,12 (12,17 (17,22 (22,273 频率 0.1 0.15
5、0.2 0.25 0.15 0.05 0.05 0.05(10 分)根据题意,该市居民该月的人均水费估计为:40.160.1580.2100.25120.15170.05220.05270.0510.5(元) (12 分)【类题通法】1众数、中位数、平均数与直方图的关系(1)众数为频率分布直方图中最高矩形的底边中点的横坐标(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标(3)平均数等于频率分布直方图中每个小矩形的面积乘小矩形底边中点的横坐标之和2方差的计算与含义计算方差首先要计算平均数,再按照方差的计算公式进行计算,方差和标准差是描述一个样本和总体的波动大小的特征数,方
6、差、标准差越大说明波动越大练通即学即用1(2017高考全国卷)为评估一种农作物的种植效果,选了 n 块地作试验田这 n块地的亩产量(单位:kg)分别为 x1, x2, xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A x1, x2, xn的平均数 B x1, x2, xn的标准差C x1, x2, xn的最大值 D x1, x2, xn的中位数解析:标准差能反映一组数据的稳定程度故选 B.答案:B2(2018贵阳模拟) A 市某校学生社团针对“ A 市的发展环境”对男、女各 10 名学生进行问卷调查,每名学生给出评分(满分 100 分),得到如图所示的茎叶图(1)计算女生
7、打分的平均分,并根据茎叶图判断男生、女生打分谁更分散(不必说明理由);(2)如图(2)是按该 20 名学生的评分绘制的频率分布直方图(每个分组包含左端点,不包含右端点),求 a 的值;4(3)从打分在 70 分以下(不含 70 分)的学生中抽取 2 人,求有女生被抽中的概率解析:(1)女生打分的平均数为 (68697675707879828796)11078;男生打分比较分散(2)由茎叶图可知,20 名学生中评分在70,80)内的有 9 人,则 a 100.045.920(3)设“有女生被抽中”为事件 A,由茎叶图可知,有 4 名男生,2 名女生的打分在 70分以下(不含 70 分),其中 4
8、 名男生分别记为 a, b, c, d,2 名女生分别记为 m, n,从中抽取 2 人的基本事件有ab, ac, ad, am, an, bc, bd, bm, bn, cd, cm, cn, dm, dn, mn,共 15 种,其中有女生被抽中的事件有 am, an, bm, bn, cm, cn, dm, dn, mn,共 9 种,所以 P(A) .915 35回归分析授课提示:对应学生用书第 60 页悟通方法结论1方程 x 是两个具有线性相关关系的变量的一组数据( x1, y1),( x2, y2),y b a ,( xn, yn)的回归方程,其中 , 是待定参数,回归方程的截距和斜率分
9、别为 a b b , ,( , )是样本中心点,回归直线过样本中心点 n i 1xiyi nx y n i 1x2i nx2 a y b x x y2(1)正相关与负相关就看回归直线的斜率,斜率为正则为正相关,斜率为负则为负相关(2)样本相关系数 r 具有以下性质: r0 表示两个变量正相关, r6.635,故有 99%的把握认为箱产量与养殖方法有关10(10 分)(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于 50 kg 的直方图面积为(0.0040.0200.044)50.340.5,故新养殖法箱产量的中位数的估计值为50 52.35(kg) (12 分)0.5 0.340.068
10、【类题通法】解决概率与统计综合问题的一般步骤练通即学即用(2018西安八校联考)某工厂有 25 周岁以上(含 25 周岁)的工人 300 名,25 周岁以下的工人 200 名为了研究工人的日平均生产件数是否与年龄有关,现采用分层抽样的方法,从中抽取了 100 名工人,先统计了他们某月的日平均生产件数,然后按工人年龄“25 周岁以上(含 25 周岁)”和“25 周岁以下”分为两组,再将两组工人的日平均生产件数分成 5组:50,60),60,70),70,80),80,90),90,100,分别加以统计,得到如图所示的频率分布直方图(1)根据“25 周岁以上(含 25 周岁)组”的频率分布直方图,
11、求 25 周岁以上(含 25 周岁)组工人日平均生产件数的中位数的估计值(四舍五入保留整数);(2)从样本中日平均生产件数不足 60 件的工人中随机抽取 2 人,求至少抽到一名“25周岁以下组”工人的概率;(3)规定日平均生产件数不少于 80 的工人为生产能手,请你根据已知条件完成 22 列11联表,并判断是否有 90%的把握认为“生产能手与工人所在的年龄组有关”?生产能手 非生产能手 合计25 周岁以上(含 25周岁)组25 周岁以下组合 计附: K2nad bc2a bc da cb dP(K2 k0) 0.100 0.050 0.010 0.001k0 2.706 3.841 6.635
12、 10.828解析:采用分层抽样, “25 周岁以上(含 25 周岁)组”应抽取工人100 60(名), “25 周岁以下组”应抽取工人 100 40(名)300300 200 200300 200(1)由“25 周岁以上(含 25 周岁)组”的频率分布直方图可知,其中位数为 701070 73(件)0.5 0.05 0.350.35 207综上,25 周岁以上(含 25 周岁)组工人日平均生产件数的中位数的估计值为 73 件(2)由频率分布直方图可知,样本中日平均生产件数不足 60 件的工人中,25 周岁以上(含 25 周岁)的工人共有 600.005103(名),设其分别为 m1, m2,
13、 m3;25 周岁以下的工人共有 400.005102(名),设其分别为 n1, n2,则所有基本事件为( m1, m2),(m1, m3),( m1, n1),( m1, n2),( m2, m3),( m2, n1),( m2, n2),( m3, n1),( m3, n2),(n1, n2),共 10 个记“至少抽到一名25 周岁以下组的工人”为事件 A,事件 A 包含的基本事件共 7个故 P(A) .710(3)由频率分布直方图可知,25 周岁以上(含 25 周岁)的生产能手共有60(0.020.005)1015(名),25 周岁以下的生产能手共有 40(0.032 50.005)10
14、15(名),则 22 列联表如下:生产能手 非生产能手 合计25 周岁以上(含25 周岁) 组 15 45 6025 周岁以下组 15 25 40合计 30 70 10012K2 1.7862.706.1001525 1545260403070 2514综上,没有 90%的把握认为“生产能手与工人所在的年龄组有关”.授课提示:对应学生用书第 137 页一、选择题1利用系统抽样法从编号分别为 1,2,3,80 的 80 件不同产品中抽出一个容量为16 的样本,如果抽出的产品中有一件产品的编号为 13,则抽到产品的最大编号为( )A73 B78C77 D76解析:样本的分段间隔为 5,所以 13
15、号在第三组,则最大的编号为 13(163)8016578.故选 B.答案:B2某课外小组的同学们在社会实践活动中调查了 20 户家庭某月的用电量如下表所示:用电量/度 120 140 160 180 200户数 2 3 5 8 2则这 20 户家庭该月用电量的众数和中位数分别是( )A180,170 B160,180C160,170 D180,160解析:用电量为 180 度的家庭最多,有 8 户,故这 20 户家庭该月用电量的众数是180,排除 B,C;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这 20 户家庭该月用电量的中位数是 170.故选 A.答案:A3
16、(2017高考全国卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了 2014 年 1 月至 2016 年 12 月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是( )13A月接待游客量逐月增加B年接待游客量逐年增加C各年的月接待游客量高峰期大致在 7,8 月D各年 1 月至 6 月的月接待游客量相对于 7 月至 12 月,波动性更小,变化比较平稳解析:根据折线图可知,2014 年 8 月到 9 月、2014 年 10 月到 11 月等月接待游客量都在减少,所以 A 错误由图可知,B、C、D 正确答案:A4(2018宝鸡质检)对一批
17、产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间25,30)的为一等品,在区间20,25)和30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( )A5 B7C10 D50解析:根据题中的频率分布直方图可知,三等品的频率为 1(0.050 00.062 50.037 5)50.25,因此该样本中三等品的件数为 2000.2550.答案:D5(2018兰州模拟)已知某种商品的广告费支出 x(单位:万元)与销售额 y(单位:万元)之间有如下对应数据:x 2 4 5 6 8y 30 40 50 m 70根据表中提供
18、的全部数据,用最小二乘法得出 y 与 x 的线性回归方程为6.5 x17.5,则表中 m 的值为( )y A45 B50C55 D6014解析: 5,x2 4 5 6 85 ,y30 40 50 m 705 190 m5当 5 时, 6.5517.550,x y 50,解得 m60.190 m5答案:D6为比较甲、乙两地某月 11 时的气温情况,随机选取该月中的 5 天,将这 5 天中 11时的气温数据(单位:)制成如图所示的茎叶图,考虑以下结论:甲地该月 11 时的平均气温低于乙地该月 11 时的平均气温甲地该月 11 时的平均气温高于乙地该月 11 时的平均气温甲地该月 11 时的气温的标
19、准差小于乙地该月 11 时的气温的标准差甲地该月 11 时的气温的标准差大于乙地该月 11 时的气温的标准差其中根据茎叶图能得到的正确结论的编号为( )A BC D解析:由茎叶图和平均数公式可得甲、乙两地的平均数分别是 30,29,则甲地该月 11时的平均气温高于乙地该月 11 时的平均气温,错误,正确,排除 A 和 B;又甲、乙两地该月 11 时的标准差分别是 s 甲 , s 乙 ,则甲地该4 1 1 45 2 9 1 4 45 185月 11 时的气温的标准差小于乙地该月 11 时的气温的标准差,正确,错误,故选项 C正确答案:C二、填空题7(2018惠州模拟)某车间为了规定工时定额,需要
20、确定加工零件所花费的时间,为此进行了 5 次试验根据收集到的数据(如下表):零件数 x/个 10 20 30 40 50加工时间y/分钟 62 68 75 81 89由最小二乘法求得回归方程 0.67 x ,则 的值为_y a a 15解析:因为 30,x10 20 30 40 505 75,y62 68 75 81 895所以回归直线一定过样本点的中心(30,75),则由 0.67 x 可得 75300.67 ,y a a 求得 54.9.a 答案:54.98(2018高考全国卷)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异为了解客户的评价,该公司准备进行抽样调查,可供选择的抽
21、样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是_解析:因为客户数量大,且不同年龄段客户对其服务的评价有较大差异,所以最合适的抽样方法是分层抽样答案:分层抽样三、解答题9某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了 8组数据作为研究对象,如下表所示( x 为该商品的进货量, y 为销售天数):x/吨 2 3 4 5 6 8 9 11y/天 1 2 3 3 4 5 6 8(1)根据上表数据在图中的网格中绘制散点图:(2)根据上表提供的数据,求出 y 关于 x 的线性回归方程 x ;y b a (3)根据(2)中的计算结果,若该商店准备一次性进货 24 吨,
22、预测需要销售的天数参考公式和数据: , ;b ni 1xiyi nxyni 1x2i nx2 a y b x356, iyi241.8i 1x2i8i 1x16解析:(1)散点图如图所示(2)依题意,得 (234568911)6,x18 (12334568)4,y18又 356, iyi241,8i 1x2i8i 1x所以 , 4 6 ,b 8i 1xiyi 8xy8i 1x2i 8x2 241 864356 862 4968 a 4968 1134故线性回归方程为 x .y 4968 1134(3)由(2)知,当 x24 时, 24 17,y 4968 1134故若该商店一次性进货 24 吨
23、,则预计需要销售 17 天10(2018郑州模拟)为了考察高中学生的身体素质情况,现抽取了某校 1 000 名(男生 800 名,女生 200 名)学生的测试成绩,根据性别按分层抽样的方法抽取 100 名学生的测试成绩进行分析,得到如下统计表:男生测试情况:抽样情况 病残免试 不合格 合格 良好 优秀人数 5 10 15 47 x女生测试情况:抽样情况 病残免试 不合格 合格 良好 优秀人数 2 3 10 y 2(1)现从抽取的 100 名且测试等级为“优秀”的学生中随机选出 2 名学生,求选出的这2 名学生恰好是一男一女的概率;(2)若测试等级为“良好”或“优秀”的学生为“体育达人” ,其他
24、等级(含病残免试)的学生为“非体育达人” ,根据以上统计数据填写下面列联表,并回答能否在犯错误的概率不超过 0.010 的前提下认为“是否为体育达人与性别有关?”17男性 女性 总计体育达人非体育达人总计临界值表:P(K2 k0) 0.10 0.05 0.025 0.010 0.005k0 2.706 3.841 5.024 6.635 7.879附: K2 ,其中 n a b c d.nad bc2a bc da cb d解析:(1)按分层抽样的知识知男生应抽取 80 名,女生应抽取 20 名, x80(5101547)3, y20(23102)3.抽取的 100 名且测试等级为“优秀”的
25、3 名男生分别记为 A, B, C,2 名女生分别记为a, b.从 5 名学生中任选 2 名,总的基本事件有( A, B),( A, C),( A, a),( A, b),( B, C),(B, a),( B, b),( C, a),( C, b),( a, b),共 10 个设“选出的 2 名学生恰好是一男一女”为事件 M,则事件 M 包含的基本事件有( A, a),( A, b),( B, a),( B, b),( C, a),( C, b),共6 个, P(A) .610 35(2)22 列联表如下:男生 女生 总计体育达人 50 5 55非体育达人 30 15 45总计 80 20 100则 K2 9.091.nad bc2a bc da cb d 1005015 3052802055459.0916.635 且 P(K26.635)0.010,能在犯错误的概率不超过 0.010 的前提下认为“是否为体育达人与性别有关 ”