1、本 章 整 合,统计,专题一,专题二,专题三,专题四,抽样方法及其应用 1.本章主要介绍了三种抽样方法:简单随机抽样、系统抽样、分层抽样.高考对抽样方法的考查多以选择题、填空题的形式出现,重点考查三种抽样方法的概念以及相关的计算问题. 2.抽样方法的适用范围 (1)当总体中的个数较少时,一般采用简单随机抽样的方法. (2)当总体中的个数较多,且对总体的情况不了解或总体各部分没有明显差异时,一般采用系统抽样的方法. (3)当总体是由差异明显的几部分组成时,则一般采用分层抽样的方法.,专题一,专题二,专题三,专题四,【例1】 某全日制大学共有学生5 600人,其中专科生1 300人,本科生3 00
2、0人,研究生1 300人,现采用分层抽样的方法调查学生利用网络查找学习资料的情况,抽取的样本为280人,则应在专科生、本科生与研究生这三类学生中分别抽取( ) A.65人,150人,65人 B.30人,150人,100人 C.93人,94人,93人 D.80人,120人,80人,答案:A,专题一,专题二,专题三,专题四,变式训练1(1)某单位有840名职工,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,840随机编号,则抽取的42人中,编号落入区间481,720的人数为( ) A.11 B.12 C.13 D.14 (2)某工厂有1 003名工人,从中抽取10人参加体检,试采用
3、简单随机抽样和系统抽样进行具体实施.,专题一,专题二,专题三,专题四,(1)解析:将840个号码分为42组,则每组有20个号码,分别为120,2140,821840,故落入区间481,720的号码为第25组到第36组,每组中取一个号码,有12个,故选B. 答案:B (2)解:简单随机抽样: 第一步 每一个人编一个号由1至1003. 第二步 制作大小、形状、质地相同的号签,并写上号码. 第三步 放入一个大容器内,均匀搅拌. 第四步 依次抽取10个号签,具有这10个编号的人组成一个样本.,专题一,专题二,专题三,专题四,(2)系统抽样: 第一步 将每个人编一个号由0001至1003. 第二步 利用
4、随机数表抽取3个号,将这3个人剔除. 第三步 重新编号0001至1000. 第四步 分段 所以0001至0100为第一段. 第五步 在第一段内由简单随机抽样方法抽得一个号如1. 第六步 按编号将1,100+1,900+1,共10个号选出,这10个号所对应的人组成样本.,专题一,专题二,专题三,专题四,统计图表及其应用 频率分布表、频率分布折线图、频率分布直方图、茎叶图等统计图表是进行统计分析的重要工具,在统计中具有重要的应用,尤其是频率分布直方图和茎叶图,在高考中考查频率较高,主要以选择题、填空题的形式出现.多与数字特征(平均数、方差、标准差)等结合在一起考查.,专题一,专题二,专题三,专题四
5、,(2)对于样本数据较少,且分布较为集中的一组数据:若数据是两位整数,则将十位数字作茎,个位数字作叶;若数据是三位整数,则将百位、十位数字作茎,个位数字作叶.样本数据为小数时做类似处理.,专题一,专题二,专题三,专题四,【例2】 某校100名学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:50,60),60,70),70,80),80,90), 90,100,则图中a的值为( )A.0.006 B.0.005 C.0.004 5 D.0.002 5 解析:由已知可得(a+0.04+0.03+0.02+a)10=1,解得a=0.005. 答案:B,专题一,专题二,专题三,专题四
6、,变式训练2某高校调查了200名学生每周的自习时间(单位:时),制成了如图所示的频率分布直方图,其中自习时间的范围是17.5,30,样本数据分组为17.5,20),20,22.5),22.5,25),25,27.5),27.5,30.根据频率分布直方图,这200名学生中每周的自习时间不少于22.5时的人数是( ),A.56 B.60 C.120 D.140 解析:由频率分布直方图可知,这200名学生每周自习时间不少于22.5时的频率为(0.16+0.08+0.04)2.5=0.7,故该区间内的人数为2000.7=140.故选D. 答案:D,专题一,专题二,专题三,专题四,【例3】 在某次法律知
7、识竞赛中,将来自不同学校的学生的成绩绘制成如图所示的频率分布直方图.已知成绩在60,70)内的学生有40人,则成绩在70,90)内的学生有 人.,专题一,专题二,专题三,专题四,解析:成绩在区间60,70)内的频率为0.04010=0.4,因此学生总人数为 =100.又成绩在区间70,90)内的学生人数是成绩在区间70,80)和80,90)内的学生人数的和,这两个小区间相对应的小矩形的面积的和为(0.015+0.010)10=0.25,此即为成绩在区间70,90)内的学生人数的频率,因此成绩在70,90)内的学生有1000.25=25(人). 答案:25,专题一,专题二,专题三,专题四,变式训
8、练3某电子商务公司对10 000名网络购物者2017年度的消费情况进行统计,发现消费金额(单位:万元)都在区间0.3,0.9内,其频率分布直方图如图所示.(1)直方图中的a= ; (2)在这些购物者中,消费金额在区间0.5,0.9内的购物者的人数为 .,专题一,专题二,专题三,专题四,解析:(1)由频率分布直方图,得(1.5+2.5+a+2.0+0.8+0.2)0.1=1,解得a=3. (2)消费金额在0.5,0.9的购物者的人数为: 10 000(1-1.50.1-2.50.1)=10 0000.6=6 000. 答案:(1)3 (2)6 000,专题一,专题二,专题三,专题四,用样本的数字
9、特征估计总体的数字特征 用样本数字特征估计总体的数字特征就是为了从整体上更好地把握总体的规律,我们还可以通过样本数据的众数、中位数、平均数和标准差等数字特征对总体的数字特征作出估计.众数就是样本数据中出现最多的那个数;中位数就是把样本数据按从小到大(或从大到小)的顺序排列,位于中间位置的那个数(或两个数的平均数);平均数就是所有样本数据的平均值;标准差是反映样本数据离散程度大小的最常用的统计量,其计算公式如下:,有时也用标准差的平方s2方差来代替标准差,实质是一样的.,专题一,专题二,专题三,专题四,【例4】 某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门
10、的评分(评分越高表明市民的评价越高),绘制茎叶图如下:,(1)分别估计该市的市民对甲、乙两部门评分的中位数; (2)根据茎叶图分析该市的市民对甲、乙两部门的评价.,专题一,专题二,专题三,专题四,分析:第(1)问是求中位数问题,应根据中位数的定义及茎叶图提供的数据分别对甲、乙两部门的评分由小到大排序,由于有50个数据,中间是第25与第26两个数,中位数应取它们的平均值.第(2)问可根据得到的中位数及数据的集中程度作出评价.,专题一,专题二,专题三,专题四,解:(1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门
11、评分的中位数的估计值是75. 50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为 ,所以该市的市民对乙部门评分的中位数的估计值是67. (2)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低,评价差异较大.(注:利用其他统计量进行分析,结论合理的也可),专题一,专题二,专题三,专题四,变量的相关性 1.判断两个变量之间是否具有相关关系的方法有三种:一是靠生产、生活经验;二是依据两个变量的取值;三是画
12、出散点图进行直观判断. 2.求回归直线方程的步骤如下: (1)依据样本数据画出散点图,确定两个变量具有线性相关关系.,(3)计算回归系数a,b. (4)写出线性回归方程y=bx+a. 3.根据计算公式,回归直线一定经过样本中心点 ,这个结论既是检验所求回归直线方程是否准确的依据,也是解决问题的一个依据.,专题一,专题二,专题三,专题四,【例5】 用最小二乘估计得到一组数据(xi,yi)(i=1,2,3,4,5)的线性回归方程为y=2x+3,若x1+x2+x5=25,则y1+y2+y5= .,答案:65,专题一,专题二,专题三,专题四,【例6】 在10年期间,一城市居民的年收入与某种商品的销售额
13、之间的关系有如下数据:,(1)画出散点图; (2)如果散点图中的各点大致分布在一条直线的附近,求y与x之间的线性回归方程. 提示:两个随机变量是否线性相关可从散点图中直观地判断.,专题一,专题二,专题三,专题四,解:(1)散点图如图所示.,专题一,专题二,专题三,专题四,(2)由(1)中散点图知城市居民的年收入与该商品的销售额之间存在着显著的线性相关关系.列表:,专题一,专题二,专题三,专题四,变式训练4某产品在某零售摊位上的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:,由上表可得回归直线方程y=bx+a中的b=-3.9,据此模型预计零售价定为15元时,每天的销售量为
14、 ( ) A.48个 B.49个 C.50个 D.51个 解析:由已知得 ,代入回归方程得a=109.5,于是零售价定为15元时,销售量为-3.915+109.5=51. 答案:D,专题一,专题二,专题三,专题四,变式训练5随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:,(1)求y关于t的回归方程y=bt+a; (2)用所求回归方程预测该地区2018年(t=6)的人民币储蓄存款.,专题一,专题二,专题三,专题四,解:(1)列表计算如下:,故所求回归方程为y=1.2t+3.6.,专题一,专题二,专题三,专题四,(2)将t=6代入回归方程可预测该地区
15、2018年的人民币储蓄存款为y=1.26+3.6=10.8(千亿元).,考点1 随机抽样 1.(2014湖南高考)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( ) A.p1=p2p3 B.p2=p3p1 C.p1=p3p2 D.p1=p2=p3 解析:由随机抽样的要求,知p1=p2=p3,故选D. 答案:D 2.(2018全国3高考)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异,为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽
16、样,则最合适的抽样方法是 . 解析:因大量客户且具有不同的年龄段,分层明显,故根据分层抽样的定义可知采用分层抽样最为合适. 答案:分层抽样,3.(2014天津高考)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4556,则应从一年级本科生中抽取 名学生. 解析:依题意知,应从一年级本科生中抽取 答案:60,考点2 用样本估计总体 4.(2017全国1高考)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,x
17、n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( ) A.x1,x2,xn的平均数 B.x1,x2,xn的标准差 C.x1,x2,xn的最大值 D.x1,x2,xn的中位数 解析:标准差和方差可刻画样本数据的稳定程度,故选B. 答案:B,5.(2017全国3高考)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是( ) A.月接待游客量逐月增加 B.年接待游客量逐年增加 C.各年的月接待游客量高峰期大致在7,8月 D.各年1月至6月的月接待游客量相对
18、于7月至12月,波动性更小,变化比较平稳,解析:由题图可知2014年8月到9月的月接待游客量在减少,故A错误. 答案:A,6.(2018全国1高考)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:,则下面结论中不正确的是( ) A.新农村建设后,种植收入减少 B.新农村建设后,其他收入增加了一倍以上 C.新农村建设后,养殖收入增加了一倍 D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半,解析:设建设前经济收入为1,则建设后经济收入为2,建设前种植收入为0.
19、6,建设后种植收入为20.37=0.74,故A不正确;建设前的其他收入为0.04,养殖收入为0.3,建设后其他收入为0.1,养殖收入为0.6,故B,C正确;建设后养殖收入与第三产业收入的总和所占比例为58%,故D正确,故选A. 答案:A,7.(2015课标全国高考)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著 B.2007年我国治理二氧化硫排放显现成效 C.2006年以来我国二氧化硫年排放量呈减少趋势 D.2006年以来我国二氧化硫年排放量与年份正相关 解析:由柱形图知,2006年
20、以来我国二氧化硫年排放量呈减少趋势,故其排放量与年份负相关. 答案:D,8.(2015湖南高考)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示若将运动员按成绩由好到差编为135号,再用系统抽样方法从中抽取7人,则其中成绩在区间139,151上的运动员人数是( ) A.3 B.4 C.5 D.6 解析:依题意,应将35名运动员的成绩由好到差排序后分为7组,每组5人.然后从每组中抽取1人,其中成绩在区间139,151上的运动员恰好是第3,4,5,6组,因此,成绩在该区间上的运动员人数是4. 答案:B,9.(2018全国1高考)某家庭记录了未使用节水龙头50天的日用水量数据(单
21、位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下: 未使用节水龙头50天的日用水量频数分布表使用了节水龙头50天的日用水量频数分布表,(1)作出使用了节水龙头50天的日用水量数据的频率分布直方图:(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率; (3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表.),解:(1)(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.20.1+10.1+2.60.1+20.05=0.48,因此该家庭使用节水龙头后日用水量小于0.35
22、 m3的概率的估计值为0.48.,考点3 线性回归分析 10.(2018全国2高考)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.,为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型: =-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:y=99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.,解: (1)
23、利用模型,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.519=226.1(亿元). 利用模型,该地区2018年的环境基础设施投资额的预测值为=99+17.59=256.5(亿元).,(2)利用模型得到的预测值更可靠. 理由如下: (i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础
24、设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型 =99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠. (ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠.,11.(2016全国丙高考)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.,注:年份代码1-7分别对应年份2008-2014. (1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明; (2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.,解:(1)由折线图中数据和附注中参考数据得,因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.,