1、1专题 5 概率与统计一、计数原理1.分类加法计数原理和分步乘法计数原理的区别是什么?分类加法计数原理针对“分类”问题,其中各种方法相互独立,用其中任何一种方法都可以做完这件事;分步乘法计数原理针对“分步”问题,各个步骤相互依存,只有各个步骤都完成了才算完成这件事 .2.排列数、组合数的公式及性质是什么?公式(1) =n(n-1)(n-2)(n-m+1)=Amnn!(n-m)!(2) = =CmnAmnAmmn(n-1)(n-2)(n-m+1)m!= (n,mN +,且 m n)n!m!(n-m)!特别地, =1C0n性质(1)0!=1; =n!Ann(2) = ; = +CmnCn-mn C
2、 mn+1CmnCm-1n3.二项式系数的性质是什么?性质 性质描述对称性 与首末两端“等距离”的两个二项式系数相等,即 =CknCn-kn当 k (nN +)时,二项式系数是递减的n+12当 n 为偶数时,中间的一项 取得最大值Cn2n二项式当 n 为奇数时,中间的两项 与 取得最大值并且相等Cn-12n Cn+12n2系数的最大值4.各二项式系数的和是什么?(1)(a+b)n展开式的各项二项式系数的和为 + + + =2n.C0nC1nC2n Cnn(2)偶数项的二项式系数的和等于奇数项的二项式系数的和,即+ + += + + +=2n-1.C0nC2nC4n C1nC3nC5n二、概率1
3、.互斥事件与对立事件有什么区别与联系?互斥与对立都是两个事件的关系,互斥事件是不可能同时发生的两个事件,而对立事件除要求这两个事件不同时发生外,还要求二者之一必须有一个发生 .因此,对立事件是互斥事件的特殊情况,而互斥事件不一定是对立事件 .2.基本事件的三个特点是什么?(1)每一个基本事件发生的可能性都是相等的;(2)任何两个基本事件都是互斥的;(3)任何事件(除不可能事件)都可以表示成基本事件的和 .3.古典概型、几何概型的概率公式分别是什么?古典概型的概率公式:P(A)= .事件 A包含的基本事件的个数( m)基本事件的总数( n)几何概型的概率公式:P(A)= .构成事件 A的区域长度
4、(面积或体积)试验的全部结果所构成的区域长度(面积或体积)三、统计初步与统计案例1.分层抽样的适用范围是什么?当总体是由差异明显的几个部分组成时,往往选用分层抽样的方法 .2.如何作频率分布直方图?(1)求极差(即一组数据中最大值与最小值的差) .3(2)决定组距与组数 .(3)将数据分组 .(4)列频率分布表 .(5)画频率分布直方图 .3.频率分布直方图的特点是什么?(1)频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示 ,频率 =组距 .频率组距 频率组距(2)在频率分布直方图中,各小长方形的面积总和等于 1.因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比
5、.(3)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观 .4.如何进行回归分析?(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法 .(2)样本点的中心对于一组具有线性相关关系的数据( x1,y1),(x2,y2),(xn,yn),其中( , )称为样本-x -y点的中心 .(3)相关系数当 r0 时,表明两个变量正相关;当 r 0,-P2 B.P1100,D正确.故选 C.答案 C13.(2017全国 卷理 T3)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了 2014 年 1 月至 2016 年 12 月期间月接待游客量(单位:万人)
6、的数据,绘制了下面的折线图 .根据该折线图,下列结论错误的是( ).A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在 7,8 月D.各年 1 月至 6 月的月接待游客量相对于 7 月至 12 月,波动性更小,变化比较平稳解析 对于选项 A,由图易知,月接待游客量每年 7,8 月份明显高于 12 月份,故 A 错误;对于选项 B,观察折线图的变化趋势可知,年接待游客量逐年增加,故 B 正确;对于选项 C,D,由图可知显然正确 .答案 A(八)考查离散型随机变量分布列、超几何分布、条件概率、正态分布、数学期望与方差,求离散型随机变量的数学期望是全国卷高考重点考查的
7、内容,在选择题、填空题中有时会出现 .主要考查离散型随机变量的分布列、数学期望、正态分布等 .1114.(2018全国 卷理 T8 改编)某群体中的每位成员使用移动支付的概率都为 p,各成员的支付方式相互独立,设 X 为该群体的 10 位成员中使用移动支付的人数, D(X)=2.1,P(X=4)0.5.故 p=0.7.答案 A15.(2017全国 卷理 T13 改编)一批产品的二等品率为 0.08,从这批产品中每次随机取一件,有放回地抽取 100 次, X 表示抽到的二等品件数,则 D(X)= . 解析 有放回地抽取,是一个二项分布模型,其中 p=0.08,n=100,则 D(X)=np(1-
8、p)=1000.080.92=7.36.答案 7.36二、解答题的命题特点概率与统计综合试题的题干阅读量大,容易造成考生在数学模型转化过程中失误,得分率不高 .这些试题主要考查古典概型,用样本估计总体,利用回归方程进行预测,独立性检验的应用,离散型随机变量的分布列和数学期望,正态分布等 .概率、随机变量的数学期望交汇命题,高考对此类题目的要求是能根据给出的或通过统计图表给出的相关数据求线性回归方程 .1.(2018全国 卷理 T18)下图是某地区 2000 年至 2016 年环境基础设施投资额 y(单位:亿元)的折线图 .12为了预测该地区 2018 年的环境基础设施投资额,建立了 y 与时间
9、变量 t 的两个线性回归模型 .根据 2000 年至 2016 年的数据(时间变量 t 的值依次为 1,2,17)建立模型 : =-y30.4+13.5t;根据 2010 年至 2016 年的数据(时间变量 t 的值依次为 1,2,7)建立模型 :=99+17.5t.y(1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值 .(2)你认为用哪个模型得到的预测值更可靠?并说明理由 .解析 (1)利用模型 ,从 2000 年开始算起,2018 年即 t=19,所以该地区 2018 年的环境基础设施投资额的预测值为 =-30.4+13.519=226.1(亿元) .y利用模型
10、,从 2010 年开始算起,2018 年即 t=9,所以该地区 2018 年的环境基础设施投资额的预测值为 =99+17.59=256.5(亿元) .y(2)利用模型 得到的预测值更可靠 .理由如下:(i)从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线 y=-30.4+13.5t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型 不能很好地描述环境基础设施投资额的变化趋势 .2010 年相对 2009 年的环境基础设施投资额有明显增加,2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础设施投资额的变
11、化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型=99+17.5t 可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利用模型y 得到的预测值更可靠 .(ii)从计算结果看,相对于 2016 年的环境基础设施投资额 220 亿元,由模型 得到的预测值 226.1 亿元的增幅明显偏低,而利用模型 得到的预测值的增幅比较合理,说明利用模型 得到的预测值更可靠 .2.(2018全国 卷,理 T20)某工厂的某种产品成箱包装,每箱 200 件,每一箱产品在交付用户之前要对产品作检验,如检验出不合格品,则更换为合格品 .检验时,先从这箱产品中任取20 件作检
12、验,再根据检验结果决定是否对余下的所有产品作检验 .设每件产品为不合格品的概率都为 p(00,f(p)单调(0,110)递增;当 p 时, f(p)400,所以需要对这箱余下的所有产品作检验 .3.(2018全国 卷理 T18)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式 .为比较两种生产方式的效率,选取 40 名工人,将他们随机分成两组,每组 20 人,第一组工人用第一种生产方式,第二组工人用第二种生产方式 .根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:14(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由 .(2)求 40 名工人
13、完成生产任务所需时间的中位数 m,并将完成生产任务所需时间超过 m 和不超过 m 的工人数填入下面的列联表:超过 m 不超过 m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异?附: K2= ,n(ad-bc)2(a+b)(c+d)(a+c)(b+d)P(K2 k0) 0.050 0.010 0.001k0 3.841 6.635 10.828解析 (1)第二种生产方式的效率更高 .理由如下:(i)由茎叶图可知,用第一种生产方式的工人中,有 75%的工人完成生产任务所需时间至少 80 分钟,用第二种生产方式的工人中,有 75%的工人完成生
14、产任务所需时间至多 79 分钟,因此第二种生产方式的效率更高 .(ii)由茎叶图可知,用第一种生产方式的工人完成生产任务所需时间的中位数为 85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为 73.5 分钟,因此第二种生产方式的效率更高 .(iii)由茎叶图可知,用第一种生产方式的工人完成生产任务平均所需时间高于 80 分钟,用第二种生产方式的工人完成生产任务平均所需时间低于 80 分钟,因此第二种生产方式的效率更高 .(iv)由茎叶图可知,用第一种生产方式的工人完成生产任务所需时间分布在茎 8 上的最多,关于茎 8 大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分
15、布在茎 7上的最多,关于茎 7 大致呈对称分布 .又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高 .(2)由茎叶图知 m= =80.79+81215列联表如下:超过 m 不超过 m第一种生产方式 15 5第二种生产方式 5 15(3)因为 K2的观测值 k= =106.635,所以有 99%的把握认为两种生40(1515-55)220202020产方式的效率有差异 .4.(2017全国 卷理 T19)为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上
16、随机抽取 16 个零件,并测量其尺寸(单位:cm) .根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布 N( , 2).(1)假设生产状态正常,记 X 表示一天内抽取的 16 个零件中其尺寸在( - 3 ,+ 3 )之外的零件数,求 P(X1)及 X 的数学期望 .(2)一天内抽检零件中,如果出现了尺寸在( - 3 ,+ 3 )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查 .(i)试说明上述监控生产过程方法的合理性 .(ii)下面是检验员在一天内抽取的 16 个零件的尺寸:9.95 10.12 9.96 9.96 10.
17、01 9.92 9.9810.04 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95经计算得 = xi=9.97,s= = 0 .212,其中 xi-x 11616i=1 11616i=1(xi- -x)2 116(16i=1x2i-16-x2)为抽取的第 i 个零件的尺寸, i=1,2,16.用样本平均数 作为 的估计值 ,用样本标准差 s 作为 的估计值 ,利用估计值判断-x 是否需对当天的生产过程进行检查?剔除( -3 , +3 )之外的数据,用剩下的数据估计 和 (精确到 0.01).附:若随机变量 Z 服从正态分布 N( , 2),则 P(-
18、3Z+ 3 )=0.9974,0.9974160 .9592, 0 .09.0.008解析 (1)由题可知抽取的一个零件的尺寸落在( - 3 ,+ 3 )之内的概率为0.9974,从而零件的尺寸落在( - 3 ,+ 3 )之外的概率为 0.0026,故 XB(16,0.0026).16因此 P(X1) =1-P(X=0)=1-0.9974161 -0.9592=0.0408,X 的数学期望 E(X)=160.0026=0.0416.(2)(i)如果生产状态正常,一个零件尺寸在( - 3 ,+ 3 )之外的概率只有 0.0026,一天内抽取的 16 个零件中,出现尺寸在( - 3 ,+ 3 )之
19、外的零件的概率只有 0.0408,发生的概率很小,因此一旦发生这种情况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的 .(ii)由 =9.97,s0 .212,得 的估计值为 =9.97, 的估计值为 =0.212,由样本-x 数据可以看出有一个零件的尺寸在( -3 , +3 )之外,因此需对当天的生产过程进行检 查 .剔除( -3 , +3 )之外的数据 9.22,剩下数据的平均数为 (169.97-9.22) 115=10.02,因此 的估计值为 10.02.=160.2122+169.9721591 .134,
20、16i=1x2i剔除( -3 , +3 )之外的数据 9.22,剩下数据的样本方差为 (1591.134-9.222- 1151510.022)0 .008,因此 的估计值为 0 .09.0.0081.样本数据(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量,与每个样本数据有关,这是中位数、众数所不具有的性质 .(2)标准差、方差描述了一组数据围绕平均数波动的大小 .标准差、方差越大,数据的离散程度就越大 .(3)茎叶图、频率分布表和频率分布直方图都是用图表直观描述样本数据的分布规律的 .2.频率分布直方图(1)用样本估计总体是统计的基本思想,而利用频率分布表和频率分
21、布直方图来估计总体则是用样本的频率分布去估计总体分布的两种主要方法 .频率分布表在数量表示上比较准确,频率分布直方图比较直观 .17(2)频率分布表中的频数之和等于样本容量,各组中的频率之和等于 1;在频率分布直方图中,各小长方形的面积表示相应各组的频率,所以所有小长方形的面积的和等于 1;平均数是频率分布直方图各个小矩形的面积 底边中点的横坐标之和 .3.排列与组合(1) 解决“在”与“不在”的有限制条件的排列问题,既可以从元素入手,也可以从位置入手,原则是谁“特殊”谁优先 .不管是从元素考虑还是从位置考虑,都要贯彻到底,不能既考虑元素又考虑位置 . 解决相邻问题的方法是“捆绑法”,即把相邻
22、元素看作一个整体和其他元素一起排列,同时要注意捆绑元素的内部排列 . 解决不相邻问题的方法是“插空法”,即先考虑不受限制的元素的排列,再将不相邻的元素插在前面元素排列的空当中 . 对于定序问题,可先不考虑顺序限制,排列后,再除以定序元素的全排列 . 若某些问题从正面考虑比较复杂,可从其反面入手,即采用“间接法” .(2)组合问题的限制条件主要体现在取出元素中“含”或“不含”某些元素,或者“至少”或“最多”含有几个元素: “含有”或“不含有”某些元素的组合题型 .“含”,则先将这些元素取出,再由另外元素补足;“不含”,则先将这些元素剔除,再从剩下的元素中去选取 . “至少”或“最多”含有几个元素
23、的题型 .考虑逆向思维,用间接法处理 .(3)分组分配问题是排列、组合问题的综合运用,解决这类问题的一个基本指导思想就是先分组后分配 .关于分组问题,有整体均分、部分均分和不等分三种,无论分成几组,都应注意只要有一些组中元素的个数相等,就存在均分现象 .4.随机变量的均值与方差一般计算步骤:(1)理解 X 的意义,写出 X 的所有可能取的值 .(2)求 X 取各个值的概率,写出分布列 .(3)根据分布列,由均值的定义求出均值 E(X),进一步由公式 D(X)= (xi-E(X)ni=12pi=E(X2)-(E(X)2求出 D(X).(4)以特殊分布(两点分布、二项分布、超几何分布)为背景的均值与方差的计算: 先根据随机变量的特点判断出随机变量服从什么特殊分布; 可以根据特殊分布的概率公式列出分布列,根据计算公式计算出均值和方差,也可以直接应用离散型随机变量服从特殊分布时的均值与方差公式来计算,若 X=a+b 不服从特殊分布,但 服从特殊分布,可利用有关性质及 E( ),D( )公式求均值和方差 .