GB T 4883-1985 数据的统计处理和解释 正态样本异常值的判断和处理.pdf
《GB T 4883-1985 数据的统计处理和解释 正态样本异常值的判断和处理.pdf》由会员分享,可在线阅读,更多相关《GB T 4883-1985 数据的统计处理和解释 正态样本异常值的判断和处理.pdf(15页珍藏版)》请在麦多课文档分享上搜索。
1、1才I,i 中华人民共和国国家标准数据的统计处理和解释正态样本异常值的判断和处理Statistical interpretation of data-Detection and handling 。foutlying observations in norr皿lsample UDC 519.28 GB 4883-85 I . I 本标准规定了判断和处理在ii叫态样本l扫出现的异常值的般原则和实施方法。I. 2 异常值(或异常观视lj值是帽样本l书的个别俏,其数值明显偏离它(戎它们)所属样本的其余观测值。异常值吁能是总体固有的随机变异性的极端表现。这种异常值和样本中其余观测值属F同总体。异常值也
2、可能是由于试验条件和试验方法的偶然偏离所产生的后果,或产牛于观测、计算、l己求中的失误。这种异常值和样本小其余观测值不属于同总体。1. 3 本标准使用的其它统计学名词,见国家标准GB3358 82统讨学名词及符号。I. 4应用条件:所考查样本中i者观测值(戎经过寇的函数变换后得到的值),除了个别异常值外,其余大部分值(样本主体)来自同正态总体或近似正态总体。关于样本来自ff态总体或近似1E态总体的判断,可以根据物理上的、技术七的知识,也可通过与考查对象有同样性质的以往数据,进行正态性检验,具原理和方法见国家标准GB4882 85数据的统计处理和解释一正态性检验。2 f.!J断异常值的统计学原则
3、2. 1 本标准在下述不同情形下判断样本中的异常的tt侧情形2根据以往经验,异常值都为高端值,下侧情形g根据以往经验,异常值都为低端值s双侧情形2异常且是在两端都可能出现的极端的。比2l刊l情形和F侧情形统称单侧情形。2.2 执行本标准时,应规定在样本中检出异常俏的个数的上限(占样本观测值个数的较小比例),当超过了这个上限,对此样本的代表性,应作慎重的研究和处理。2.3 判断单个异常值的检验规则根据实际情况,注定居宜的异常值检验规则(见4、5、6章),指之为检tH异常值的统计检验的显著性水、f.a,简称检出水平,根据和观测值个数n确定统ti量的商界值g将各观测值代人检验规则中给出的统计量,所得
4、值若超过临界值,则判断事先确立E待查的极端观视lj值为异常值,否则就判断“没有异常值”。枪出水、卡,的宜取直是5%, 1 % (戎10)。2.4 判断多个异常们的价验刷则在允i:F价IH异常l!i个数nJ大l二l的l1Jlf己,本标准规定的方法是重复使用同一种判断串户个异常值的检验规则,即用指.R1一(吟,判断最大值X(町为异常值,否则,判断“没有异常值飞d. 在给出剔除水平的情况下,在表Al查出对应n,的临界值R,a刊的。当RnR, a(时,判断X(时为高度异常,否则,判断“没有高度异常的异常值飞4. 1. 2 下侧情形的检验法与4.2.J规则相同,但要使用统计量R (x-xc1) 代替R.
5、,要判断的是最小值血口。4. 1. 3双侧情形的检验法a. 计算Ro与R;的值,b. 确定枪出水、f,在,jJR飞,ll.RnR12(吟,判断最大值X(n)为异常值,当Rn.Rn,且RnR1a/2 (时,jlj断最小值XuJ为异常值,否则,判断“没有异常值”。 在给出剔除水平的情况扒在表Al查出对应n,2的临界值R,2(吟。当RnR,且RnR1 - u/2 (川,判断最大illx1川为高度异常,吨RRn.RnR,a川(n),jlj断最小值X(I)为高度异常,杏则,判断“没有高度异常的异常值飞4.2 使用奈尔检验法的示伊lj 考查某种化纤纤维F收缩率,得25个独f.观i!Uii:3.13, 3.
6、49, 4.01, 4.48, 4.61, 4.76, 4.”, 5.25, 5.32, 5.39, 5.42, 5.57, 5.59, 5.59, 5.63, 5.63, 5.6日,5.66,5.67, 5.69, 5.71, 6.00, 6.03,6.12,6.76, (单位%)。已知在正常条件下,测试量服从正态分布,。o. 65,现考查下侧的异常值。规定金多检出三个异常值,采用3.3中b的处理方式。取检出水乎5%,剔除水、F1 %。t n二25,得x二5.2856, R 25二xx11 l / , = (5. 2856一3.13)/0.65 = 3. 316。而Ro.9sC25l= =2
7、.815, Ro,99(2日3. 282, Rn Ro.9R (25),故判断3.13是高度异常的异常值。取出3.13后在余下的24个观测值中计算均值-:t= 5. 375,这时最小值为3.49,R2, = (5.375 3.49)/ 0.65二2.90。对n= 24, Ro.以24)= 2.800, Ro.(24) = 3.269,因R,R o.9s(24),判断3.49是异常值。取出3.13、3.49后,余下23个观测俏的样本均值为5.457,这时最小值为4.01,R;,= (5.457 4.01)/0.65二2.2270对n=23,Ro.gs(23)=2.784,因R, R o.,s(
8、23),故判断“没有异常值”。检出3.13和3.49是异常俏,其中3.13高度异常,可考虑剔除。5 未知标准差情形下判断和处理异常值的规则(T ) 一枪出异常值的个数不超过15. 1 本章给出格拉布斯(Grubbs)检验法和狄克逊(Dixon)枪验法,标准使用者叮根据实际要求选定实施其中种检验法(参考附录肘。5.2格拉布斯检验法5. 2. 1 主侧情形的检验法a. 对于观捆lj(j直x,缸,计算统计量Gn = (G1-a(时,IJ最大值酌”为异常值,否则,判断“没街异常值”d. 在给出剔除水平的情况下,在表AZ查出对应n,的i商界值GIa (的。当nG,a(时,iJx川f.lj度异常,否则,判
9、断“没有高度异常的异常值飞5.2.2 F侧情形的检验法1i5.2.l规则相同,但要使用统计量G = 言X11J)/s代替叭,要判断的是最小观测值X(IJo 5.2.3双侧情形的检验法a. 计算G和G的值,b. 确定检山水、严,在表Az查出对应n,2的临界值G1也2(时,c. 当n(;且Gni刊的,判断X(町为异常值,当GGn,且GG12 (时,判断X(I l为异常值,否则,判断“没有异常直飞d. 在给出剔除水平的情况扒在表A2查出对应n,2的临界值G1a川的。163 GB 4883-85 当GG,且GnJa 12 (时,判断X(n)过l高度异常,当GGn,fl.G .G1 a(2 (时,判断X
10、ul为,(Jj度异常,否则,判断“没有高度异常的异常值”。5.2.4 使用格拉布斯检验法的示例价轮某种传的个交付批的10个样品的抗压强度数据(自小而大排列)4. 7, 5.4, 6.0. 6.5, 7.3, 7.7, 8.2, 9.0, 10.1, 14.0 (单位,MPa)。检验最大值是否异常值,取检出水平5 %。计算王C4. 7 + s. 4 + 6. o + 6.5 + 7 .3 + 7. 7 + s.z + 9. o + 10 .1 + 14. o) I lo 1. 89 s2=(4.7 8)2+(5.4 8)2+(6.0 8)2+(6.5 8)2+(7.3 8)2+(7.7 8)2+
11、(8.2-8)2 + (9.o- 8)2 + c10.1叩8)2+ (14.0 8 )2-10(8一7.89) 2 /9 = 7 .312 s=Z.704 (计算s时把各观测值减8是为了简化计算)。IO= (哉!川一百)s=(14-7.89)/2.704 =2.260 go二10,Go.阳(10)= 2.176,因GwGo.95(10),判断X(!O户14为异常值。5.3 狄克逊检验法5. 3. 1 单侧情形的检验法a. 对于按大小排列的观测值Xu斥X(2l矶时,计算统计量样本太小检验高端异常值检验低端异常值x x, 口r;, = X(2)- XoJ n. 3 7 口 = x, ,- x,-
12、f = r,Z(2)- Xu n 8 10 )0工xFx, ) 广x,- ) n I 1 13 D= r立,f = r,工x,广x,x, ,- ) x,川”x,_ , x,. n, 14 30 f)=r= J=r,= x, x,) x, Xo b. 确定检lH水平趴在表A3查出对应n,的临界值D1a(n); c. 检验1:王端直时,当DD1a(时,判断矶时为异常值,检验低端值时,当DD1 aC 时,f.lj断X(门为异常俏,否则,判断“没有异常值d. 在给出剔除水、的情况下,在表A3查出对应n,的临界值D1- a C的。检验高端此时,当D-:-,D,a(时,判断X(n)为高度异常,检验低端值时
13、,当DD,a(吟,判断X(I)为“!变异常,否则,判断“没有高度异常的异常值”。5.3.2 J,Y.侧情形的检验法a. l f算D与D的值,这里iD由5.3.l的a给出,b. 确Ii.检出水、卡,在决心f慧出对Ji)Zn,的临界值D1a(川,c. 当lJD,D:D1( n),判断X(川为异常俏,当DD, DI a(的,判断巩l)为异常倍,否则,判断“没有异常值”。d. 在给出剔除水、f2的情况F,在表A3奋出对应n,的I备界值i5,(n)。16 l GB 4883-85 、可)/), DLJ1 a时,判断Z归)为句度异常,当DD, 异常;否则,问断“没街高度异常的异常值”。D1 (吟,判断巩1
14、)为向!芷5.3.3 使用狄克逊检验法的水例射击16发f弹,射程(自小而大排列)分别为1125,1248, 1250, 1259, 1273, 1279, 1285, 1285, 1293, 1300, 1305, 1312, 1315, 1324, 1325, 1350 (单位zm儿a. 检验低端值是否异常值。指定二1Yo 对n= 16,使用D 2= X(3 l Xo l 1250 1125 125 一一一一一一一一一0.6614X(14)- X(l) 1324 1125 189 因!Jo.四(16)=0.595,b. 双侧情形D Do. (16),故判断最小值1125为异常值3对n二16,
15、计算D= 0.6614和26 = = 0.26 100 X(16J X(14) 1350-1324 苟且X( 3) D二r,= 查表A3得Zio.99(16)= 0.621 o 1350- 1250 因r;,r22,r;2 Do.99 (16),故判断最小值1125为异常值。6未知标准差情形下判断和处理异常值的规则II) 一一检出异常值的个数上眼大于10 6. 1 本章给出偏度一峰度检验法和狄克逊检验法的重复使用方法,标准使用者口I根据实际要求注定实施其中一种检验法(参考附录B)o 6.2偏度峰度检验法6. 2. 1 使用条件z考查样本i者观测值,确认它们的样本主体来自正态总体,而极端值应较明
16、显的偏离样本主体。自.2.2单侧情形一一偏度检验法a. b. c 创1)情形,d. 对于观测值坝,X2,毡,计算偏度统计量b,三、丁主问言)3 丁罢x/-3哈x,2+ 2 n (王) 主(X;-z)3/2 f主x,nx 312 确定检出水乎,在表A4查出对应n,的l脑界值b;(吟,对上侧情形,当b,b;。(吟,判断最大值项目)为异常值,否则,判断“没有异常值”。对当b,b1 a(n),判断最小值X(!)泊异常值g否则,判断“没有异常值”。在给出剔除水平的情况下,在表A4查出对应n,的脑界值bia (吟,对上侧情形,当b,b;吟,判断矶时为高度异常,对下侧情形,当b,b1- a (时,判断X(I
17、 ) 为高度异常,否则,判断“没有高度异常的异常值飞6.2.3双侧情形一一峰度检验法a. 对于观测值Xi,码,J;,o计算峰度统计量bk= n f; (x;王)4 n主x,4 x去x/+ 6王2去xi3 nx4 主(x广王) 2 2: x,2-nx叮165 GB 4883 85 b. 确定检出水平品在表5查出对应n,(l;f临界值b(n ) c. 当bkb;-a(n),判断离均值王最码的观测(庭为异常值,当bkb;_ a寸的,判断离均值王最远的观测值为高度异常,否则,判断“没有高度异常的异常值飞6.2.4 重复使用峰度检验法的示例。异常值问题早期研究巾的著名实例(1883年九对观测金星垂直半径
18、的15个观测数据的践差:(单位2秒)。-1.40, -o.44, -o.3o,一0.24,- 0.22, 0.13,一0.05,0.06, 0.10, 0.18, 0.20, 0.3日,0.48, 0.63, l.Olo 要判断1. 40和1.01是否异常。首先考查使用条件,用正态概率纸(用法见国家标准GB488285正态性检验)99. 9!l l 0 01 99 9 0. l 99 l ? + 95 5 90 tO an 20 00000 76543 30 川驯印刷刊以j80 10 90 。95 日9。199 .9 0 01 6晶晶u.o.1.1.o. 2 0 8 。.899.纣9l. 2
19、2 ,F.t楠平fK点在1E态概率纸上的消点,样本主休在图t近以在一条直线近旁,当画出适宜的直线后,样本端戎两端的个别点明显向外偏离,故可用偏度一峰!主t检验法。计算得166 GB 4883 85 Vi 主并买x! x; L Xi I 0.27 l.2545 1.417671 5.17024805 王0.27/15二11.018b k二15L5.17024805 + 4 0.018 1.417671 + 6 (0.018)2 4.2545-45(0.018)1 I 4.2545 -15 (0.018)2 2二79.20879579I18. 05944013三4.3860取5 ,对应临界1在为4
20、.13,因bk = 4. 3860:4.13,判断距离均(li:0.018最远的1.40为异常值。去除r1.40之后,对余下14个值 22 MY】叫XZ MZ门L xt L Xi -1 0.27 4.2545 一1.4176715.17024805 + 1. 40一1.9600 + 2. 7 44000 - 3. 84160000 1. 67 2. 2945 1. 326329 1. 32864805 x=l.67/14二0.1193,再计算b k二141.- 1.32864805- 4 x 0.119鸣1.32强329+6 (0.1193)2x2.z945- 3 14 (0.1193)勺 2
21、.2945一14(0.1193)2 J 2 = 12. 36462926 / 4 . 39025216 = 2. 8164 对5 ?, n = 14。对院临界债约功4.11,而bkr22. 最小值1.40为异常值。除去这个观测伯以外的14个值(n = 14),使用且2Do. 95( I日,故判断22 = 工(14)-X(l2l 1.01 0,48 0.53 一一一= 0.424 1. 25 0.20 一一一0.217 。.92- 2 F2 r X(14) X(3) ,0+0.24 战3)-X(t)0.24+0.44 Xuzi-Xtl) 0,48+0.44 对二50/(, 临界值为Du.ss(1
22、4)二0.586,故不能继续恰出异常值只检出1. 40为异常但lo167 n 90% 95% 97 .5% 3 1.497 l. 738 1. 955 4 l. 696 I. 941 2. 163 5 1 835 2.080 2.304 6 1.93 9 2. 184 2. 408 7 2.022 2. 267 2.490 8 2. 091 2.334 2.557 9 2. 150 2.392 2.613 10 2. 200 2. 44 l 2.662 11 2 .145 2. 48-1 2.704 12 2. 284 2.523 2.742 13 2.320 2.551 2.776 14 2
23、. 352 2. 589 2.806 15 2. 382 2.617 2. 834 16 2 409、2.644 2. 860 17 2. 43 4 2. 668 2. 883 18 2. 458 2. 691 2. 905 19 2. 480 2. 712 2.926 20 2.500 2. 732 2. 945 21 2. 519 2. 750 2.963 22 2. 538 2.768 2. 980 23 2. 555 z. 784 2. 996 24 2.571 2. 8011 3. 011 25 2.587 2.815 3.026 168 GB 488385 附录A统计数值表(参考件
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GB 4883 1985 数据 统计 处理 解释 样本 异常 判断
