GB T 8056-2008 数据的统计处理和解释.指数分布样本离群值的判断和处理.pdf
《GB T 8056-2008 数据的统计处理和解释.指数分布样本离群值的判断和处理.pdf》由会员分享,可在线阅读,更多相关《GB T 8056-2008 数据的统计处理和解释.指数分布样本离群值的判断和处理.pdf(19页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 0312030A 41 a目中华人民共和国国家标准GBT 8056-2008代替GBT 8056 1987数据的统计处理和解释指数分布样本离群值的判断和处理Statistical interpretation of data-Detection and treatment of outliersin the sample from exponential distribution2008-07-16发布 2009-0101实施丰瞀鹃紫黼警矬瞥霎发布中国国家标准化管理委员会及111GBr 8056-2008目 次前言IgI言-1范围-”12规范性引用文件13术语、定义和符号”131术语和
2、定义132符号和缩略语24离群值判断-241离群值的来源与判定242离群值的三种情形-243检出离群值个数的上限244单个离群值情形-245多个离群值情形35离群值处理-351处理方式352处理规则353备案36单个离群值的判断规则361检验统计量的选择362上侧情形的检验规则363下侧情形的检验规则464双侧情形的检验规则57多个离群值的判断规则671检验步骤672多个离群值检验示例78定数截尾样本离群值的判断规则781定数截尾样本782离群值的检验规则783定数截尾样本离群值检验示例8附录A(规范性附录)临界值表9参考文献15前 言GBT 8056-2008本标准代替GBT 8056-19
3、87数据的统计处理和解释 指数样本异常值的判断和处理。本标准与GBT 8056 1987相比较,技术内容的变化主要包括:增加了术语、定义和符号;将“指数样本异常值的判断和处理”改为“指数样本离群值的判断和处理”;将术语“检出异常值”和“高度异常值”分别改为“歧离值”和“统计离群值”,并进一步明确了二者的含义及相互差异;增加了检出水平和剔除水平的定义;检出水平由原标准中“检出水平一般取为1,5或10”改为“除非根据本标准达成协议的各方另有约定,检出水平应为005”;明确规定剔除水平的值除非根据本标准达成协议的各方另有约定,剔除水平应为001;增加了各种情形“统计离群值”的检验步骤;将“没有异常值
4、”和“没有高度异常的异常值”分别改为“未发现离群值”和“未发现统计离群值”;增加了双侧离群值检验、多个离群值检验、定数截尾样本离群值检验的示例。本标准的附录A是规范性附录。本标准由全国统计方法应用标准化技术委员会提出并归口。本标准起草单位:宁波工程学院、中国标准化研究院、北京大学、上海师范大学、福州春伦茶业有限公司。本标准主要起草人:荆广珠、丁文兴、于振凡、梁方楚、孙山泽、费鹤良、傅天龙。本标准所代替标准的历次版本发布情况为:GBT 80561987。GBT 8056-2008引 言从事科学研究、工农业制造以及管理工作都离不开数据,而对这些数据的整理、分析和解释都离不开统计方法。统计学是研究数
5、字资料的整理、分析和正确解释的一门学科。人们各自从不同的来源取得各种数字资料,这些数字资料通常都是杂乱无章的,必须经过整理和简缩才能利用,使用完善的统计方法就可使数据整理、排列的有条有理,用图形或少量的几个重要参数,就可将大量数据的特征表达出来,这样既可避免不正确的解释,又可将获得满意数据的成本降到最低限度,提高了经济效益。数据的统计处理和解释含有多项国家标准,它们是:统计容忍区间的确定(GBT 3359)均值的估计和置信区间(GBT 3360)在成对观测值情形下两个均值的比较(GBT 3361)二项分布参数的估计与检验(GBT 4088)泊松分布参数的估计与检验(GBT 4089)正态性检验
6、(GBT4882)正态样本离群值的判断和处理(GBT 4883)正态分布均值和方差的估计与检验(GBT 4889)正态分布均值和方差检验的功效(G3T 4890)I型极值分布样本离群值的判断和处理(GBT 6380)伽玛分布(皮尔逊型分布)的参数估计(GBT 8055)指数分布样本离群值的判断和处理(GBT 8056)本标准尚无相应的国际标准。数据的统计处理和解释指数分布样本离群值的判断和处理GBT 8056-20081范围本标准规定了判断和处理来自指数分布的样本中离群值的一般原则和实施步骤。本标准适用于来自指数总体的样本。2规范性引用文件下列文件中的条款通过本标准引用成为本标准的条款。凡是注
7、日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版本均不适于本标准。然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注EI期的引用文件,其最新版本适用于本标准。GBT 40864统计分布数值表F分布分位数表ISO 35341统计学词汇及符号第1部分:一般统计术语与用于概率的术语IsO 35342统计学词汇及符号第2部分:应用统计3术语、定义和符号ISO 35341、ISO 35342确立的术语、定义和符号以及下列术语、定义和符号适用于本标准。为便于参考,某些术语直接引自上述标准。31术语和定义311指数分布exponential distribution具
8、有下述分布函数的连续型分布,f1一e-,z0F(z)一100时,检验最大的观测值z c。,是否为离群值时所用的统计量样本量n100时,检验最小的观测值z(1)是否为离群值时所用的统计量定数截尾样本中,判断37m是否为离群值时所用的统计量自由度为V,和m的F分布的P分位数样本量n100时,检验最大的观测值z(。,是否为离群值时所用的统计量样本量n100时,检验最小的观测值zm是否为离群值时所用的统计量检出水平为a时,用统计量t,。作检验时的临界值检出水平为a时,用统计量T。作检验时的临界值4离群值判断41离群值的来源与判定411来源离群值按产生原因分为两类:第一类离群值是总体固有变异性的极端表现
9、,这类离群值与样本中其余观测值属于同一总体;第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果,或产生于观测、记录、计算中的失误,这类离群值与样本中其余观测值不属于同一总体。412判定对离群值的判定通常可根据技术上或物理上的理由直接进行,例如当试验者已经知道试验偏离规定的试验方法,或测试仪器发生问题等。当上述理由不明确时,可用本标准规定的方法。42离群值的三种情形本标准在下述不同情形下判断样本中的离群值:a)上侧情形:根据实际情况或以往经验,离群值都为高端值;b)下侧情形:根据实际情况或以往经验,离群值都为低端值;c)双侧情形:根据实际情况或以往经验,离群值可为高端值,也可为低端值。注
10、:1)上侧情形和下侧情形统称单侧情形;2)若无法认定单侧情形,按双侧情形处理。43检出离群值个数的上限应规定在样本中检出离群值个数的上限(与样本量相比应较小),当检出离群值个数达到了这个上限时,对此样本应作慎重的研究和处理。44单个离群值情形检验规则如下:2GBT 8056-2008a)原假设为所有观测值来自同一总体,依实际情况或以往经验选定42中的一种情形作为备择假设,根据统计学原理选用判断离群值的统计量(见61、82);b)确定适当的显著性水平;c)根据显著性水平及样本量,确定检验的临界值;d) 由观测值计算相应统计量的值,根据所得值与临界值的比较结果作出判断。45多个离群值情形在允许检出
11、离群值的个数大于1的情况下,重复使用44规定的检验规则进行检验,并按下述规则决定检验停止的时机:a)若没有检出离群值,则整个检验停止。b)若检出离群值,当检出的离群值总数达到上限(43)时,检验停止;否则,采用相同的检出水平和相同的规则,对除去已检出的离群值后余下的观测值继续检验。5离群值处理51处理方式处理离群值的方式有:a)保留离群值并用于后续数据处理;b)在找到实际原因时修正离群值,否则予以保留;c)剔除离群值,不追加观测值;d)剔除离群值,并追加新的观测值或用适宜的插补值代替。52处理规则对检出的离群值,应尽可能寻找其技术上和物理上的原因,作为处理离群值的依据。应根据实际问题的性质,权
12、衡寻找和判定产生离群值的原因所需代价、正确判定离群值的得益及错误剔除正常观测值的风险,以确定实施下述三个规则之一:a)若在技术上或物理上找到产生离群值的原因,则应剔除或修正;否则,不得剔除或修正;b)若在技术上或物理上找到产生离群值的原因,则应剔除或修正;否则,保留歧离值,剔除或修正统计离群值。在重复使用同一检验规则检验多个离群值的情形,每次检出离群值后,都要再检验它是否为统计离群值。若某次检出的离群值为统计离群值,则此离群值及在它前面检出的离群值(含歧离值)都应被剔除或修正。c)检出的离群值(含歧离值)都应被剔除或修正。53备案被剔除或修正的观测值及其理由应予记录,以备查询。6单个离群值的判
13、断规则61 检验统计量的选择当样本量n100时,使用统计量L。(或L,)进行检验;当样本量n100时,使用统计量E(或E,)进行检验。62上侧情形的检验规则621样本量n100时的检验当样本量n100时,实施步骤如下:a)计算统计量L。的值:L,。一半 (1)GBT 8056-2008b)确定检出水平n,在附录A的表A1中查出临界值T。(n,n);c)当L。T。(n,n)时,判定z(。,为离群值,否则判未发现z。,是离群值;d)对于检出的离群值z。,确定剔除水平a,在表A1中查出临界值T*(n,n)。当L。T口(n,n)时,判定z。,为统计离群值,否则判未发现z。,是统计离群值(即Jr c。,
14、为歧离值)。622样本量n100时的检验当样本量n100时,实施步骤如下:a)计算统计量E。的值:E。= 譬型鱼兰业l (2)五一z c。,一zc,t1b)确定检出水平a,在F分布的分位数表(见GBT 40864)中查出F,一。(2,2n一2);c) 当E。F-一。(2,2n一2)时,判定z(。,为离群值,否则判未发现z(。)是离群值;d)对于检出的离群值z。确定剔除水平a。,在F分布的分位数表(见GBT 40864)中查出F1一。-(2,2n一2)。当E,。F1。-(2,2n一2)时,判定z。,为统计离群值,否则判未发现z。)是统计离群值(即zm为歧离值)。623上侧情形的检验示例从某种电子
15、产品中随机地取出15个样品,在一定条件下进行寿命试验,其失效时间分别为(单位:kh):0215 0 0389 3 1484 9 1034 9 0298 40600 4 5102 0 01381 1234 9 2318 20489 3 0868 2 0725 4 0066 7 1818 2经验表明这种电子产品的寿命T服从指数分布,并且此处使用者关心的是数据中是否存在上侧离群值,据此,可采用621中的检验方法。本例中,样本量n一15,z)一5102 0,z。一1678,按式(1)计算得Tm一挚一黜扎3040乙五确定检出水平a一005,在表A1中查出临界值To。(15,15)一0334 6,因为T1
16、5。100时的检验当样本量n100时,实施步骤如下:a)计算统计量E。,的值:4GBT 8056-2008E,。;要尘生望坠 。(4)五一rtTc。t=1b)确定检出水平a,在F分布的分位数表中,查出F。(2,2n一2);c) 当E“F。m(2,218),故判未发现轧)一O001 2是统计离群值(即,一0001 2为歧离值)。64双侧情形的检验规则641样本量n100时的检验当样本量n100时,实施步骤如下:a)计算M;exp(一z(1)z)+exp(一z(。)z) (5)b)若M1,按式(1)计算统计量L。的值,并确定检出水平a,在表A1中查出I临界值T,“:(n,n)。当L,。n“:(n,
17、n)时,判定z。,为离群值,否则判未发现z。,是离群值;c)对于检出的离群值z c一确定剔除水平a+,在表A1中查出临界值T。,:(n,”)。当L。T,一。-z(n,n)时,判定z c。,为统计离群值,否则判未发现X c。,是统计离群值(即z(n为歧离值);d)若M1,按式(3)计算统计量L,的值,并确定检出水平a,在表A2中查出临界值t,。(”,1)。当L-100时的检验当样本量n100时,实施步骤如下:a)按式(5)计算M;b)若M1,按式(2)计算统计量E的值,并确定检出水平a,在F分布的分位数表(见GBT 40864)中查出F1“z(2,2n一2)。当E。F-“z(2,2n一2)时,判
18、定z(。)为离群值,否则判未发现z。,是离群值;c)对于检出的离群值z。确定剔除水平a,在F分布的分位数表(见GBT 40864)中查出F1一。-z(2,2n一2)。当EF1一。-,。(2,2n一2)时,判定z。为统计离群值,否则判未发现X。,是统计离群值(即zc。,为歧离值);d)若M1,按式(4)计算统计量E,的值,并确定检出水平a,在F分布的分位数表(见GBT 40864)中查出F口z(2,2n一2)。当E,To。,;(20,20),故判定X(z。)一6602 0为离群值。对于检出的离群值z(一6。602 0,确定剔除水平口。一001,在表A1中查出临界值To。,;(20,20)一o35
19、3 3。因为T2。To。(35,1),故判未发现X(。)一o0021为统计离群值(即z(:)一o0021为歧离值)。因为检出离群值个数已经达到规定的上限2,检验停止。8定数截尾样本离群值的判断规则81定数截尾样本在产品寿命试验中,经常会采用定数截尾寿命试验:取n个产品同时投入试验至第r(rF0 o z(2,10),故判未发现X(1)一o0081是统计离群值(即乩,一0008 1为歧离值)。附录A(规范性附录)临界值表T一(n,一)的临界值表见表A1,L(n,1)的临界值表见表A2。表A1置1叫(n,n)表GBT 8056m2008095 0975 099 o9952 0974 9 O987 4
20、 0995 0997 43 0,870 8 0908 7 o942 5 0959 o4 0768 0 0815 7 0864 0 0892 75 0683 9 o7341 0788 4 o822 76 0616 2 o665 9 0721 6 0758 27 05611 0608 8 0663 9 070118 0515 7 0 561 5 0614 7 0650 89 0 477 6 0520 7 o572 4 0607 610 0 445 0 0486 2 05361 057011l 0416 8 0455 7 0503 7 0536 312 O392 3 0429 3 o474 8 05
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GB 8056 2008 数据 统计 处理 解释 指数分布 样本 离群 判断
