GB T 4883-2008 数据的统计处理和解释.正态样本离群值的判断和处理.pdf
《GB T 4883-2008 数据的统计处理和解释.正态样本离群值的判断和处理.pdf》由会员分享,可在线阅读,更多相关《GB T 4883-2008 数据的统计处理和解释.正态样本离群值的判断和处理.pdf(26页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 0312030A 41 雷雪中华人民共和国国家标准GBT 4883-2008代替GBT 4883-1985数据的统计处理和解释正态样本离群值的判断和处理Statistical interpretation of dataDetection and treatment of outliers in the normal sample2008-07-16发布 2009-0卜01实施宰瞀髁鬻瓣訾矬瞥星发布中国国家标准化管理委员会及111前言引言1范围一2规范性引用文件3术语、定义和符号”31术语和定义3。2符号和缩略语一4离群值判断一41来源与判断目 次42离群值的三种情形-43检出离群值个
2、数的上限44单个离群值情形45判定多个离群值的检验规则5离群值处理51处理方式52处理规则-53备案-6已知标准差情形离群值的判断规则-61一般原则62离群值的判断规则621上侧情形622下侧情形623双侧情形63使用奈尔(Nair)检验法的示例7未知标准差情形离群值的判断规则(限定检出离群值的个数不超过1时)一71一般原则72格拉布斯(Grubbs)检验法-721上侧情形-t722下侧情形-723双侧情形-724使用格拉布斯(Grubbs)检验法的示例-73狄克逊(Dixon)检验法731单侧情形732双侧情形-733使用狄克逊(Dixon)检验法的示例8未知标准差情形离群值的判断规则(限定
3、检出离群值的个数大于1时)81一般原则-82偏度一峰度检验法GBT 4883-2008Vl11112222222233333333444444555566666GBT 4883-2008821使用条件822单侧情形偏度检验法823双侧情形峰度检验法824重复使用峰度检验法的示例83狄克逊(Dixon)检验法-831狄克逊(Dixon)检验法的规则832重复使用狄克逊(Dixon)检验法的示例一附录A(规范性附录) 统计数值表附录B(资料性附录)选择离群值判断方法和处理规则的指南-B1判定和处理离群值的目的-B2对各种检验法的选择B3重视检出的离群值给出的信息附录c(资料性附录) 当n30时的狄
4、克逊(Dixon)检验参考文献-6-7-778-8-8-1015-15151617-21前 言GBT 4883-2008本标准代替GBT 4883-1985。本标准与GBT 4883-1985相比较,技术内容的变化主要包括:增加了术语、定义和符号一章;将“正态样本异常值的判断和处理”改为“正态样本离群值的判断和处理”;将术语“检出异常值”和“高度异常值”分别改为“歧离值”和“统计离群值”,并进一步明确了二者的含义及相互差异;增加了检出水平和剔除水平的定义;检出水平由原标准中“检出水平a一般取为1,5或10”改为“除非根据本标准达成协议的各方另有约定外,a值应为005”;明确规定剔除水平a。为“
5、除非根据本标准达成协议的各方另有约定外,a值应为001”;增加了各种情形“统计离群值”的检验步骤;将“没有异常值”和“没有高度异常的离群值”分别改为“未发现离群值”和“未发现统计离群值”;增加了奈尔(Nair)统计量、格拉布斯(Grubbs)统计量、狄克逊(Dixon)统计量、偏度统计量、峰度统计量的符号作狄克逊(Dixon)检验时,将样本量由30扩充到100,此内容作为附录c。本标准的附录A为规范性附录,附录B和附录C为资料性附录。本标准由中国标准化研究院提出。本标准由全国统计方法应用标准化技术委员会归口。本标准起草单位:中国标准化研究院、中国科学院数学与系统科学研究院、宁渡工程学院、北京大
6、学、无锡市产品质量监督检验所、北京师范大学。本标准主要起草人:于振凡、丁文兴、陈敏、荆广珠、房祥忠、吴建国、崔恒建、陈玉忠。本标准所代替标准的历次版本的发布情况为:GBT 48831985皿GBT 4883-2008引 言从事科学研究、工农业制造以及管理工作都离不开数据,而对这些数据的整理、分析和解释都离不开统计方法。统计学是研究数字资料的整理、分析和正确解释的一门学科。人们各自从不同的来源取得各种数字资料,这些数字资料通常都是杂乱无章的,必须经过整理和简缩才能利用,使用完善的统计方法就可使数据整理、排列的有条有理,用图形或少量的几个重要参数,就可把一大堆数据的特征表达出来,这样既可避免不正确
7、的解释,又可将获得满意数据的成本降到最低限度,提高了经济效益。数据的统计处理和解释含有多项国家标准,它们是:统计容忍区间的确定(GBT 3359)均值的估计和置信区间(GBT 3360)在成对观测值情形下两个均值的比较(GBT 3361)二项分布参数的估计与检验(GBT 4088)泊松分布参数的估计与检验(GBT 4089)正态性检验(GBT 4882)正态样本离群值的判断和处理(GBT 4883)正态分布均值和方差的估计与检验(GBT 4889)正态分布均值和方差检验的功效(GBT 4890)I型极值分布样本离群值的判断和处理(GBT 6380)伽玛分布(皮尔逊型分布)的参数估计(GBT 8
8、055)指数分布样本离群值的判断和处理(GBT 8056)对于数据的统计处理和解释正态样本离群值的判断和处理尚无相应的国际标准,但在一些关于测量的国际标准和技术文件中(例如:ISO 5725(测量方法与结果的准确度、ISO导则98用蒙特卡罗方法评定不确定度)都采用了本标准中规定的一些正态样本离群值的判断和处理的方法。数据的统计处理和解释正态样本离群值的判断和处理1范围本标准适用于来自正态分布的样本中离群值的判断和处理。2规范性引用文件GBT 4883-2008下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准
9、,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注El期的引用文件,其最新版本适用于本标准。GBT 4882 2001数据的统计处理和解释正态性检验GBT 19000 2000质量管理体系 基础和术语ISO 3534一I:2006统计学词汇及符号第l部分:一般统计术语与用于概率的术语IsO 35342:2006统计学词汇及符号第2部分:应用统计3术语、定义和符号ISO 3534一l:2006、ISO 35342:2006和GBT 19000 2000确定的术语和定义以及下列术语、定义和符号适用于本标准。为便于参考,某些术语直接引自上述标准。3I术语和定义311离群值
10、outlier样本中的一个或几个观测值,它们离开其他观测值较远,暗示它们可能来自不同的总体。注:离群值按显著性的程度分为歧离值和统计离群值。312统计离群值statistical outlier在剔除水平下统计检验为显著的离群值。313歧离值straggler在检出水平(314)下显著,但在剔除水平(315)下不显著的离群值。314检出水平detection level为检出离群值而指定的统计检验的显著性水平。注:除非根据本标准达成协议的各方另有约定,a值应为005。315剔除水平deletion level为检出离群值是否高度离群而指定的统计检验的显著性水平。注:剔除水平a的值应不超过检出水
11、平a的值。除非根据本标准达成协议的各方另有约定,a。值应为001。32符号和缩略语n样本量(观测值个数)f样本均值a检验离群值所使用的显著性水平,简称检出水平1GBT 4883-2008a。 检验统计离群值所使用的显著性水平,简称剔除水平(a+R。(n)时,判定X。,为离群值,否则判未发现z。,是离群值;对于检出的离群值,确定剔除水平n。,在表A1中查出临界值R一(n)。当R。R10(n)时,判定z。,为统计离群值,否则判未发现Xc。,是统计离群值(即z c。,为歧离值)。下侧情形计算出统计量R:的值:R2一(卫一z(1)o其中a是已知的总体标准差,f是样本均值;确定检出水平a,在表A1中查出
12、临界值R一(n);当R:R。(n)时,判定z。为离群值,否则判未发现,是离群值;对于检出的离群值X。,确定剔除水平a,在表A1中查出临界值R,。-(n)。当R:Ri_a-(n)时,判定z。为统计离群值,否则判未发现z。是统计离群值(即Xm为歧离值)。双侧情形计算出统计量R。与R:的值;确定检出水平a,在表A1中查出临界值R,一“z(”);当R。R:,且R。R1一“z(n)时,判定最大值X(。,为离群值;当R:R。,且R:R,一“z(n)时,判定最小值知,为离群值;否则判未发现离群值;当R。一R:时,同时对最大值和最小值进行检验;3GBlr 4883-2008d)对于检出的离群值z“)或37(。
13、确定剔除水平a,在表A1中查出临界值R,z(n),当R:R。o,:(n)时,判定5c。为统计离群值,否则判未发现z。,是统计离群值(即,27c-,为歧离值);当R。R,一。,2(n)时,判定z。,为统计离群值,否则判未发现77c。)是统计离群值(即zt。,为歧离值)。63使用奈尔(Nair)检验法的示例对某种化纤的纤维干收缩率测试25个样品,其数据经排列后为(单位):313 3 49 401 448 461 476 498 525 532 539 542 557 559559 563 563 565 566 567 569 571 6oo 603 612 676经验表明这种化纤的纤维干收缩率服
14、从正态分布,已知口一065,检查这些数据中是否存在下侧离群值。规定至多检出三个离群值,采用52中b)的处理方式。1)确定检出水平口一005,对25个样品,经计算得j一5285 6,R,25一(王一如)加一(5285 6313)0653316。在表A1中查出临界值R。(25)一2815,因R:Rs(25),故判定zm一313是离群值。对于检出的离群值,一313,确定剔除水平a。一001,在表A1中查出临界值R。,(25)一3284,因R:R。,(25),故判定z(1)一313是统计离群值。2)取出观测值为313的数据后,在余下的24个观测值中计算均值夏一5375,这时最小值为z(z)一349,计
15、算得R么一(5375349)065290。在表A1中查出临界值Rs(24)一28,因R:。R。(24),故判定zG1一。(n)时,判定z(。,为离群值,否则判未发现z(。,是离群值;对于检出的离群值,确定剔除水平a+,在表久2中查出临界值G10(n)。当GG1。-(n)时,判定z c。,为统计离群值,否则判未发现z c。,是统计离群值(即z c。,为歧离值)。下侧情形计算出统计量G:的值:GBT 4883-2008s一击塞ct其中i和s是样本均值和样本标准差;b) 确定检出水平a,在表A2中查出临界值G。(n);c) 当G:G一(n)时,判定如,为离群值,否则判未发现,是离群值;d)对于检出的
16、离群值z(1),确定剔除水平a。,在表A 2中查出临界值G1一。-(n)。当G1一。(n)时,判定即,为统计离群值,否则判未发现Xm是统计离群值(即黝,为歧离值)。723双侧情形a)计算出统计量G和G:的值。b)确定检出水平a,在表A2中查出临界值G。(n)。c)当GG:且G。G。“z(n),判定X(。)为离群值;当G:G。且G:G一z(n),判定X(1)为离群值;否则判未发现离群值。当G:一G时,应重新考虑限定检出离群值的个数。d)对于检出的离群值知,或z(一确定剔除水平a,在表A2中查出临界值G,。(n),当G:G。2(n)时,判定知,为统计离群值,否则判未发现翮,是统计离群值(即X(1)
17、为歧离值);当GG。z(n)时,判定Xc。,为统计离群值,否则判未发现z(。,是统计离群值(即zc。,为歧离值)。724使用格拉布斯(Grubbs)检验法的示例对某种砖的抗压强度测试10个样品,其数据经排列后为(单位:MPa):47,54,60,65,73,77,82,90,101,140经验表明这种砖的抗压强度服从正态分布,检查这些数据中是否存在上侧离群值。本例中,样本量n一10,z一789,s27312,s一2704。计算得:G。一(z(Io)一j)s一(14789)27042260确定检出水平d一005,在表A2中查出临界值G。(10)一2176,因G。Go,。(10),判定翮。)一14
18、O为离群值。对于检出的离群值Xc-。,一140,确定剔除水平a。一001,在表A2中查出I临界值G。(10)一2410,因G。D。(n)时,判定z。)为离群值;检验低端值,当D:D。(n)时,判定z(为离群值;否则判未发现离群值。5GBT 4883-2008732a)b)c)d)对于检出的离群值X。或Xc一确定剔除水平n+,在表A3中查出临界值D-一。(n)。检验高端值,当D。D,(n)时,判定z()为统计离群值,否则判未发现Xc。,是统计离群值(即z cm为歧离值);检验低端值,当D:D。(n)时,判定z(1)为统计离群值,否则判未发现z。是统计离群值(即X。为歧离值)。双侧情形计算出统计量
19、D。与D:的值,这里D。与D:由731的a)给出;确定检出水平a,在表A3中查出临界值D,一。(n);当D。D:,D。D,一。(n)时,判定zcm为离群值;当D:D。,D:D。一。(n)时,判定z(1)为离群值;否则判未发现离群值;对于检出的离群值,或z c一确定剔除水平n。,在表A3中查出临界值D一(n)。当D,D:且D。D一(n)时,判定z(。)为统计离群值,否则判未发现z(。,是统计离群值(即X c。,为歧离值);当D:D。且D:D。(n)时,判定z。为统计离群值,否则判未发现z(1)是统计离群值(即z。为歧离值)。733使用狄克逊(Dixon)检验法的示例射击16发子弹,射程数据经排列
20、后为(单位:m)1 1251 2931 2481 3001 2501 305l 2591 3121 2731 3151 2791 3241 2851 3251 2851 350经验表明子弹射程服从正态分布,根据实际中的关注不同,分别对低端值和高端值进行检验。a)检验低端值2。一1 125是否为离群值本例中,样本量n一16,计算 D,6一r:一怒一篙蓦篙一鬟一oeetu,srzz一磊iii一订瓦而一面=obb上4确定检出水平a一005,在表A3中查出i临界值D。(16)一0505,因Dl。D。5(16),故判定最小值zm一1 125为离群值。对于检出的离群值z(1,一1 125,确定剔除水平a一
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GB 4883 2008 数据 统计 处理 解释 样本 离群 判断
