第六章 方差分析.ppt
《第六章 方差分析.ppt》由会员分享,可在线阅读,更多相关《第六章 方差分析.ppt(145页珍藏版)》请在麦多课文档分享上搜索。
1、第六章 方差分析,t检验法适用于样本平均数与总体平均数及两样本平均数间的差异显著性检验, 但在生产和科学研究中经常会遇到比较 多个处理优劣的问题, 即需进行多个平均数间的差异显著性检验。这时,若仍采用t检验法就不适宜了。这是因为:,下一张,主 页,退 出,上一张,1、检验过程烦琐 例如,一试验包含5个处理,采用t检验法要进行 =10次两两平均数的差异显著性检验;若有k个处理,则要作 k(k-1)/2次类似的检验。,下一张,主 页,退 出,上一张,2、无统一的试验误差,误差估计的精确性和检验的灵敏性低 对同一试验的多个处理进行比较时,应该有一个统一的试验误差的估计值。若用 t 检验法作两两比较,
2、由于每次比较需计算一个 ,故使得各次比较误差的估计不统一,同时没有充分利用资料所提供的信息而使误差估计的精确性降低,从而降低检验的灵敏性。,下一张,主 页,退 出,上一张,例如,试验有5个处理 ,每个处理 重复 6次,共有30个观测值。进行t检验时,每次只能利用两个处理共12个观测值估计试验误差 ,误差自由度为 2(6-1)=10 ;若利用整个试验的30个观测值估计试验误差 ,显然估计的精确性高,且误差自由度为5(6-1)=25。可见,在用t检法进行检验时 ,由 于估计误差的精确性低,误差自由度小,使检验的灵敏性降低,容易掩盖差异的显著性。,下一张,主 页,退 出,上一张,3、推断的可靠性低,
3、检验的 I 型错误率大 即使利用资料所提供的全部信息估计了试验误差,若用t 检验法进行多个处理平均数间的差异显著性检验,由于没有考虑相互比较的两个平均数的秩次问题 ,因 而 会增大犯 I型错误的概率,降低推断的可靠性。 由于上述原因,多个平均数的差异显著性检验不宜用 t 检验,须采用方差分析法。方差分析 (analysis of variance) 是由英国统计学家R.A.Fisher于1923年提出的。,这种方法是将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应于不同变异来源的平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差的估计值的适当比
4、值,就能检验各样本所属总体平均数是否相等。“ 方差分析法是一种在若干能相互比较的资料组中,把产生变异的原因加以区分开来的方法与技术” ,方差分析实质上是关于观测值变异原因的数量分析。,下一张,主 页,退 出,上一张,几个常用术语:1、试验指标(experimental index) 为 衡 量 试 验结果的好坏或处理效应的高低 ,在试验中具体测定的性状或观测的项目称为试验指标。由于试验目的不同 ,选择的试验指标也不相同。在畜禽 、水产试验中常用的试验指标有 :日增重 、产仔数 、产奶量 、产蛋率、瘦肉率、某些生理生化和体型指标(如血糖含量、体高、体重)等。,下一张,主 页,退 出,上一张,2、
5、试验因素(experimental factor) 试验中所研究的影响试验指标的因素叫试验因素。如研究如何提高猪的日增重时,饲料的配方、猪的品种、饲养方式、环境温湿度等都对日增重有影响,均可作为试验因素来考虑。当试验中考察的因素只有一个时,称为单因素试验;若同时研究两个或两个以上的因素对试验指标的影响时,则称为两因素或多因素试验。试验因素常用大写字母A、B、C、等表示。,下一张,主 页,退 出,上一张,3、因素水平(level of factor) 试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。如比较3个品种奶牛产奶量的高低,这3个品种就是奶牛品种这个试验因素的3个水平;研究某种
6、饲料中4种不同能量水平对肥育猪瘦肉率的影响,这4种特定的能量水平就是饲料能量这一试验因素的4个水平。,下一张,主 页,退 出,上一张,因素水平用代表该因素的字母加添足标1,2, , 来表示。如 A1 、 A2 、 , B1 、B2、,等。4、试验处理(treatment) 事先设计好的实施在试验单位上的具体项目叫试验处理,简称处理。在单因素试验中,实施在试验单位上的具体项目就是试验因素的某一水平。例如进行饲料的比较试验时,实施在试验单位(某种畜禽)上的具体项目就是喂饲某一种饲料。所以进行单因素试验时,试验因素的一个水平就是一个处理。,下一张,主 页,退 出,上一张,在多因素试验中,实施在试验单
7、位上的具体项目是各因素的某一水平组合。例如进行3种饲料和3个品种对猪日增重影响的两因素试验,整个试验共有33=9个水平组合,实施在试验单位(试验猪)上的具体项目就是某品种与某种饲料的结合。所以,在多因素试验时,试验因素的一个水平组合就是一个处理。,下一张,主 页,退 出,上一张,5、试验单位(experimental unit) 在试验中能接受不同试验处理的独立的试验载体叫试验单位。在畜禽、水产试验中, 一只家禽、 一头家畜、一只小白鼠、一尾鱼,即一个动物;或几只家禽、几头家畜、几只小白鼠、几尾鱼,即一组动物都可作为试验单位。试验单位往往也是观测数据的单位。,下一张,主 页,退 出,上一张,6
8、、重复(repetition) 在试验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。例如,用某种饲料喂4头猪,就说这个处理(饲料)有4次重复。,下一张,主 页,退 出,上一张,第一节 方差分析的基本原理与步骤,本节结合单因素试验结果的方差分析介绍其原理与步骤。 一、线性模型与基本假定假设某单因素试验有k个处理,每个处理有n次重复,共有nk个观测值。这类试验资料的数据模式如表6-1所示。,下一张,主 页,退 出,上一张,表6-1 k个处理每个处理有n个观测值的数据模式,下一张,主 页,退 出,上一张,表中 表示第i个处理的第j个观测值 (
9、i=1,2,k;j=1,2,n);表示第i个处理n个观测值的和; 表示全部观测值的总和;表示第i个处理的平均数;表示全部观测值的总平均数;可以分解为,下一张,主 页,退 出,上一张,(6-1)表示第i个处理观测值总体的平均数。 为了看出各处理的影响大小,将 再进行分解,令 (6-2)(6-3) 则(6-4)其中 表示全试验观测值总体的平均数;,下一张,主 页,退 出,上一张,ai 是 第 i 个 处理的效应 (treatment effects)表示处理i对试验结果产生的影响。显然有(6-5)ij是试验误差,相互独立,且服从 正态分布N(0,2)。 (6-4)式叫做 单因素试验 的 线 性 模
10、 型(linear model)亦称数学模型。 在这个模型中Xii表示为总平均数、处理效应i、试验误差ij之和。,下一张,主 页,退 出,上一张,由ij 相 互独立且服从正态分布 N(0,2),可知各处理Ai(i=1,2,k)所属总体亦应具正态性,即服从正态分布N(i,2)。尽管各总体的均数 可以不等或相等,2则必须是相等的。所以,单因素试验的数学模型可归纳为:效 应 的 可 加 性 (additivity)、分布的正态性(normality)、方差的同质性(homogeneity)。这也是进行其它类型方差分析的前提或基本假定。,下一张,主 页,退 出,上一张,若 将 表 (6-1) 中 的
11、观 测 值 xij(i=1,2,k;j=1,2,n)的数据结构(模型)用样本符号来表示,则(6-6)与(6-4)式比较可知, 分 别是、(i-)= 、 (xij- ) = 的估计值。,下一张,主 页,退 出,上一张,(6-4)、(6-6)两式告诉我们:每 个 观 测 值 都包含处理效应(i-或 ),与误差( 或 ),故kn个观测值的总变异可分解为处理间的变异和处理内的变异两部分。,二、平方和与自由度的剖分在方差分析中是用样本方差即均方(mean squares)来度量资料的变异程度的。表6-1中全部观测值的总变异可以用总均方来度量。将总变异分解为处理间变异和处理内变异,就是要将 总 均方 分解
12、为处理间均方和处理内均方。但这种分解是通过将总均方的分子称为总离均差平方和,简称为总平方和,剖分成处理间平方和与处理内平方和两部分;将总均方的分母称为总自由度,剖分成处理间自由度与处理内自由度两部分来实现的。,下一张,主 页,退 出,上一张,(一)总平方和的剖分 在表6-1中,反映 全部观测值总变异的总平方和是各观测值xij与总平均数的离均差平方和,记为SST。即,下一张,主 页,退 出,上一张,因为,其中 所以 (6-7) (6-7)式中, 为各处理平均数与总平均数的离均差平方和与重复数n的乘积 ,反映了重复 n 次的处理间变异 ,称为处理间平方和,记为SSt,即,下一张,主 页,退 出,上
13、一张,(6-7)式中, 为 各处 理内离均差平方和之和,反映了各处理内的变异即误差,称为处理内平方和或误差平方和,记为SSe,即于是有SST =SSt+SSe (6-8)这个关系式中三种平方和的简便计算公式如下:,下一张,主 页,退 出,上一张,(6-9)其中,C= /kn称为矫正数。 (二)总自由度的剖分 在计算总平方和时,资料中的各个观测值要受 这一条件的约束,故总自由度等于资料中观测值的总个数减1,即kn-1。总自由度记为dfT,即dfT=kn-1。,下一张,主 页,退 出,上一张,在计算处理间平方和时,各处理均数 要受 这一条件的约束,故处理间自由度为处理数减1,即k-1。处理间自由度
14、记为dft,即dft=k-1。在计算处理内平方和时,要受k个条件的约束,即 (i=1,2,k。故处理内自由度为资料中观测值的总个数减k,即kn-k 。处理内自由度记为dfe,即dfe=kn-k=k(n-1)。,下一张,主 页,退 出,上一张,因为所以 (6-10)综合以上各式得: (6-11),下一张,主 页,退 出,上一张,各部分平方和除以各自的自由度便得到总均方、处理间均方和处理内均方, 分别记为 MST(或 )、MSt(或 )和MSe(或 )。即(6-12)总均方一般不等于处理间均方加处理内均方。,下一张,主 页,退 出,上一张,【例6.1】 某水产研究所为了比较四种不同配合饲料对鱼的饲
15、喂效果,选取了条件基本相同的鱼20尾,随机分成四组,投喂不同饲料,经一个月试验以后,各组鱼的增重结果列于下表。,下一张,主 页,退 出,上一张,表6-2 饲喂不同饲料的鱼的增重(单位:10g),下一张,主 页,退 出,上一张,这是一个单因素试验,处理数k=4,重复数n=5。各项平方和及自由度计算如下:矫正数 总平方和,下一张,主 页,退 出,上一张,处理间平方和,处理内平方和,总自由度 处理间自由度 处理内自由度 用SSt、SSe分别除以dft和dfe便得到处理间均方MSt及处理内均方MSe。因为方差分析中不涉及总均方的数值,所以不必计算之。,下一张,主 页,退 出,上一张,三、期望均方如前所
16、述,方差分析的一个基本假定是要求各 处 理 观 测 值 总 体 的 方 差 相 等 , 即 (i=1,2,k)表示第i个处理观测值总体的方差。如果所分析的资料满足这个方差同质性的要求,那么各处理的样本方差S21 , S22 , ,S2k 都 是 2 的 无 偏 估 计(unbiased estimate)量。S2i(i=1,2,k) 是由试验资料中第i个处理的n个观测值算得的方差。,下一张,主 页,退 出,上一张,显然,各S2i的合并方差 (以各处理内的自由度n-1为权的加权平均数)也是2的无偏估计量,且估计的精确度更高。很容易推证处理内均方MSe就是各 的合并。,下一张,主 页,退 出,上一
17、张,其中SSi、dfi(i=1,2,k)分别表示由试验资料中第i个 处理的n个观测值算得的平方和与自由度。这就是说,处理内均方MSe是误差方差2的无偏估计量。试验中各处理所属总体的本质差异体现在处理效应 的差异上。我们把 称为效应方差,它也反映了各处理观测值总体平均数 的变异程度,记为 。,下一张,主 页,退 出,上一张,(6-13)因为各i未知,所以无法求得 的 确切值,只能通过试验结果中各处理均数的差异去估计。然而,并非 的无偏估计量。这是因为处理观测值的均数间的差异实际上包含了两方面的内容: 一 是各处理本质上的差异即i(或i)间的差异,二 是本身的抽样误差。统计学上已经证明 , 是 +
18、2/n的无偏估计量。因而,我们前面所计算的处理间均方MSt实际上是n +2的无偏估计量。,下一张,主 页,退 出,上一张,因为MSe是2的无偏估计量,MSt是n +2的无偏估计量,所以2为MSe的数学期望(mathematical expectation),n +2为MSt的数学期望。又因为它们是均方的期望值(expected value), 故 又 称 期 望 均 方 , 简 记 为 EMS (expected mean squares)。当处理效应的方差 =0,亦即各处理观测值总体平均数 (i=1,2,,k)相等时, 处理间均方MSt与处理内均方一样,也是误差方差2的估计值,方差分析就是通
19、过 MSt 与MSe的比较来推断 是否为零即 是否相等的。,下一张,主 页,退 出,上一张,四、F分布与F检验(一)F分布 设想我们作这样的抽样试验,即在一正态总体N(,2)中随机抽取样本含量为n的样本k个,将 各 样本观测值整理成 表6-1 的形式。此时所谓的各处理没有真实差异,各处理只是随机分的组。因此,由(6-12)式算出的和 都是误差方差 的估计量。以 为分母, 为分子,求其比值。统计学上把两个均方之比值称为F值。即,下一张,主 页,退 出,上一张,(6-14) F具有两个自由度: 若在给定的k和n的条件下, 继续从该总体进行一系列抽样,则可获得一系列的F值。这些F值 所 具 有 的
20、概 率 分 布 称 为 F 分 布 ( F distribution)。F 分 布密度曲线是随自由度df1、df2的变化而变化的一簇偏态曲线,其形态随着df1、df2的增大逐渐趋于对称,如图6-1所示。,下一张,主 页,退 出,上一张,F分布的取值范围是(0,+),其平均值 =1。 用 表示F分布的概率密度函数,则其分布函数 为:(6-15) 因而F分布右尾从 到+的概率为:(6-16),下一张,主 页,退 出,上一张,附 表 4 列 出 的 是 不 同 df1 和 df2 下 , P(F )=0.05和P(F )=0.01时的F值,即右尾概率=0.05和=0.01时的临界F值,一般记作 ,
21、。,下一张,主 页,退 出,上一张,(二)F检验附表4是专门为检验 代表的总体方差是否比 代表的总体方差大而设计的。若实际计算的F值大于 ,则 F 值在=0.05的水平上显著,我们以95% 的 可靠性(即冒5%的风险)推断 代 表 的总体方差大于 代表的总体方差。这种用F值出现概率的大小推断两个总体方差是否相等的方法称为 F检验(F-test)。,下一张,主 页,退 出,上一张,在方差分析中所进行的F 检验目的在于推断处理间的差异是否存在,检验某项变异因素的效应方差是否为零。因此,在计算F 值时总是以被检验因素的均方作分子,以误差均方作分母。应当注意,分母项的正确选择是由方差分析的模型和各项变
22、异原因的期望均方决定的。,下一张,主 页,退 出,上一张,在单因素试验结果的方差分析中,无效假设为H0:1=2=k,备择假设为 HA:各 i不全相等,或H0 : =0,HA: 0;F=MSt/MSe,也就是要判断处理间均方是否显著大于处理内(误差)均方。 如果结论是肯定的,我们将否定H0;反之,不否定H0。,下一张,主 页,退 出,上一张,反过来理解:如果H0是正确的,那么MSt与MSe都是总体误差2的估计值,理论上讲F值等于1;如果H0是不正确的,那么 MSt之期望均方中的就不等于零,理论上讲 F 值就必大于1。但是由于抽样的原因,即使H0正确,F值也会出现大于1的情况。所以,只有F值大于1
23、达到一定程度时,才有理由否定H0。,下一张,主 页,退 出,上一张,实际进行F检验时 ,是将由试验资料所算得的F值与根据df1=dft (大均方 ,即分子均方的自由度)、df2=dfe(小均方,即分母均方的自由度)查附表4所得的临界F值 , 相比较作出统计推断的。若F ,即P0.05, 不 能 否定H0,统计学上,把这一检验结果表述为:各处理间差异不显著,在F值的右上方标记“ns”,或 不标记符号;,若 F , 即 0.01P0.05,否定H0,接受HA, 统计学上,把这一检验结果表述为:各处理间差异显著,在F值的右上方标记“*”;若F ,即P0.01,否定H0,接受HA,统计学上,把这一检验
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 方差分析 PPT
