第五章 回归分析方法.ppt
《第五章 回归分析方法.ppt》由会员分享,可在线阅读,更多相关《第五章 回归分析方法.ppt(143页珍藏版)》请在麦多课文档分享上搜索。
1、优化试验设计与数据分析,第五章 回归分析方法,本章主要内容 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。 多元线性回归方程建立、显著性检验、偏回归平方和。 回归分析法在试验设计中的作用和地位。 正交多项式回归设计及回归方程的建立。,5.1 一元线性回归,5.1.1 引言,变量之间的关系,确定关系,相关关系,确定性关系,身高和体重,相关关系,相关关系的特征是: 变量之间的关系很难用一 种精确的方法表示出来.,十九世纪,英国生物学家兼统计学家高尔顿研究发现: 其中x表示父亲身高, y 表示成年儿子的身高(单位:英寸,1英寸=2.54厘米)。这表明子代的平均高度有向中心回
2、归的意思,使得一段时间内人的身高相对稳定。之后回归分析的思想渗透到了数理统计的其它分支中。,回归分析便是研究变量间相关关系的一门学科。它通过对客观事物中变量的大量观察或试验获得的数据,去寻找隐藏在数据背后的相关关系,给出它们的表达形式回归函数的估计。,变量间的相关关系不能用完全确切的函数形式表示,但在平均意义下有一定的定量关系表达式,寻找这种定量关系表达式就是回归分析的主要任务。,回归分析处理的是变量与变量间的关系。变量间常见的关系有两类:确定性关系与相关关系。,根据相关关系的程度划分 1、不相关。如果变量间彼此的数量变化互相独立,则其关系为不相关。自变量x变动时,因变量y的数值不随之相应变动
3、。例如,产品税额的多少与工人的出勤率、家庭收入多少与孩子的多少之间都不存在相关关系。 2、完全相关。如果一个变量的变化是由其他变量的数量变化所唯一确定,此时变量间的关系称为完全相关。即因变量y的数值完全随自变量x的变动而变动,它在相关图上表现为所有的观察点都落在同一条直线上,这种情况下,相关关系实际上是函数关系。所以,函数关系是相关关系的一种特殊情况。 3、不完全相关。如果变量间的关系介于不相关和完全相关之间,则称为不完全相关。如妇女的结婚年龄与受教育程度之间的一种关系。 大多数相关关系属于不完全相关,是统计研究的主要对象,回归分析所能解决的问题 回归分析主要解决以下几方面的问题: (1)确定
4、几个特定变量之间是否存在相关关系,如果存在的话,找出她们之间合适的数学表达式 (2)根据一个或几个变量的值,预报或控制另一个变量的取值,并且要知道这种预报或控制的精确度 (3)进行因素分析,确定因素的主次以及因素之间的相互关系等等,一元线性回归分析,只要解决: (1)求变量x与y之间的回归直线方程 (2)判断变量x和y之间是否确为线性关系 (3)根据一个变量的值,预测或控制另一变量的取值,案例,某钢厂生产的某种合金钢有两个重要的质量指标:抗拉强度(kg/mm2)和延伸率(%)。 该合金钢的质量标准要求:抗拉强度应大于32kg/mm2;延伸率应大于33%。 根据冶金学的专业知识和实践经验,该合金
5、钢的含碳量是影响抗拉强度和延伸率的主要因素。其中含碳量高,则抗拉强度也就会相应提高,但与此同时延伸率则会降低。 为降低生产成本,提高产品质量和竞争能力,该厂质量控制部门要求该种合金钢产品的上述两项质量指标的合格率都应达到99%以上。,如何制订含碳量的控制标准?,为达到以上质量控制要求,就需要制定该合金钢冶炼中含碳量的工艺控制标准,也即要确定在冶炼中应将含碳量控制在什么范围内,可以有99%的把握使抗拉强度和延伸率这两项指标都达到要求。 这是一个典型的产品质量控制问题,可以使用回归分析方法求解。,5.1.2 一元线性回归方程的确定,例1 合金的强度y (107Pa) 与合金中碳的含量x (%) 有
6、关。为研究两个变量间的关系。首先是收集数据,我们把收集到的数据记为(xi,yi),i=1,2,n。本例中,我们收集到12组数据,列于表中,进行回归分析首先是回归函数形式的选择。 当只有一个自变量时,通常可采用画散点图 的方法进行选择。,表1 合金钢强度y与碳含量x的数据,为找出两个量间存在的回归函数的形式,可以画一张图:把每一对数(xi,yi)看成直角坐标系中的一个点,在图上画出n个点,称这张图为散点图,见图。,从散点图我们发现12个点基本在一条直线附近,这说明两个变量之间有一个线性相关关系,这个相关关系可以表示为y = 0+ 1x + (1)这便是y关于x的一元线性回归的数据结构式。通常假定
7、E() =0, Var() = 2 (2)在对未知参数作区间估计或假设检验时,还需要假定误差服从正态分布,即y N(0+ 1x, 2 ) (3)显然,假定(3) 比 (2) 要强。,由于0, 1均未知,需要我们从收集到的数据(xi,yi),i=1,2,n,出发进行估计。在收集数据时,我们一般要求观察独立地进行,即假定y1, y2, yn,相互独立。综合上述诸项假定,我们可以给出最简单、常用的一元线性回归的数学模型:(4),由数据(xi,yi),i=1,2,n,可以获得0, 1的估计 ,称(5)为y关于x的经验回归函数,简称为回归方程,其图形称为回归直线。给定x=x0后,称 为回归值(在不同场合
8、也称其为拟合值、预测值)。,回归系数的最小二乘估计,一般采用最小二乘方法估计模型中的0, 1 :令:应该满足称这样得到的 称为0, 1的最小二乘估计,记为LSE (Least Squares Estimation)。,最小二乘估计可以通过求偏导数并命其为0而得到:(6)这组方程称为正规方程组,经过整理,可得(7),解(7)可得(8) 这就是参数的最小二乘估计,其中,由此给出回归方程为:,使用例中合金钢强度和碳含量数据,我们可求得回归方程,见下表,说明,分别是0,1的无偏估计;,是E(y0)=0+ 1 x0的无偏估计;,除 外, 与 是相关的;,要提高 的估计精度(即降低它们的方差)就要求n大,
9、lxx大(即要求x1, x2, xn较分散)。,Regression Analysis: y versus xThe regression equation is y = 28.1 + 133 xPredictor Coef SE Coef T P Constant 28.083 1.567 17.92 0.000 x 132.899 9.606 13.83 0.000S = 1.309 R-Sq = 95.0% R-Sq(adj) = 94.5%Analysis of VarianceSource DF SS MS F P Regression 1 327.93 327.93 191.40
10、0.000 Residual Error 10 17.13 1.71 Total 11 345.06,回归方程是否有意义的判断,三种等价的检验方法 F 检验 T检验 r检验,在使用回归方程作进一步的分析以前,首先应对回归方程是否有意义进行判断。,一、F 检验,图示离差平方和的分解,x,y,离差分解图,在合金钢强度的例中,我们已求出了回归方程,这里我们考虑关于回归方程的显著性检验。经计算有,若取=0.01,则F0.99(1,10) =10F,因此在显著性水平0.01下回归方程是显著的。,Regression Analysis: y versus xThe regression equation
11、is y = 28.1 + 133 xPredictor Coef SE Coef T P Constant 28.083 1.567 17.92 0.000 x 132.899 9.606 13.83 0.000S = 1.309 R-Sq = 95.0% R-Sq(adj) = 94.5%Analysis of VarianceSource DF SS MS F P Regression 1 327.93 327.93 191.40 0.000 Residual Error 10 17.13 1.71 Total 11 345.06,二、 t 检验,对H0:1 =0的检验也可基于t分布进行
12、。 由于, 因此在H0为真时,有 ,其中,它可用来检验假设H0。对给定的显著性水平?,拒绝域为 . 由于 ,称 为 的标准误,即 的标准差的估计。,注意到t2=F,因此,t检验与F检验是等同的。以例中数据为例,可以计算得到若取 =0.01,则由于13.28723.1698,因此,在显著性水平0.01下回归方程是显著的。,三、相关系数检验,一元线性回归方程是反映两个随机变量x与y间的线性相关关系,它的显著性检验还可通过对二维总体相关系数的检验进行。它的一对假设是 H0:=0 vs H1: 0所用的检验统计量为样本相关系数拒绝域为W=rc,其中临界值c应是H0: =0成立下r的分布的1 分位数,故
13、记为c=r1-(n2).,由样本相关系数的定义可以得到 r与F统计量之间的关系这表明, r是F的严格单调增函数,故可以从F分布的1 分位数 F1-(1, n2) 得到 r 的1 分位数为,譬如,对 =0.01,n=12, F0.99(1,10)=10.04 ,于是 。为实际使用方便,人们已对r1- (n-2)编制了专门的表,见P151页表7-1。以例中数据为例,可以计算得到若取 =0.01,查P182页表7-1知 r0.99(10)=0.708, 由于0.97280.708,因此,在显著性水平0.01下回归方程是显著的。,相关系数临界值表,在一元线性回归场合,三种检验方法是等价的:在相同的显著
14、性水平下,要么都拒绝原假设,要么都接受原假设,不会产生矛盾。F 检验可以很容易推广到多元回归分析场合,而其他二个则无法完成,所以,F检验是最常用的关于回归方程显著性检验的检验方法。,三种检验方法具有等价特性,预报与控制问题,当我们求得变量x、y之间的回归方程后,往往通过方程回答这样两方面的问题: (1)对任何一个给定的观测点x0,推断y0大致落的范围 (2)若要求观测值y在一定的范围y1yy2内取值,应将变量控制在什么地方 前者就是所谓的预报问题,后者称为控制问题,E(y0)的置信区间 于是E(y0)的1 的置信区间(CI)是其中,y0的预测区间实用中往往更关心x=x0时对应的因变量y0的取值
15、范围。y0的最可能取值为 ,于是,我们可以使用以 为中心的一个区间 作为y0的取值范围。经推导, 的表达式为上述预测区间(PI)与E(y0)的置信区间的差别就在于根号里多个1。,在例中,如果x0=0.16,则得预测值为若取 =0.05,则t0.975(10)=2.2281,又 ,故x0=0.16对应因变量y0的均值E(y0)的0.95置信区间为(49.4328-1.0480, 49.4328+1.0480)=(48.3488, 50.5168),可以计算得到,从而y0的概率为0.95的预测区间为E(y0)的0.95置信区间比y0的概率为0.95的预测区间窄很多,这是因为随机变量的均值相对于随机
16、变量本身而言要更容易估计出来。,minitab软件求解置信区间与预测区间,非线性回归方程的线性化,在实际问题中,有时两个变量间的关系不是线性相关关系,而是某种曲线相关关系,这时如果仍作线性回归,就不能反映出两个变量之间的内在联系,而必须作非线性回归。 在许多情况下,可通过对变量作适当的代换,化为线性回归问题处理,求出它的回归方程。,例 炼钢厂出钢水时用的钢包,在使用过程中由于钢水及炉渣对耐火材料的浸蚀,其容积不断增大。现在钢包的容积用盛满钢水时的重量y (kg)表示,相应的试验次数用x表示。数据见表,要找出y 与x的定量关系表达式。,钢包的重量y与试验次数x数据,下面我们分三步进行。,1 确定
17、可能的函数形式为对数据进行分析,首先描出数据的散点图,判断两个变量之间可能的函数关系,图是本例的散点图。观测这13个点构成的散点图,我们可以看到它们并不接近一条直线,用曲线拟合这些点应该是更恰当的,这里就涉及如何选择曲线函数形式的问题。,首先,如果可由专业知识确定回归函数形式,则应尽可能利用专业知识。当若不能有专业知识加以确定函数形式,则可将散点图与一些常见的函数关系的图形进行比较,选择几个可能的函数形式,然后使用统计方法在这些函数形式之间进行比较,最后确定合适的曲线回归方程。为此,必须了解常见的曲线函数的图形。,本例中,散点图呈现呈现一个明显的向上且上凸的趋势,可能选择的函数关系有很多,我们
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 章回 分析 方法 PPT
