CNS 14788-2003 Guideline for multivariate analysis《多变量分析指导纲要》.pdf
《CNS 14788-2003 Guideline for multivariate analysis《多变量分析指导纲要》.pdf》由会员分享,可在线阅读,更多相关《CNS 14788-2003 Guideline for multivariate analysis《多变量分析指导纲要》.pdf(25页珍藏版)》请在麦多课文档分享上搜索。
1、1 印行年月94年10月 本標準非經本局同意不得翻印 中華民國國家標準 CNS 總號 類號 ICS 03.120.30 Z406214788經濟部標準檢驗局印行 公布日期 修訂公布日期 92年11月27日 年月日 (共25頁)多變量分析指導綱要 Guideline for multivariate analysis 目 錄 頁數 1. 適用範圍- 2 2. 用語釋義- 2 3. 主要內容- 2 3.1 判別分析 (Discriminant Analysis) - 3 3.1.1 概述- 3 3.1.2 符號說明- 3 3.1.3 基本原理- 3 3.1.4 計算步驟- 5 3.1.5 應用實例
2、- 6 3.1.6 注意事項-10 3.2 主成分分析(Principle Component Analysis) -11 3.2.1 概述-11 3.2.2 基本原理-11 3.2.3 方法與公式-11 3.2.4 計算步驟-12 3.2.5 應用實例-14 3.2.6 注意事項-15 3.3 因素分析(Factor Analysis) -16 3.3.1 概述-16 3.3.2 基本原理-16 3.3.3 方法與公式-17 3.3.4 計算步驟-19 3.3.5 應用實例-19 3.3.6 注意事項-21 4. 引用資料-22 附錄1 -23 附錄2 -25 2 CNS 14788, Z
3、4062 1. 適用範圍:多變量統計分析 (Multivariate Statistical Analysis)簡稱多變量分析,用於處理品質環圈 (quality loop)中各階段多變數資料之統計方法,尤其在市場研究 (例如消費者行為分析 ),複雜生產製程 (如 IC 生產流程 )之監控及良率分析皆扮演十分重要的分析工具。其他如醫院、社會現象、教育、生物科技、環境保護等亦被廣為採用。 2. 用語釋義 (1) 主成分分析( principal component analysis,簡稱 PCA)是一種經由原先資料變數之線性組合所建構出來的 少數主要成分 (principal component
4、s),用來合理的解釋資料中所有變數之總變異量 (variance) ,並達到資料簡化目的之統計方法。 (2) 因素分析 (Factor analysis)是探討如何將眾多變數 分解成少數不能直接觀測到的共同因素 (common factor)及獨特因素 (specific factors),並經由少數共同因素來解釋原先 資料中變數間變異數 -共變異數 (variance-covariance)的結構性質的統計模型。 (3) 判別分析 (discriminant analysis)是針對數個母群體 (populations)內解釋 (或預測)變數之間的差異性,進行分析,並建立母群體的合適分類 (
5、classification)模型,進而將特定觀測值分類到適當母群體的統計方法。 3. 主要內容 一般來說,變數可劃分成二大類:因變數 (dependent variables)及自變數 (independent variables)。若資料集同時存在有自變數及因變數,且研究的目的是希望利用自變數來對因變數做預測及推論時,此統計稱之為變數關連性模型。反之,若資料集只存在有眾多自變數,且研究的目的是希望將眾多資料化繁為簡,且不 犧牲資料的資訊,此統計稱之 為資料集簡化模型。著名的變數關連性模型方法有迴歸分析(Regression analysis)、聯合分析 (conjoint analysis
6、)、多變量變異數分析 (Multivariate analysis of variance)、判別分析 (Discriminant analysis)、典型分析 (Canonical analysis)等,其可協助研究人員達到預測推論之研究目的。此外,資料集簡化模型有主成分分析 (principal component analysis) 、因素分析 (factor analysis) 、多尺度分析(Multi-dimensional scaling)及群集分析 (cluster analysis)等,其可協助研究人員達到(1)資料簡化 (2)群體分類與分群之研究目的 本標準乃針對判別分析、主
7、成分分析及因素分析等三種方法加以介紹 (參閱圖 1)。其他方法有興趣的讀者可參考文獻中 1, 9部分。 3 CNS 14788, Z 4062 3.1 判別分析 3.1.1 概述 判別分析係針對數個母群體內 自變數資料之間的差異特性,建立母群體的判別模型,進而將特定觀測值分類 (classify)到適當母群 體的統計方法。典型例子如下:醫生分別對正常人及患有肝病的病人進行血液中 GOT 值及GPT 值之差異性分析,並建立適當判別模型,做為診斷是否罹患慢性肝病的重要參考依據。由於此統計 方法計算較複雜,因此先介紹其基本原理並將配合統計套裝軟體來輔助說明求解步驟。 3.1.2 符號說明 假設資料集
8、有 g 個母群體,每個母群體有 p 個自變數, i :第 i 個母群體, .g,i L1= x :包含有 p 個自變數之行向量, txxxp),(1L= im:第 i 個母群體的樣本平均向量 (Sample mean vector) iS :第 i 個母群體的樣本共變異矩陣 (Sample covariance matrix) iS :iS 的行列式 (determinant) pS : g 個母群體的合併樣本共變異矩陣 (pooled covariance matrix) )x(Di:觀測值x 到母群體i 的統計距離, g,i L1= 備考:為易於瞭解本標準符號意義,可先參閱第 3.1.5
9、節實例說明。 3.1.3 基本原理 (1A ) 馬氏距離 (Mahalanobis distance) 多變量分析 變數關連性模型 (dependence models) 資料集簡化模型 (interdependence) 判別分析 (1) 馬氏距離 (2) 線性判別分析 (3) 二次判別分析 (4) 判別函數分析準則 主成分分析 (1) 多變量線性函數 (2) 主成分的求法 (3) 主成分的解釋 (4) 貢獻率的求法 因素分析 (1) 直交因素模型 (2) 主成分因素的求法 (3) 因素轉軸 (4) 因素的解釋 (5) 因素得分 圖 1 多變量分析內容架構圖 4 CNS 14788, Z 4
10、062 判別分析中,假設 g 個母群體共變異矩陣相同下,觀測值x 到第 i 個母群體 ( 樣本平均向量im 及樣本共變異矩陣pS ) 之統計馬氏距離 (Mahalanobis distance) 定義如下: .g,i),mx(S)mx()x(DipiiL1 1=(1) 若pS =pI ,則 )mx()mx()x(Diii= 為一般我們所熟悉的歐氏距離。 直觀的分類法則 (classification rule) 如下: 將0x 分類到i ,若且唯若 )x(Dmin)x(Djgji010= (2) 以圖 2 為例,0x 到3 之馬氏距離較0x 到1 及2 為短,因此我們可將0x分類到3 。 圖
11、2 2 (1B ) 線性判別分析 (Linear Discriminant Analysis) 因為 )x(Di可以展開成下式 ,g,i ,xSxmSmxSm)x(DpipipiiL1212111=+=若定義 g,i ,)mSm(xSm)x(CipipiiL12111=(3) 則公式 (2)可改寫成如下: 將0x 分類到i ,若且唯若 )x(Cmax)x(Cjgji010= (4) 0x13 5 CNS 14788, Z 4062 公式 (3) 中,若令11),.,(=pipSmaaa 且 )mSm(bipi121= ,則b)xa.xa()x(Cppi+=11。 由於 )x(Ci為x 的一階線
12、性函數,因此,上述判別分析稱為線性判別分析 (Linear Discriminant Analysis)。 (1C ) 二次判別分析 (Quadratic Discriminant Analysis) 實際狀況下, g 個母群體的共變異 矩陣不一定全部相同。此時馬氏距離的修正式可定義如下: iiii*iSln)mx(S)mx()x(D +=1(5) 且公式 (2)的分類準則可修改成如下: 將0x 分類到i 若且唯若 )x(Dmin)x(D*jgj*i010= (6) 公式 (5)中, )mx(S)mx(iii1可以表示為x 之二次函數,因此上述判別分析簡稱為二次判別分析 (Quadratic
13、Discriminant Analysis). (1D ) 判別函數的評估準則 一般來說,我們可經由判別函數錯誤分類的比率,來評估判 別法則之優劣。 令 )j|i(MC 表示資料來自j 而被錯誤分類到i 的個數,則 )nn/()j|i(MCMCRgji+=L1(7) 表示樣本總錯誤分類比率值,若 MCR 愈小,表 示判別效果愈佳。因此選用公式 (4)或公式 (6)來進行判別分析,可以其 MCR 做挑選準則。 3.1.4 計算步驟 (1) 計算個別母群體gii 1= 的樣本平均向量,樣本共變異矩陣及合併共變異矩陣。若iX 表示第 i 個群體之自變數資料集合,亦即 =pniipniiniiixxx
14、xxxXLLMMLLLL1221111,( 1 i g), 且 111=ppJ M , pppI*1001= O 則 6 CNS 14788, Z 4062 ( a) ()piiJXnm =1, ( b) X)JJI(X)(Sippnpini=11, gi L,1= ( c) ()gpSSgS += L11(2) 計算公式 (3)及公式 (5)之 )x(Ci0及 )x(Di0,並分別利用公式 (4)及公式 (6)進行判別分析。 (3) 利用分類矩陣 (classification matrix) 及其 MCR 值來評估判別分析之好壞。 3.1.5 實例說明 某管理學院想依照申請入學者 的成績表
15、現來建立一套判斷某申請者是否錄取的評估準則。經初步研究,申請者的在校成績 (1x )及其 GMAT 考試成績(2x )是決定申請者能否錄取的重要預測變數。今隨機從過去的申請案件中,抽出 85 位個案,其中共有 31 位錄取, 28 位不錄取, 26 位備取,其對應的資料如表 1。決策者希望 依據上述資料建立適當的判別法則並討論其正確分類之比率。此外,若有一申請人的 (0201, xx )t=(2.96, 595),試依照上述分類法則判斷此申請人是否錄取。 7 CNS 14788, Z 4062 表 1 管理學院申請入學者的在校成績 )(1x 及 GMAT )(2x 成績 1 (錄取 ) 2 (
16、不錄取 ) 3 (備取 ) 1x 2x 1x 2x 1x 2x 29.6 596 2.54 446 2.86 494 3.14 473 2.43 425 2.85 496 3.22 482 2.20 474 3.14 419 3.29 527 2.36 531 3.28 371 3.69 505 2.75 542 2.89 447 3.46 693 2.35 406 3.15 313 3.03 626 2.51 412 3.50 402 3.19 663 2.51 458 2.89 485 3.63 447 2.36 399 2.80 444 3.59 588 2.36 482 3.13 41
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
10000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CNS147882003GUIDELINEFORMULTIVARIATEANALYSIS 多变 分析 指导 纲要 PDF

链接地址:http://www.mydoc123.com/p-634562.html