多元分析檢視原始碼討論檢視歷史
多元分析是研究多個自變量與因變量相互關係的一組統計理論和方法。又稱多變量分析。多元分析是單變量統計方法的發展和推廣。
中文名:多元分析
適用範圍:數理科學
簡介
統計學的一個重要分支,主要探究多維數據的內在規律性,如多維隨機變量間的相互依賴關係、結構關係等。根據獲得數據的類型不同,多元統計分析可分為連續型和離散型多元分析,前者包括多元正態分布的估計與檢驗、多因變量線性回歸、判別分析、典型相關分析、主成分分析、因子分析、聚類分析等,後者包括列聯表分析、對數線性模型、對數單位模型、邏輯斯諦回歸模型、有序離散型多元變量的分析。[1]
歷史
首先涉足多元分析方法是F.高爾頓,他於1889年把雙變量的正態分布方法運用於傳統的統計學,創立了相關係數和線性回歸。其後的幾十年中,C.E.斯皮爾曼提出因素分析法(見因素分析),R.A.費希爾提出方差分析和判別分析,S.S.威爾克斯發展了多元方差分析,H.霍特林確定了主成分分析和典型相關。到20世紀前半葉,多元分析理論大多已經確立。60年代以後,隨着計算機科學的發展,多元分析方法在心理學以及其他許多學科的研究中得到了越來越廣泛的應用。
分析方法
包括3類:①多元方差分析、多元回歸分析和協方差分析,稱為線性模型方法,用以研究確定的自變量與因變量之間的關係;②判別函數分析和聚類分析,用以研究對事物的分類;③主成分分析、典型相關和因素分析,研究如何用較少的綜合因素代替為數較多的原始變量。
多元方差
是把總變異按照其來源(或實驗設計)分為多個部分,從而檢驗各個因素對因變量的影響以及各因素間交互作用的統計方法。例如,在分析2×2析因設計資料時,總變異可分為分屬兩個因素的兩個組間變異、兩因素間的交互作用及誤差(即組內變異)等四部分,然後對組間變異和交互作用的顯著性進行F檢驗。
優點:是可以在一次研究中同時檢驗具有多個水平的多個因素各自對因變量的影響以及各因素間的交互作用。其應用的限制條件是,各個因素每一水平的樣本必須是獨立的隨機樣本,其重複觀測的數據服從正態分布,且各總體方差相等。
多元回歸
用以評估和分析一個因變量與多個自變量之間線性函數關係的統計方法。
優點:是可以定量地描述某一現象和某些因素間的線性函數關係。將各變量的已知值代入回歸方程便可求得因變量的估計值(預測值),從而可以有效地預測某種現象的發生和發展。它既可以用於連續變量,也可用於二分變量(0,1回歸)。多元回歸的應用有嚴格的限制。首先要用方差分析法檢驗因變量y與m個自變量之間的線性回歸關係有無顯著性,其次,如果y與m個自變量總的來說有線性關係,也並不意味着所有自變量都與因變量有線性關係,還需對每個自變量的偏回歸係數進行t檢驗,以剔除在方程中不起作用的自變量。也可以用逐步回歸的方法建立回歸方程,逐步選取自變量,從而保證引入方程的自變量都是重要的。
協方差
把線性回歸與方差分析結合起來檢驗多個修正均數間有無差別的統計方法。例如,一個實驗包含兩個多元自變量,一個是離散變量(具有多個水平),一個是連續變量,實驗目的是分析離散變量的各個水平的優劣,此變量是方差變量;而連續變量是由於無法加以控制而進入實驗的,稱為協變量。在運用協方差分析時,可先求出該連續變量與因變量的線性回歸函數,然後根據這個函數扣除該變量的影響,即求出該連續變量取等值情況時因變量的修正均數,最後用方差分析檢驗各修正均數間的差異顯著性,即檢驗離散變量對因變量的影響。
優點:可以在考慮連續變量影響的條件下檢驗離散變量對因變量的影響,有助於排除非實驗因素的干擾作用。其限制條件是,理論上要求各組資料(樣本)都來自方差相同的正態總體,各組的總體直線回歸係數相等且都不為0。因此應用協方差分析前應先進行方差齊性檢驗和回歸係數的假設檢驗,若符合或經變換後符合上述條件,方可作協方差分析。
判別函數
判定個體所屬類別的統計方法。其基本原理是:根據兩個或多個已知類別的樣本觀測資料確定一個或幾個線性判別函數和判別指標,然後用該判別函數依據判別指標來判定另一個個體屬於哪一類。
判別分析不僅用於連續變量,而且藉助於數量化理論亦可用於定性資料。它有助於客觀地確定歸類標準。然而,判別分析僅可用於類別已確定的情況。當類別本身未定時,預用聚類分析先分出類別,然後再進行判別分析。
聚類
解決分類問題的一種統計方法。對觀測對象進行聚類,稱為Q型分析;若對變量進行聚類,稱為R型分析。聚類的基本原則是,使同類的內部差別較小,而類別間的差別較大。最常用的聚類方案有兩種。一種是系統聚類方法。例如,要將n個對象分為k類,先將n個對象各自分成一類,共n類。然後計算兩兩之間的某種「距離」,找出距離最近的兩個類、合併為一個新類。然後逐步重複這一過程,直到並為k類為止。另一種為逐步聚類或稱動態聚類方法。當樣本數很大時,先將n個樣本大致分為k類,然後按照某種最優原則逐步修改,直到分類比較合理為止。
聚類分析是依據個體或變量的數量關係來分類,客觀性較強,但各種聚類方法都只能在某種條件下達到局部最優,聚類的最終結果是否成立,尚需專家的鑑定。必要時可以比較幾種不同的方法,選擇一種比較符合專業要求的分類結果。
主成分
把原來多個指標化為少數幾個互不相關的綜合指標的一種統計方法。例如,用p個指標觀測樣本,如果p個指標互不相關,則可把問題化為p個單指標來處理。但大多時候p個指標之間存在着相關。此時可運用主成分分析尋求這些指標的互不相關的線性函數,使原有的多個指標的變化能由這些線性函數的變化來解釋。這些線性函數稱為原有指標的主成分,或稱主分量。
主成分分析有助於分辨出影響因變量的主要因素,也可應用於其他多元分析方法,例如在分辨出主成分之後再對這些主成分進行回歸分析、判別分析和典型相關分析。主成分分析還可以作為因素分析的第一步,向前推進就是因素分析。其缺點是只涉及一組變量之間的相互依賴關係,若要討論兩組變量之間的相互關係則須運用典型相關。
典型相關
先將較多變量轉化為少數幾個典型變量,再通過其間的典型相關係數來綜合描述兩組多元隨機變量之間關係的統計方法。設x是p元隨機變量,y是q元隨機變量,可逐一計算x的p個分量和y的q個分量之間的相關係數(p×q個), 但這樣既繁瑣又不能反映事物的本質。如果運用典型相關分析,其基本程序是,從兩組變量各自的線性函數中各抽取一個組成一對,它們應是相關係數達到最大值的一對,稱為第1對典型變量,類似地還可以求出第2對、第3對、…。這些成對變量之間互不相關,各對典型變量的相關係數稱為典型相關係數。所得到的典型相關係數的數目不超過原兩組變量中任何一組變量的數目。
典型相關分析有助於綜合地描述兩組變量之間的典型的相關關係。其條件是,兩組變量都是連續變量,其資料都必須服從多元正態分布。
以上幾種多元分析方法各有優點和局限性。每一種方法都有它特定的假設、條件和數據要求,例如正態性、線性和同方差等。因此在應用多元分析方法時,應在研究計劃階段確定理論框架,以決定收集何種數據、怎樣收集和如何分析數據資料。
視頻
飛哥教學--多元分析--黃杰
;
參考文獻
- ↑ [王元,文蘭,陳木法.數學大辭典:科學出版社,2010]