它是壹種多元統計分析方法,旨在尋找隱藏在多元數據中,但不能直接觀察到,但影響或支配可測變量的潛在因素,估計潛在因素對可測變量的影響程度以及潛在因素之間的相關性。
基本思想
將變量按照相關性進行分組,使同壹組中的變量相關性高,而不同組中的變量不相關或相關性低,每組變量代表壹個基本結構,即公因子。
為什麽要做因子分析?
比如在實際門店問題中,我們往往會選擇潛力最大的門店作為試點門店,以此為範本,實現業績和利潤的突破,成為未來新店的標桿。在選擇試點商店的過程中,我們應該註意許多因素,例如:
↘住宅區的房價
↘總面積
↘戶主年齡分布
↘居民戶數
↘商店區
↘2公裏內的競爭商店數量等。
雖然收集到的這些數據都可以全面準確地確定試點店鋪的選擇標準,但這些變量在實際建模中未必能起到預期的作用。主要體現在兩個方面:計算的問題;變量之間的相關性。
這時候最簡單直接的方案就是減少變量的數量,確定主要變量。因子分析以信息損失最小為前提,將許多原始變量綜合成少數幾個綜合指標。
因子分析特征
因素的數量遠遠少於變量的數量;
能反映原始變量的大量信息;
因素之間的線性關系不顯著;
因子有命名解釋。
因素分析步驟
1.原始變量是否可以進行因子分析;
2.提取因子;
3.因素的命名和解釋;
4.計算因子得分;五.綜合評價
因子分析和主成分分析的區別
相同:兩者都能起到處理多個原始變量內部結構關系的作用。
區別:主成分分析側重於綜合原始的適應信息,而因子分析側重於解釋原始變量之間的關系,是壹種比主成分分析更深入的多元統計方法。
因子分析可以看作是優化的主成分分析。這兩種方法有許多共同之處,但它們的應用是不同的。
因子分析應用場景
因子分析法主要用於三種情景,即:
l信息濃縮:將多個分析項目濃縮成幾個關鍵的通用指標。比如多個問卷問題濃縮成幾個指標。如果強調信息集中,關註指標與分析項目的對應關系,則更適合采用因子分析。
l權重計算:通過方差解釋率計算各總指標的權重。在信息集中的基礎上,可以進壹步計算各主成分/因子的權重,構建指標權重體系。
l綜合競爭力:利用成分得分和方差解釋率兩個指標,計算綜合得分,用於綜合競爭力比較(綜合得分值越高意味著競爭力越強)。這類應用常見於經濟和管理研究中,如上市公司競爭實力的比較。
因素分析案例
目前有12地區五項經濟指標(總人口、學齡、從業人員總數、專業服務、房價適中)的調查數據。為了對這12地區進行綜合評價,請確定這12地區的綜合評價指標。(綜合競爭力應用場景)
同壹個指數,不同地區不壹樣。單壹指標很難準確評價12個區域,單壹指標只能反映區域的壹個方面。因此,需要確定綜合評價指標進行比較。在這種情況下,可以應用因子分析方法。
五個指標是我們分析的對象。我們希望從這五個可觀測的指標中找出潛在的因素,並利用這些因素的綜合信息來評價各個地區。
下圖中spss因子分析的操作界面主要包括五個選項。變量區只能選擇數值型變量,子類型變量不能進入模型。
為了消除不同變量之間維數和數量級的影響,spss軟件默認自動標準化這些變量,所以不需要提前標準化這些變量。
?
描述統計選項卡
希望看到每個變量的描述性統計信息,對比提取因子前後的方差變化選擇“單變量描述性”和“原始分析結果”;
現在基於相關矩陣提取因子,因此選擇相關矩陣的“系數和顯著性水平”,
此外,kmo和球形試驗更為重要。通過KMO值,可以初步判斷數據集是否適合進行因子分析。KMO結果有時不會出現,這主要與變量的數量和樣本的大小有關。
?
?
提取頁簽:設置如何在該頁簽中提取因子。
提取因子的方法有很多,最常用的是主成分法。
因為參與分析的變量的計量單位不同,所以選用“相關矩陣”。如果參與分析的變量的測量單位相同,則考慮協方差矩陣。
經常使用碎石圖對判斷因素個數很有幫助,通常選擇此項。至於特征值,壹般spss默認只提取特征值大於1的因子。收斂次數更重要,可以根據第壹次結果反饋的信息進行調整。
?
?
因子旋轉選項卡
因子分析需要對因子進行命名和解釋,是否旋轉因子取決於對因子的解釋。
旋轉就是坐標變換,使得因子系數為1和?0?接近,更容易命名和解釋的共同因素。旋轉法壹般采用“最大方差法”,輸出旋轉後的因子矩陣和載荷圖,對結果的解釋很有幫助。
如果輪換因素已經解釋得很好,那麽就沒有必要輪換,否則就應該輪換。
?
?
保存因子分數
要計算因子得分,必須先寫出因子的表達式。因素不能直接觀察到,但卻是潛在的。但可以通過可觀測變量獲得。
因子分析模型是原始變量作為因子的線性組合。現在我們可以根據回歸方法反推模型,用原始變量,也就是參與分析的變量來表示因素。以便獲得因子得分。因子得分保存為變量,這對於進壹步的分析非常有用。
?
結果解讀:驗證數據是否適合因子分析。
參考kmo結果,壹般認為大於0.5,可以接受。同時也可以參考相關系數。壹般認為大部分分析變量的相關系數大於?0.3,適用於因子分析;
KMO=0.575檢驗表明不是特別適合做因子分析,基本可以通過。
?
?
結果解釋:因子差異表
提取因子後,因子方差的值都很高,說明提取的因子能很好地描述這五個指標。
方差分解表顯示,默認提取的前兩個因子可以解釋五個指標的93.4%。礫石圖顯示,從第三個因子的特征值差異非常小。綜上,提取前兩個因素。
?
?
?
?
結果解釋:因子矩陣
從旋轉因子矩陣可以看出,旋轉後的因子易於命名和解釋。
因子1主要解釋中等房價、專業服務和中學平均學齡,可命名為社會福利因子;
因子2主要解釋另外兩個指標,總人口和總從業人員。它可以被命名為人口因素。
因子分析要求最終的因子相互獨立,沒有相關性,而因子轉換矩陣顯示兩個因子的相關性較低。可見,旋轉因子是絕對必要的。
?
結果解釋:因子系數
根據這個系數和標準化的分析變量得到因子得分。您可以在數據視圖中看到因子得分變量。
結論
經過因子分析,得出了兩個綜合評價指標:人口因子和福利因子。
從原有的五個指標中挖掘出兩個潛在的綜合因素。可以給出12區域的客觀評價。
?
?
?
根據因子1或因子2的得分,可以將12區域由大到小排序,得分最高的區域被認為在該維度上表現較好。