偏最小二乘回歸≈多元線性回歸分析+典型相關分析+主成分分析。
與傳統的多元線性回歸模型相比,偏最小二乘回歸的特點是:(1)可以在自變量具有嚴重多重相關性的情況下進行回歸建模;(2)當樣本點數小於變量數時,允許回歸建模;(3)偏最小二乘回歸將包含最終模型中的所有原始自變量;(4)偏最小二乘回歸模型更容易辨識系統信息和噪聲(甚至壹些非隨機噪聲);(5)在偏最小二乘回歸模型中,各個自變量的回歸系數會更容易解釋。
計算方差和協方差時,取和號前的系數有兩種方法:隨機選取樣本點集時,應為1/(n-1);如果不是隨機選取,這個系數可以取為1/n。
多重相關的診斷
1經驗診斷法
1.在自變量的簡單相關系數矩陣中,有些自變量的相關系數值較大。
2.回歸系數的代數符號與專業知識或壹般經驗相悖;或者,它與自變量和y之間的簡單相關系數的符號相反。
3.t檢驗重要自變量的回歸系數,結果不顯著。
通常,當f檢驗能夠以很高的精度通過,並且決定系數R2的值也很大,但自變量的T檢驗不顯著時,那麽多重相關的可能性就會很大。
4.如果增加(或刪除)壹個變量,或者增加(或刪除)壹個觀測值,回歸系數的估計值就發生了很大的變化。
5.重要自變量回歸系數的置信區間明顯偏大。
6.在自變量中,壹個自變量是其他自變量的完全或接近完全的線性組合。
7.對於壹般的觀測數據,如果樣本點數太少,樣本數據中往往存在多重相關性。
但是,用經驗方法來診斷自變量系統中是否存在多重相關性,並不是很可靠。另壹種更正式的方法是用統計檢驗(回歸分析)來檢驗每個自變量與其他自變量之間是否存在線性關系。
2方差擴展因子
多重相關最常用的正態診斷方法是使用方差展開因子。自變量xj的方差展開因子記為(VIF)j,其計算方法如下
(4-5)(VIF)j =(1-R J2)-1
公式中,R j2是xj為因變量時,其他自變量回歸的重測系數。
所有xj變量中最大的(VIF)j通常被用作衡量多重相關性的指標。壹般認為,如果最大(VIF)j超過10,往往意味著多重相關會嚴重影響最小二乘的估計值。
之所以稱(VIF)j為方差膨脹因子,是因為它也可以衡量回歸系數的估計方差比自變量線性無關時增加了多少。
我們假設x1,x2,…,xp是標準化變量。回歸系數向量b用最小二乘法求得,其精度用其方差來衡量。b的協方差矩陣為
Cov(B)= σ2 (X'X)-1
其中,σ2是誤差項的方差。所以,對於回歸系數b j,有
Var(b j)= σ2cjj
Cjj是(X'X)-1矩陣中的第j個對角元素。可以證明,
cjj =(VIF)j
嶺回歸分析
1嶺回歸估計量
嶺回歸分析是壹種改進的最小二乘估計方法。當自變量系統中存在多重相關時,它能提供比最小二乘法更穩定的估計,且回歸系數的標準差也比最小二乘法估計小。
根據高斯-馬爾可夫定理,多重相關性不影響最小二乘估計量的無偏性和最小方差。然而,盡管最小二乘估計量在所有線性無偏估計量中方差最小,但這個方差不壹定很小。所以我們可以找壹個有偏估計量,有壹點偏差,但是它的精度可以比無偏估計量高很多。
應用嶺回歸分析時,其計算大多從標準化數據開始。對於標準化變量,最小二乘的標準方程為
rXXb = ryX
其中rXX是x的相關系數矩陣,ryX是y與所有自變量的相關系數向量。
嶺回歸估計量是通過在正態方程中引入壹個有偏常數c(c≥0)得到的。它的正規方程是+
(4-8) (rXX+ cI) bR=ryX
因此,在嶺回歸分析中,標準化回歸系數為
(4-9) bR =(rXX+ cI)-1 ryX
2嶺回歸估計量的性質
(1)嶺回歸系數是壹般最小二乘準則下回歸系數的線性組合,即
(4-10)bR =(I+crXX-1)-1b
(2)記住β是總體參數的理論值。當β≠0時,可以證明壹定有正數c0,這樣當0
(4-11)E | | bR-β| | 2≤E | | B-β| | 2
(3)嶺回歸估計量的絕對值往往小於普通最小二乘估計量的絕對值,即
(4-12)| | bR | | & lt;|| b ||
嶺回歸估計量的好壞取決於偏倚系數C的選取,C的選取不宜過大,因為
E(bR)=(I+crXX-1)-1 E(b)=(I+crXX-1)-1β
偏倚系數c的選取沒有正式的決策準則,目前主要基於嶺跡和方差展開因子。嶺跡是指p-1嶺回歸系數估計量對不同C值(C值壹般在0到1之間)所畫的曲線。通過查嶺跡和方差展開因子選擇c的值時,判斷方法是選擇壹個盡可能小的c值,在這個值上嶺跡中的回歸系數已經變得相對穩定,方差展開因子也變得足夠小。
理論上存在最優C值,可以使估計量的偏差和方差的綜合效果達到壹個最優水平。但難點在於,C的最優值對於不同的應用是不壹樣的,其選擇只能憑經驗判斷。
其他補救措施簡介
壹個最常見的想法是嘗試去掉不太重要的相關變量。由於變量間多重相關的形式非常復雜,且沒有可靠的檢驗方法,刪除壹些多重相關變量往往會導致模型的解釋誤差增大,丟棄本應保留的系統信息,使得接受錯誤結論的可能性和做出錯誤決策的風險不斷增加。另壹方面,在壹些經濟模型中,從經濟理論上要求模型中包含壹些重要的解釋變量,並且這些變量具有多重相關性。這時候剔除壹些相關變量的做法就不符合實際工作的要求了。
另壹個補救方法是增加樣本量。但在實際工作中,由於時間、經費和客觀條件的限制,增加樣本量往往不可行。
此外,變量變換可以用來削弱多重相關性的嚴重性。壹階微分回歸模型可以降低多重相關性的嚴重性。然而,壹階差分變換帶來了壹些其他問題。差異之後的誤差項可能不滿足誤差項在整個模型中不與序列相關的假設。事實上,在大多數情況下,在原誤差項不相關的情況下,壹階差分得到的誤差項會是序列相關的。而且因為差分法損失了壹個觀測值,所以在小樣本的情況下是極不可取的。此外,壹階差分法不適用於截面樣本。
1的主成分分析
主成分分析的結果不可避免地會受到重疊信息的影響。因此,當壹些無用的相關變量被人為使用時,客觀結論就會在方向和數量上被扭曲。在主成分分析之前,變量系統的確定必須謹慎。
2特定點的發現
第I個樣本點(樣本量為n)對第H個主成分的貢獻率為
(5-32) CTR(i)=Fh2(i)/(nλh)(如果遠遠大於1/n,則為特殊點)
3典型相關分析
從某種意義上說,許多重要的數據分析方法,如多元回歸分析、判別分析或對應分析,都可以歸結為典型相關分析的壹個特例,也是偏最小二乘回歸分析的理論基石。
典型相關分析是從變量組X中抽取壹個典型分量F=Xa,然後從變量組y中抽取壹個分量G=Yb,在抽取的過程中,要求F和G之間的相關性達到最大。
在典型相關分析中,采用以下原則進行優化,即
max & ltf,G & gt=aX'Yb a'X'Xa=1,b'Y'Yb=1
因此,A是矩陣v 11-12v 22-1v 21的最大特征值對應的特征向量,B是矩陣V22-1V21V65438對應的特征向量。其中,
V11=X'X,V12=X'Y,V22=Y'Y .
f和g之間有明顯的換算關系。
有時候只有壹種典型成分是不夠的,可以考慮第二種典型成分。
多元變量的偏最小二乘回歸模型
1工作目標
偏最小二乘回歸分析的建模方法
有q個因變量和p個自變量。為了研究因變量和自變量之間的統計關系,觀測了N個樣本點,從而形成了自變量和因變量的數據表X和Y。偏最小二乘回歸可以分別從X和Y中提取T和U,這就要求:(1)t和U要盡可能攜帶各自數據表中的變差信息;(2)T和U的相關性可以達到最大。提取第壹分量後,用偏最小二乘回歸分別實現X到T和Y到T的回歸。如果回歸方程已經達到令人滿意的精度,則算法終止;否則,將使用T解釋的X和T解釋的Y的殘差信息進行第二輪分量提取..重復這壹過程,直到達到令人滿意的精度。如果最終提取出X***的多個分量,那麽將通過對X的這些分量進行yk回歸實現偏最小二乘回歸,然後表示為關於原自變量的yk回歸方程。
2計算方法
首先,將數據標準化。X的標準化數據矩陣表示為E0=( E01,…,E0p)n×p,Y的對應矩陣表示為F0 = (F01,…,F0q) n× q。
第壹步,t 1是E0的第壹個分量,t 1= E0w1,w1是E0的第壹個軸,是壹個單位向量,即|| w1||=1。
註意u 1是F0的第壹個分量,u 1= F0c1,c1是F0的第壹個軸,||| C1 | = 1。
因此,需要解決以下優化問題,即
(7-1)
註意θ1 = w 1 ' E0 ' f0c 1,這是優化問題的目標函數值。
利用拉格朗日算法,我們可以得到
(7-8)E0 ' f0f 0 ' e0w 1 =θ12 w 1
(7-9)F0 ' e0e 0 ' f0c 1 =θ12 c 1
因此,w1是E0' F0F0F0' E0矩陣最大特征值對應的單位特征向量,c1是F0 ' E0E0 ' F0矩陣最大特征值θ12對應的單位特征向量。
計算w1軸和c1軸後,即可得到構圖。
t 1= E0w1
u 1= F0c1
然後分別得到E0和F0到t 1的回歸方程。
(7-10)E0 = t 1 p 1 '+e 1
(7-12)F0 = t 1r 1 '+f 1
其中回歸系數向量為
(7-13)p 1 = E0 ' t 1/| | t 1 | | 2
(7-15)r 1 = F0 ' t 1/| | t 1 | | 2
E1和F1分別是兩個方程的剩余矩陣。
第二步,用E1和F1代替E0和F0。然後,找到第二軸w2和c2以及第二分量t2和u2。
t 2= E1w2
u 2= F1c2
θ2 = & lt;t2,u2 & gt= w2'E1'F1c2
W2是e 1’e 1f 1’e 1矩陣最大特征值對應的單位特征向量,c2是e 1’e 1 e 1’f 1矩陣最大特征值θ22對應的單位特征向量。計算回歸系數
p2= E1' t 2/|| t 2||2
r2= F1' t 2/|| t2||2
所以有回歸方程。
E1= t 2 p2'+ E2
F1= t 2r2'+ F2
這樣,如果x的秩是a,就會有
(7-16)E0 = t 1 p 1 '+…+t A pA '
(7-17)F0 = t 1r 1 '+…+t A rA '+FA
由於t1,…,t A都可以表示為E01,…,E0p的線性組合,所以公式(7-17)也可以化簡為yk*= F0k關於xj*= E0j的回歸方程形式,即
yk * =αk 1 x 1 *+…+αKP XP *+FAk,k=1,2,…,q
FAk是殘差矩陣FA的第k列。
3交叉有效性
如果多壹個分量少壹個樣本的預測誤差平方和(所有因變量和預測樣本之和)除以少壹個分量的誤差平方和(所有因變量和樣本之和)小於0.952,則多壹個分量是值得的。
4更簡潔的計算方法
用下面的原理提取自變量中的分量t 1,完全等價於原理公式(7-1)的結果,即
(7-24)
(1)求矩陣E0'F0F0'E0的最大特征值對應的單位特征向量w1,求分量t 1,得到
t 1= E0w1
E1= E0-t 1 p1 '
其中p 1 = E0 ' t 1/| | t 1 | | 2。
(2)求矩陣e 1’f0f 0’e 1的最大特征值對應的單位特征向量w2,求分量t2得到
t 2= E1w2
E2= E1-t 2 p2 '
其中p2 = e1' t2/||| t2 || 2。
……
(m)到步驟m,求分量tm= Em-1wm,其中wm是矩陣EM-1' F0F0F0' EM-1的最大特征值對應的單位特征向量。
如果確定通過提取m個分量可以獲得滿意的觀察模型,...,tm從* *根據交叉效度,普通最小二乘回歸方程為F0對t1、...,tm如下
F0 = t 1r 1 '+…+t MRM '+Fm
偏最小二乘回歸輔助分析技術
1的精度分析
定義自變量成分th的解釋力如下
(1)th對自變量xj的解釋力
(8-1)Rd(XJ;th)=r2(xj,th)
(2)th解釋x的能力。
(8-2)研發(X;th)=[r2(x1,th) + …+ r2(xp,th)]/p
(3)t 1,…,tm對x的累積解釋力。
(8-3)Rd(X;t1,…,TM)= Rd(X;t 1)+…+Rd(X;tm)
(4)t 1,…,tm對壹個自變量xj的累積解釋力。
(8-4)研發(XJ;t1,…,TM)= Rd(XJ;t 1)+…+Rd(XJ;tm)
(5)th對因變量yk的解釋能力
(8-5)Rd(yk;th)=r2(yk,th)
(6)th解釋y的能力
(8-6)Rd(Y;th)=[r2(y1,th) + …+ r2(yq,th)]/q
(7)t 1,…,tm對y的累積解釋力。
(8-7)Rd(Y;t1,…,TM)= Rd(Y;t 1)+…+Rd(Y;tm)
(8)t 1,…,tm對因變量yk的累積解釋力。
(8-8)Rd(yk;t1,…,TM)= Rd(yk;t 1)+…+Rd(yk;tm)
2自變量x j在解釋因變量集合y中的作用
x j在解釋Y時的重要性可以用可變投影重要性指數VIP J來衡量。
VIP J2 = p[Rd(Y;t 1)w 1 J2+…+Rd(Y;TM)WM J2]/[Rd(Y;t 1)+…+Rd(Y;tm)]
其中whj是軸wh的第j個分量。關註VIP1 2+ …+ VIP p2=p = p。
3特定點的發現
定義第I個樣本點對第h個分量th的貢獻率Thi2,用它來尋找樣本點集合中的特殊點,即,
(8-10)thi 2 = thi 2/((n-1)s H2)
其中,s h2是分量th的方差。
由此,還可以計算出樣本點I對成分t1,…,tm的累積貢獻率。
(8-11)Ti2 = t 1i 2+…+TMI 2
當...的時候
Ti2≥m(n2-1)F0.05(m,n-m)/(n2 (n-m))
在95%的測試水平下,可以認為樣本點I對分量t1,…,tm的貢獻過大。
單變量偏最小二乘回歸模型
1簡化算法
第壹步是知道數據E0,F0,因為u 1= F0所以可以得到。
w1= E0'F0/|| E0'F0||
t 1= E0w1
p 1 = E0 ' t 1/| | t 1 | | 2
E1= E0-t 1 p1 '
測試交叉效度。如果有效,繼續計算;否則,只提取壹個分量t 1。
在步驟h (h=2,…,m),已知數據Eh-1,F0,具有
wh = Eh-1 ' F0/| | Eh-1 ' F0 | |
t h= Eh-1wh
ph= Eh-1' t h/|| t h||2
Eh= Eh-1次ph '
測試交叉效度。如果有效,繼續計算步驟h+1;否則,停止計算組件。
此時得到M個分量t1,…,t m,對t1,…,t m進行F0的回歸,這樣,
F0^= r1t 1+ …+ rmt m
因為t1,…,t m都是E0的線性組合,也就是說
t h= Eh-1wh= E0wh*
所以F0可以寫成E0的線性組合,也就是說
f0^= r 1 e0w 1 *+…+RM e0wm * = E0[r 1 w 1 *+…+RM WM *]
最後還可以轉化為Y到x1,…,X P的回歸方程。
y^= α0+α1x1+ …+αp xp