分層回歸其實是對兩個或多個回歸模型進行比較。我們可以根據兩個模型所解釋的變異量的差異來比較所建立的兩個模型。一個模型解釋了越多的變異,則它對資料的擬合就越好。假如在其他條件相等的情況下,一個模型比另一個模型解釋了更多的變異,則這個模型是一個更好的模型。兩個模型所解釋的變異量之間的差異可以用統計顯著性來估計和檢驗。

模型比較可以用來評估個體預測變數。檢驗一個預測變數是否顯著的方法是比較兩個模型,其中第一個模型不包括這個預測變數,而第二個模型包括該變數。假如該預測變數解釋了顯著的額外變異,那第二個模型就顯著地解釋了比第一個模型更多的變異。這種觀點簡單而有力。但是,要理解這種分析,你必須理解該預測變數所解釋的獨特變異和總體變異之間的差異。

一個預測變數所解釋的總體變異是該預測變數和結果變數之間相關的平方。它包括該預測變數和結果變數之間的所有關系。

預測變數的獨特變異是指在控制了其他變數以後,預測變數對結果變數的影響。這樣,預測變數的獨特變異依賴于其他預測變數。在標準多重迴歸分析中,可以對獨特變異進行檢驗,每個預測變數的回歸係數大小依賴于模型中的其他預測變數。

在標準多重迴歸分析中,回歸係數用來檢驗每個預測變數所解釋的獨特變異。這個獨特變異就是偏相關的平方(Squared semi-partial correlation)-sr2(偏確定係數)。它表示了結果變數中由特定預測變數所單獨解釋的變異。正如我們看到的,它依賴于模型中的其他變數。假如預測變數之間存在重疊,那麼它們共有的變異就會削弱獨特變異。預測變數的獨特效應指的是去除重疊效應後該預測變數與結果變數的相關。這樣,某個預測變數的特定效應就依賴于模型中的其他預測變數。

標準多重回歸的局限性在於不能將重疊(共同)變異歸因於模型中的任何一個預測變數。這就意味著模型中所有預測變數的偏決定係數之和要小於整個模型的決定係數(R2)。總決定係數包括偏決定係數之和與共同變異。分層回歸提供了一種可以將共同變異分配給特定預測變數的方法。

分層回歸

標準多重回歸可以測量模型所解釋的變異量的大小,它由複相關係數的平方(R2,即決定係數)來表示,代表了預測變數所解釋的因變數的變異量。模型的顯著性檢驗是將預測變數所解釋的變異與誤差變異進行比較(即F值)。

但是,也可以採用相同的方式來比較兩個模型。可以將兩個模型所解釋的變異之差作為F值的分子。假如與誤差變異相比,兩個模型所解釋的變異差別足夠大,那麼就可以說這種差別達到了統計的顯著性。相應的方程式將在下面詳細闡述。

分層回歸就是採用的這種方式。分層回歸包括建立一系列模型,處於系列中某個位置的模型將會包括前一模型所沒有的額外預測變數。假如加入模型的額外解釋變數對解釋分數差異具有顯著的額外貢獻,那麼它將會顯著地提高決定係數。

這個模型與標準多重回歸的差異在於它可以將共同變異分配到預測變數中。而在標準多重回歸中,共同變異不能分配到任何預測變數中,每個預測變數只能分配到它所解釋的獨特變異,共同變異則被拋棄了。在分層回歸中,將會把重疊(共同)變異分配給第一個模型中的預測變數。因此,共同變異將會分配給優先進入模型的變數。

重疊的預測變數(相關的預測變數Predictor variables that overlap)


簡單地看來,由一系列預測變數所解釋的變異就像一塊塊蛋糕堆積在一起。每個預測變數都有自己明確的一塊。它們到達桌子的時間是無關緊要的,因為總有同樣大小的蛋糕在等著它們。不同部分變異的簡單相加就構成了某個模型所解釋的總體變異。

但是,這種加法的觀點只有在每個預測變數互相獨立的情況下才是正確的。對於多重回歸來說,則往往不正確。假如預測變數彼此相關,它們就會在解釋變異時彼此競爭。歸因於某個預測變數的變異數量還取決於模型中所包含的其他變數。這就使得我們對兩個模型的比較進行解釋時,情況變得更為複雜。

方差分析模型是建立在模型中的因素相互獨立的基礎上的。在ANOVA中,因素對應于多重回歸中的預測變數。這些因素具有加法效應,變異(方差)可以被整齊地切開或分割。這些因素之間是正交的。

但是,在多重回歸中,變數進入模型的順序會影響該變數所分配的變異量。在這種情況下,預測變數就像一塊塊浸在咖啡杯中的海綿。每一塊都吸收了一些變異。在分層多重回歸中,第一塊浸入咖啡杯的海綿首先吸收變異,它貪婪地吸收盡可能多的變異。假如兩個預測變數相關,那它們所解釋的變異就存在重疊。如果一個變數首先進入模型,那它就將重疊(共同)變異吸收據為己有,不再與另一個變數分享。

在標準多重回歸中,所有預測變數同時進入模型,就像將所有海綿同時扔進咖啡杯一樣,它們互相分享共同變異。在這種情況下,偏相關的平方(sr2)與回歸係數相等,它們檢驗了相同的東西:排除了任何共同變異後的獨特變異。這樣,在多重回歸中,對回歸係數的T檢驗就是sr2的統計顯著性檢驗。但是,在分層回歸或逐步回歸中,sr2不再與回歸係數相等。但T檢驗仍然是對回歸係數的檢驗。要估計sr2是否顯著,必須對模型進行比較。

模型比較就是首先建立一個模型(模型a),使它包括除了要檢驗的變數以外的所有變數,然後再將想要檢驗的變數加入模型(模型b),看所解釋的變異是否顯著提高。要檢驗模型b是否要比模型a顯著地解釋了更多的變異,就要考察各個模型所解釋的變異之差是否顯著大於誤差變異。下面就是檢驗方程式(Tabachnik and Fidell, 1989)。

(R2b-R2a)/M

F = ————————

(1+ R2b) /dferror

(2為平方,a,b為下標。不知道在blog裡如何設置文字格式)

原文(DATA ANALYSIS FOR PSYCHOLOGY, George Dunbar)如此,但參考了其他書後,覺得這是誤印,真正的公式應該是這樣的:

(R2b-R2a)/M

F = ————————

(1- R2b) /dferror
注:

M是指模型b中添加的預測變數數量

R2b是指模型b(包含更多預測變數的模型)的複相關係數的平方(決定係數)。

R2a是指模型a(包含較少預測變數的模型)的複相關係數的平方(決定係數)。

dferror是指模型b誤差變異的自由度。

分層回歸與向前回歸、向後回歸和逐步回歸的區別:


後三者都是選擇變數的方法。

向前回歸:根據引數對因變數的貢獻率,首先選擇一個貢獻率最大的引數進入,一次只加入一個進入模型。然後,再選擇另一個最好的加入模型,直至選擇所有符合標準者全部進入回歸。

向後回歸:將引數一次納入回歸,然後根據標準刪除一個最不顯著者,再做一次回歸判斷其餘變數的取捨,直至保留者都達到要求。

逐步回歸是向前回歸法和向後回歸法的結合。首先按引數對因變數的貢獻率進行排序,按照從大到小的順序選擇進入模型的變數。每將一個變數加入模型,就要對模型中的每個變數進行檢驗,剔除不顯著的變數,然後再對留在模型中的變數進行檢驗。直到沒有變數可以納入,也沒有變數可以剔除為止。

向前回歸、向後回歸和逐步回歸都要按照一定判斷標準執行。即在將引數加入或刪除模型時,要進行偏F檢驗,計算公式為:

(R2b-R2a)/M

F = ————————

(1- R2b) /dferror

SPSS回歸所設定的預設標準是選擇進入者時偏F檢驗值為3.84,選擇刪除者時的F檢驗值為2.71。

從上面可以看出,分層回歸和各種選擇引數的方法,其實都涉及模型之間的比較問題,而且F檢驗的公式也相等,說明它們擁有相同的統計學基礎。但是,它們又是不同範疇的概念。分層回歸是對於模型比較而言的,而上面三種方法則是針對引數而言的。上面三種選擇引數的方法,都是由軟體根據設定標準來自動選擇進入模型的變數。而分層回歸則是由研究者根據經驗和理論思考來將引數分成不同的組(block),然後再安排每一組變數進入模型的順序,進入的順序不是根據貢獻率,而是根據相應的理論假設。而且,研究者還可以為不同組的引數選用不同的納入變數的方法。


分層回歸在SPSS上的實現

線上性回歸主對話方塊中,在定義完一組引數後,在因變數不變的情況下,利用block前後的previous和next按鈕,繼續將其他變數組加入模型。
創作者介紹
創作者 shadow 的頭像
shadow

資訊園

shadow 發表在 痞客邦 留言(0) 人氣()