原理
模型選擇統計量如殘差平方和(Residual Sum of Squares)隨著模型包含的自變數數量增多而減少,由此可導致過度擬合(Overfitting)的問題,即自變數數量過多導致模型預測能力下降。藉助Mallows’s C p 篩選自變數子集可以有效控制參數數量,從而達到最佳化模型的目的。 C p統計量的計算基於一個數據樣本,用於估計均方預測誤差(Mean Squared Prediction Error 或MSPE)作為總體目標值:
指代在j情形下回歸模型中的擬合值(fitted Value)
指代在j情形下回歸模型中的期望值(Expected Value)
指代誤差方差,假設在各情形下保持不變
MSPE不一定隨著自變數數量的增加而減少。最優模型條件由樣本大小(Sample Size),自變數數量及組合以及其間的多元共線性(Collinearity)共同決定。
假設及定義
假設
假設線性 原回歸模型(Full Model):
模型自變數係數為 ; 模型誤差為
如果K>p, 從K個自變數中篩選p個回歸自變數, 子回歸模型(Reduced Model):
模型自變數係數為 ;模型誤差為
定義
以 原回歸模型為基礎,其可能的一個 子回歸模型的 統計值 定義為
,
其中, n是樣本大小,MSE是均方誤差(Mean Square Error),SSE是誤差平方和(Sum of Square Error)
,指代 原回歸模型中的誤差平方和
,指代在含K個自變數的線性回歸模型中對第i個y樣本數據的擬合值
,指代 原回歸模型中的均方誤差
,指代 子回歸模型中的誤差平方和
,指代在含p個自變數的線性回歸模型中對第i個y樣本數據的擬合值
,指代 子回歸模型中的均方誤差
指代y因變數的第i個樣本數據的真實值;
根據線性回歸模型的假設,其中包括對普通最小二乘法以及對模型誤差分布的假設,是的估計值; 是 的估計值。
局限性
1. 需要大的樣本以提高 準確性
2. 在特徵選擇(Feature Selection)中不能處理複雜模型組合情況
實用性
通常,當 接近或小於p時,可停止篩選並採用該自變數子集為最佳組合,即 ,也就是採用數量較少的自變數組合來簡化模型的同時,也能保持模型的均方誤差不變或減小。同時緩解了過度擬合問題以及提升了模型的預測能力。