在多元線性回歸中,并不是所用特征越多越好;選擇少量、合適的特征既可以避免過擬合,也可以增加模型解釋度。這里介紹3種方法來選擇特征:最優(yōu)子集選擇
、向前或向后逐步選擇
、交叉驗證法
。
最優(yōu)子集選擇
這種方法的思想很簡單,就是把所有的特征組合都嘗試建模一遍,然后選擇最優(yōu)的模型?;救缦拢?/p>
對于p個特征,從k=1到k=p——
從p個特征中任意選擇k個,建立C(p,k)個模型,選擇最優(yōu)的一個(RSS最小或R2最大);
從p個最優(yōu)模型中選擇一個最優(yōu)模型(交叉驗證誤差、Cp、BIC、Adjusted R2等指標)。
這種方法優(yōu)勢很明顯:所有各種可能的情況都嘗遍了,最后選擇的一定是最優(yōu);劣勢一樣很明顯:當p越大時,計算量也會越發(fā)明顯地增大(2^p)。因此這種方法只適用于p較小的情況。
以下為R中