在機(jī)器學(xué)習(xí)中,一般都會按照下面幾個步驟:特征提取、數(shù)據(jù)預(yù)處理、特征選擇、模型訓(xùn)練、檢驗優(yōu)化。那么特征的選擇就很關(guān)鍵了,一般模型最后效果的好壞往往都是跟特征的選擇有關(guān)系的,因為模型本身的參數(shù)并沒有太多優(yōu)化的點(diǎn),反而特征這邊有時候多加一個或者少加一個,最終的結(jié)果都會差別很大。
在SparkMLlib中為我們提供了幾種特征選擇的方法,分別是VectorSlicer
、RFormula
和ChiSqSelector
。
下面就介紹下這三個方法的使用,強(qiáng)烈推薦有時間的把參考的文獻(xiàn)都閱讀下,會有所收獲!