聲明:本文是站在回歸分析角度講的,分類的理解可能跟這有點不一樣。

1.前言

        隨機森林也是集成方法的一種,是對Bagging算法的改進。

        隨機森林主要有兩步組成:

        1)有放回的隨機抽取樣本數(shù)據(jù),形成新的樣本集。這部分和Bagging算法一樣,但是有兩點需要注意:

             a)新的樣本集的大小和原始樣本集的大小是一樣的。假如原始樣本有1000個數(shù)據(jù),那么新樣本集也要包括1000個數(shù)據(jù),只是新樣本集里面會含有部分重復的數(shù)據(jù),這樣可以避免過度擬合的問題。

             b)每生成一個決策樹,都需要重新對原始數(shù)據(jù)進行取樣。假如進行k次訓練(即生成k課樹),那么就需要重復k次這個動作

        2)無放回的隨機抽取屬性列。假如有12個屬性(即12列),從這12個屬性列中隨機抽取無重復的n列(一般建議是總屬性的1/3)進行運算。每次訓練都需要重新抽取

延伸閱讀

學習是年輕人改變自己的最好方式-Java培訓,做最負責任的教育,學習改變命運,軟件學習,再就業(yè),大學生如何就業(yè),幫大學生找到好工作,lphotoshop培訓,電腦培訓,電腦維修培訓,移動軟件開發(fā)培訓,網(wǎng)站設計培訓,網(wǎng)站建設培訓學習是年輕人改變自己的最好方式