聲明:本文是站在回歸分析角度講的,分類的理解可能跟這有點不一樣。
1.前言
隨機森林也是集成方法的一種,是對Bagging算法的改進。
隨機森林主要有兩步組成:
1)有放回的隨機抽取樣本數(shù)據(jù),形成新的樣本集。這部分和Bagging算法一樣,但是有兩點需要注意:
a)新的樣本集的大小和原始樣本集的大小是一樣的。假如原始樣本有1000個數(shù)據(jù),那么新樣本集也要包括1000個數(shù)據(jù),只是新樣本集里面會含有部分重復的數(shù)據(jù),這樣可以避免過度擬合的問題。
b)每生成一個決策樹,都需要重新對原始數(shù)據(jù)進行取樣。假如進行k次訓練(即生成k課樹),那么就需要重復k次這個動作
2)無放回的隨機抽取屬性列。假如有12個屬性(即12列),從這12個屬性列中隨機抽取無重復的n列(一般建議是總屬性的1/3)進行運算。每次訓練都需要重新抽取
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉無線電——不安全的藍牙鎖 2017-07-26
- 消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實現(xiàn)JSON轉Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應用分析 2017-07-26
- 集合結合數(shù)據(jù)結構來看看(二) 2017-07-26