1.前言
前面提到的算法都是通過一個函數(shù)來擬合數(shù)據(jù)解決問題,也就是單個機器學(xué)習(xí)算法,與其相對的還有多個機器學(xué)習(xí)算法,即:集成方法。
集成方法來源:如果模型之間近似相互獨立,則多個模型聯(lián)合的性能要優(yōu)于單個模型。大致上可以分成兩類:(一)把幾種不同的機器學(xué)習(xí)算法集合到一起(二)把一種算法的不同參數(shù)組合起來。
集成方法由兩層算法組成。底層的算法叫基學(xué)習(xí)器或者弱學(xué)習(xí)器,是單個機器學(xué)習(xí)算法,然后這些算法被集成到高層的一個方法中。
梯度提升算法(Gradient Boosting)屬于把一種算法的不同參數(shù)組合起來的方式。
2.關(guān)于梯度提升算法
梯度提升算法是由Bagging算法改進而來。
Bagging算法的基本原理:從數(shù)據(jù)集中有放回的隨機取樣,每次抽取一定比例的數(shù)據(jù)作為訓(xùn)練樣本,剩下的數(shù)據(jù)作為測試樣本。重復(fù)以上動作n次,然后對每次動作訓(xùn)練一個基學(xué)習(xí)器,然后把這些學(xué)習(xí)器組合到一起,成為集合算法。由于n的不確定性,所以并不是所有的基學(xué)習(xí)器都會參與到最后的集合算法中去,后面會介紹如何進行篩選。