決策樹(shù)
決策樹(shù)是十大數(shù)據(jù)挖掘算法之一,在很多工程實(shí)踐中都取得了很好的效果。其分類決策過(guò)程與20問(wèn)游戲類似,專家系統(tǒng)中經(jīng)常適用決策樹(shù),而且決策樹(shù)給出結(jié)果往往可以匹敵在當(dāng)前領(lǐng)域具有幾十年工作經(jīng)驗(yàn)的人類專家。
本文對(duì)決策樹(shù)的基本原理,優(yōu)缺點(diǎn),應(yīng)用場(chǎng)景等進(jìn)行了簡(jiǎn)要的概述。此外將會(huì)陸續(xù)實(shí)現(xiàn)常用的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,有簡(jiǎn)單直觀的notebook形式,也有python易用重用的代碼。代碼實(shí)踐部分參考[4],數(shù)據(jù)也來(lái)源于課本附帶的小的數(shù)據(jù)集,方便使用。
代碼鏈接:https://github.com/hfl15/MLinAction
概述
優(yōu)點(diǎn):
計(jì)算復(fù)雜度不高,輸出結(jié)果易于理解,對(duì)中間值的缺失不敏感,可以處理不相關(guān)特征數(shù)據(jù)[4]。
不需要領(lǐng)域知識(shí)和參數(shù)設(shè)置,可以處理高維數(shù)據(jù),樹(shù)型表示直觀容易理解,學(xué)習(xí)和分類步驟簡(jiǎn)單、快速,一般有較好的準(zhǔn)確率[3]
缺點(diǎn):
可能產(chǎn)生過(guò)擬合[4]
適用數(shù)據(jù)類型:
標(biāo)稱型、數(shù)值型(需要離散化)[4]
關(guān)鍵字:
決策樹(shù)歸納,分裂屬性選擇,剪枝
算法步驟
Input: D: data set, contain value and class label attribute_list : candidate attribute list Attribute_selection_method: a process to select best split attribute in candidate attribute list Return: a decision tree DecisionTree(D, attribute_list, Attribute_selection_method): create a new node TNode; if all instance in D have the same class label C: return TNode as a leaf node and label with class C;