Svm相關(guān)

Svm相關(guān):

1)  SVM方法是通過(guò)一個(gè)非線性映射p,把樣本空間映射到一個(gè)高維乃至無(wú)窮維的特征空間中(Hilbert空間),使得在原來(lái)的樣本空間中非線性可分的問(wèn)題轉(zhuǎn)化為在特征空間中的線性可分的問(wèn)題.

2)  邏輯回歸和SVM的區(qū)別在于邏輯回歸采用的是logistical loss,svm采用的是hinge loss。這兩個(gè)損失函數(shù)的目的都是增加對(duì)分類影響較大的數(shù)據(jù)點(diǎn)的權(quán)重,減少與分類關(guān)系較小的數(shù)據(jù)點(diǎn)的權(quán)重。SVM的處理方法是只考慮support vectors,也就是和分類最相關(guān)的少數(shù)點(diǎn),去學(xué)習(xí)分類器。而邏輯回歸通過(guò)非線性映射,大大減小了離分類平面較遠(yuǎn)的點(diǎn)的權(quán)重,相對(duì)提升了與分類最相關(guān)的數(shù)據(jù)點(diǎn)的權(quán)重。兩者的根本目的都是一樣的。此外,根據(jù)需要,兩個(gè)方法都可以增加不同的正則化項(xiàng),如l1,l2等等。所以在很多實(shí)驗(yàn)中,兩種算法的結(jié)果是很接近的。

但是邏輯回歸相對(duì)來(lái)說(shuō)模型更簡(jiǎn)單,好理解,實(shí)現(xiàn)起來(lái),特別是大規(guī)模線性分類時(shí)比較方便。而SVM的理解和優(yōu)化相對(duì)來(lái)說(shuō)復(fù)雜一些。但是SVM的理論基礎(chǔ)更加牢固,有一套結(jié)構(gòu)化風(fēng)險(xiǎn)最小化的理論基礎(chǔ),雖然一般使用的人不太會(huì)去關(guān)注。還有很重要的一點(diǎn),SVM轉(zhuǎn)化為對(duì)偶問(wèn)題后,分類只需要計(jì)算與少數(shù)幾個(gè)支持向量的距離,這個(gè)在進(jìn)行復(fù)雜核函數(shù)計(jì)算時(shí)優(yōu)勢(shì)很明顯,能夠大大簡(jiǎn)化模型和計(jì)算量。

3)  核函數(shù)

SVM關(guān)鍵是選取核函數(shù)的類型,主要有線性內(nèi)核,多項(xiàng)式內(nèi)核,徑向基內(nèi)核(RBF),sigmoid核。最常用的是Linear核與RBF核。

1. Linear核:主要用于線性可分的情形。參數(shù)少,速度快,對(duì)于一般數(shù)據(jù),分類效果已經(jīng)很理想了。

2. RBF核:主要用于線性不可分的情形。參數(shù)多,分類結(jié)果非常依賴于參數(shù)。有很多人是通過(guò)訓(xùn)練數(shù)據(jù)的交叉驗(yàn)證來(lái)尋找合適的參數(shù),不過(guò)這個(gè)過(guò)程比較耗時(shí)。我個(gè)人的體會(huì)是:使用libsvm,默認(rèn)參數(shù),RBF核比Linear核效果稍差。通過(guò)進(jìn)行大量參數(shù)的嘗試,一般能找到比linear核更好的效果

4)  極大似然估計(jì)

設(shè)X1,X2..Xn是取自總體X的一個(gè)樣本。樣本的聯(lián)合密度和聯(lián)合概率函數(shù)為f(X1,X2…Xn,z).當(dāng)給定樣本X1,X2..Xn時(shí),定義似然函數(shù)L(z)= f(X1,X2…Xn,z),其可看為z的函數(shù)。極大似然估計(jì)法就是用使L(z)最大時(shí)的z去估計(jì)z.此時(shí)常用的方法是:

對(duì)等式兩邊同時(shí)取對(duì)數(shù),并每一個(gè)要估計(jì)的值求偏導(dǎo),并使導(dǎo)數(shù)為零,解多遠(yuǎn)一次方程組即可。

5)k-means

隨機(jī)選取k個(gè)中心點(diǎn),計(jì)算聚類,更新中心點(diǎn)。迭代上述操作,直到前后兩次中心點(diǎn)結(jié)果一樣。求中心點(diǎn)方法:求和加權(quán)平均

判斷其他點(diǎn)所屬簇的方法:依次求得該點(diǎn)距k個(gè)中心點(diǎn)的距離,取距離最小的中心點(diǎn)所在簇為其所屬簇。

分類: 數(shù)據(jù)挖掘概念與技術(shù)

網(wǎng)友評(píng)論