Svm相關(guān)

Svm相關(guān):

1)  SVM方法是通過一個非線性映射p,把樣本空間映射到一個高維乃至無窮維的特征空間中(Hilbert空間),使得在原來的樣本空間中非線性可分的問題轉(zhuǎn)化為在特征空間中的線性可分的問題.

2)  邏輯回歸和SVM的區(qū)別在于邏輯回歸采用的是logistical loss,svm采用的是hinge loss。這兩個損失函數(shù)的目的都是增加對分類影響較大的數(shù)據(jù)點的權(quán)重,減少與分類關(guān)系較小的數(shù)據(jù)點的權(quán)重。SVM的處理方法是只考慮support vectors,也就是和分類最相關(guān)的少數(shù)點,去學(xué)習(xí)分類器。而邏輯回歸通過非線性映射,大大減小了離分類平面較遠的點的權(quán)重,相對提升了與分類最相關(guān)的數(shù)據(jù)點的權(quán)重。兩者的根本目的都是一樣的。此外,根據(jù)需要,兩個方法都可以增加不同的正則化項,如l1,l2等等。所以在很多實驗中,兩種算法的結(jié)果是很接近的。

但是邏輯回歸相對來說模型更簡單,好理解,實現(xiàn)起來,特別是大規(guī)模線性分類時比較方便。而SVM的理解和優(yōu)化相對來說復(fù)雜一些。但是SVM的理論基礎(chǔ)更加牢固,有一套結(jié)構(gòu)化風(fēng)險最小化的理論基礎(chǔ),雖然一般使用的人不太會去關(guān)注。還有很重要的一點,SVM轉(zhuǎn)化為對偶問題后,分類只需要計算與少數(shù)幾個支持向量的距離,這個在進行復(fù)雜核函數(shù)計算時優(yōu)勢很明顯,能夠大大簡化模型和計算量。

3)  核函數(shù)

SVM關(guān)鍵是選取核函數(shù)的類型,主要有線性內(nèi)核,多項式內(nèi)核,徑向基內(nèi)核(RBF),sigmoid核。最常用的是Linear核與RBF核。

1. Linear核:主要用于線性可分的情形。參數(shù)少,速度快,對于一般數(shù)據(jù),分類效果已經(jīng)很理想了。

2. RBF核:主要用于線性不可分的情形。參數(shù)多,分類結(jié)果非常依賴于參數(shù)。有很多人是通過訓(xùn)練數(shù)據(jù)的交叉驗證來尋找合適的參數(shù),不過這個過程比較耗時。我個人的體會是:使用libsvm,默認參數(shù),RBF核比Linear核效果稍差。通過進行大量參數(shù)的嘗試,一般能找到比linear核更好的效果

4)  極大似然估計

設(shè)X1,X2..Xn是取自總體X的一個樣本。樣本的聯(lián)合密度和聯(lián)合概率函數(shù)為f(X1,X2…Xn,z).當(dāng)給定樣本X1,X2..Xn時,定義似然函數(shù)L(z)= f(X1,X2…Xn,z),其可看為z的函數(shù)。極大似然估計法就是用使L(z)最大時的z去估計z.此時常用的方法是:

對等式兩邊同時取對數(shù),并每一個要估計的值求偏導(dǎo),并使導(dǎo)數(shù)為零,解多遠一次方程組即可。

5)k-means

隨機選取k個中心點,計算聚類,更新中心點。迭代上述操作,直到前后兩次中心點結(jié)果一樣。求中心點方法:求和加權(quán)平均

判斷其他點所屬簇的方法:依次求得該點距k個中心點的距離,取距離最小的中心點所在簇為其所屬簇。

分類: 數(shù)據(jù)挖掘概念與技術(shù)

延伸閱讀

學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負責(zé)任的教育,學(xué)習(xí)改變命運,軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動軟件開發(fā)培訓(xùn),網(wǎng)站設(shè)計培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)學(xué)習(xí)是年輕人改變自己的最好方式