據(jù)我們所知,有‘已知的已知’,有些事,我們知道我們知道;我們也知道,有 ‘已知的未知’,也就是說,有些事,我們現(xiàn)在知道我們不知道。但是,同樣存在‘不知的不知’——有些事,我們不知道我們不知道。
上一章中分類和回歸都屬于監(jiān)督學習。當目標值是未知時,需要使用非監(jiān)督學習,非監(jiān)督學習不會學習如何預測目標值。但是,它可以學習數(shù)據(jù)的結構并找出相似輸入的群組,或者學習哪些輸入類型可能出現(xiàn),哪些類型不可能出現(xiàn)。
5.1 異常檢測
異常檢測常用于檢測欺詐、網(wǎng)絡攻擊、服務器及傳感設備故障。在這些應用中,我們要能夠找出以前從未見過的新型異常,如新欺詐方式、新入侵方法或新服務器故障模式。
5.2 K均值聚類
聚類是最有名的非監(jiān)督學習算法,K均值聚類是應用最廣泛的聚類算法。它試圖在數(shù)據(jù)集中找出k個簇群。在K均值算法中數(shù)據(jù)點相互距離一般采用歐氏距離。
在K均值算法中簇群其實是一個點,即組成該簇的所有點的中信。數(shù)據(jù)點其實就是由所有數(shù)值型特征組成的特征向量,簡稱向量。
簇群的中心稱為質(zhì)心,它是簇群中所有點的算術平均值,因此算法取名K均值。算法開始時選擇一些數(shù)據(jù)點作為簇群的質(zhì)心。然后把每個數(shù)據(jù)點分配給最近的質(zhì)心。接著對每個簇計算該簇所有數(shù)據(jù)點的平均值,并將其作為該簇的新質(zhì)心。然后不斷重復這個過程。