兩步聚類算法是在SPSS Modeler中使用的一種聚類算法,是BIRCH層次聚類算法的改進版本??梢詰糜诨旌蠈傩詳?shù)據(jù)集的聚類,同時加入了自動確定最佳簇數(shù)量的機制,使得方法更加實用。本文在學習文獻[1]和“IBM SPSS Modeler 15 Algorithms Guide”的基礎上,融入了自己的理解,更詳盡地敘述兩步聚類算法的流程和細節(jié)。閱讀本文之前需要先行學習BIRCH層次聚類算法和對數(shù)似然距離。

    兩步聚類算法,顧名思義分為兩個階段:

    1)預聚類(pre-clustering)階段。采用了BIRCH算法中CF樹生長的思想,逐個讀取數(shù)據(jù)集中數(shù)據(jù)點,在生成CF樹的同時,預先聚類密集區(qū)域的數(shù)據(jù)點,形成諸多的小的子簇(sub-cluster)。

    2)聚類(clustering)階段。以預聚類階段的結果——子簇為對象,利用凝聚法(agglomerative hierarchical clustering method),逐個地合并子簇,直到期望的簇數(shù)量。

    兩步聚類算法的關鍵技術如圖所示:

 電腦培訓,計算機培
        
        	<div   id=

延伸閱讀

學習是年輕人改變自己的最好方式-Java培訓,做最負責任的教育,學習改變命運,軟件學習,再就業(yè),大學生如何就業(yè),幫大學生找到好工作,lphotoshop培訓,電腦培訓,電腦維修培訓,移動軟件開發(fā)培訓,網站設計培訓,網站建設培訓學習是年輕人改變自己的最好方式