機器學習——密度聚類

 

 

 

 

 

 簡單來說:鄰域就是范圍,密度就是該范圍內樣本的個數。

      核心點:設定一個閾值M,如果在該鄰域內不包括某點本身,樣本的個數大于閾值M,則此點就是核心點。

對于一個數據集來說,大部分都是核心點,因為鄰域是我隨便給的嘛,不是核心點的就是非核心點。

邊界點:若此點不是核心點,但是此點的鄰域內包含一個或多個核心點,那么此點為邊界點

異常點:既不是核心點也不是邊界點的就是異常點

直接密度可達:x1是核心點,x2,x3,x4,x5都在其鄰域內,則皆直接密度可達

 

 密度可達:

ABCD都是核心點,那么A到D密度可達

 

 密度相連:o到x2密度可達,o到y2密度可達,則Y2與x2密度相連

 

 

 

 

 

 

 

最大密度聚類算法(MDCA)

步驟:①先找出最大密度點,即所有點的鄰域內樣本數最多的那個點

      ②計算其他所有點與最大密度點的距離,并從小到大排序

給定一個p值,p的意思是從小到大排序后的前幾項

m值是閾值

    ③比如前2項吧。設第一項為x1,第二項為x2,如果x1與x2鄰域內的樣本數大于閾值m,那么x1與x2是核心點,其與最大密度點構成了一個簇,將最大密度點和x1,x2從原來的樣本中刪除,刪除后的原樣本再找一個最大密度點,繼續此操作。

    ④如果x1鄰域內的樣本數大于m,但是x2鄰域內的樣本數小于m,那么暫時將其當做噪音點。再把x2和剩下的樣本點找一個最大密度點,繼續此操作

    ⑤最后得到一個個的小簇,再看簇間距離是否小于閾值m,若小于閾值m時,小簇要合并,直到不能合并為止。

注意:單個簇內,除去簇中心點,最大樣本數為p

官方解釋如下:

 

 

posted @ 2020-01-01 18:39  淇則有岸  閱讀(...)  評論(...編輯  收藏