摘要:譜聚類是基于譜圖理論基礎上的一種聚類方法,與傳統的聚類方法相比: 具有在任意形狀的樣本空間上聚類并且收斂于全局最優解的優點。 通過對樣本數據的拉普拉斯矩陣的特征向量進行聚類,從而達到對樣本數據進行聚類的目的; 其本質是將聚類問題轉換為圖的最優劃分問題,是一種點對聚類算法。譜聚類算法將數據集中的每個對 閱讀全文
posted @ 2020-01-01 19:39 淇則有岸 閱讀(49) 評論(0) 推薦(0) 編輯
摘要:原理:先設置兩個先驗值r1,r2,我把他們理解為內圈外圈,大家可以跟我學。將所有樣本放入一個列表,隨機選一個樣本拿出來作為第一個簇的簇中心點,然后從列表中剩下的所有樣本中隨機抽取一個,,計算其與簇中心點的距離。 如果大于外圈r1,則不屬于此簇,而是拿出去單獨成為一簇,并作為簇中心點,從列表中刪除此樣 閱讀全文
posted @ 2020-01-01 18:40 淇則有岸 閱讀(28) 評論(0) 推薦(0) 編輯
摘要:簡單來說:鄰域就是范圍,密度就是該范圍內樣本的個數。 核心點:設定一個閾值M,如果在該鄰域內不包括某點本身,樣本的個數大于閾值M,則此點就是核心點。 對于一個數據集來說,大部分都是核心點,因為鄰域是我隨便給的嘛,不是核心點的就是非核心點。 邊界點:若此點不是核心點,但是此點的鄰域內包含一個或多個核心 閱讀全文
posted @ 2020-01-01 18:39 淇則有岸 閱讀(29) 評論(0) 推薦(0) 編輯
摘要:Mini Batch K-Means算法是K-Means算法的一種優化變種,采用小規模的數據子集(每次訓練使用的數據集是在訓練算法的時候隨機抽取的數據子集)減少計算時間,同時試圖優化目標函數; Mini Batch K-Means算法可以減少K- Means算法的收斂時間,而且產生的結果效果只是略差 閱讀全文
posted @ 2020-01-01 17:30 淇則有岸 閱讀(180) 評論(0) 推薦(0) 編輯
摘要:共有以下幾種評價指標: 其中,僅輪廓系數比較合理,別的不過是牽強附會罷了,就差欺世盜名了。 混淆矩陣均- -性完整性V-measure調整蘭德系數(ARI)調整互信息(AMI)輪廓系數(Silhouette) 輪廓系數: 閱讀全文
posted @ 2020-01-01 17:28 淇則有岸 閱讀(106) 評論(0) 推薦(0) 編輯
摘要:層次聚類方法(我們做算法的用的很少)對給定的數據集進行層次的分解或者合并,直到滿足某種條件為止,傳統的層次聚類算法主要分為兩大類算法: ●凝聚的層次聚類: AGNES算法(AGglomerative NESting)==>采用自底向.上的策略。最初將每個對象作為一個簇,然后這些簇根據某些準則被一步一 閱讀全文
posted @ 2020-01-01 17:20 淇則有岸 閱讀(113) 評論(0) 推薦(0) 編輯
摘要:XGboost算法 XGBoost是GBDT算法的一種改進,是一種常用的有監督集成學習算法;是一種伸縮性強、便捷的可并行構建模型的GradientBoosting算法。 原理是:在GBDT目標函數的基礎上加入懲罰項,如下圖綠框。通過限制樹模型的葉子節點的個數和葉子節點的值來降低模型復雜度,從而防止過 閱讀全文
posted @ 2020-01-01 16:04 淇則有岸 閱讀(38) 評論(0) 推薦(0) 編輯
摘要:GBDT(梯度提升迭代決策樹) 總結 優先解決回歸問題,將第一個數據的殘差傳入到第二個數據中去 構建下一個數據集的數據是上一個數據集的殘差 詳述 GBDT也是Boosting算法的一種,但是和AdaBoost算法不同;區別如下: AdaBoost算法是利用前一輪的弱學習器的誤差來更新樣本權重值,然后 閱讀全文
posted @ 2020-01-01 16:03 淇則有岸 閱讀(92) 評論(0) 推薦(0) 編輯
摘要:相似度判定: ①距離,公式: 我們使用以歐式距離為主 ②夾角余弦值:越大,相似度越高 內積/模長 ③杰卡德相似系數與相關系數 如上圖,則說x1與x2相似,即為杰卡德相似系數,為保持和距離的性質一致性,所以1-杰卡德相似系數,相似系數也是一樣 簇:聚類之后的類別,即為簇 聚類只有合理不合理,沒有好與壞 閱讀全文
posted @ 2020-01-01 16:02 淇則有岸 閱讀(76) 評論(0) 推薦(0) 編輯
摘要:Boosting算法 關鍵點與難點在于如何修改數據 原理:將 含有m個數據的數據集 丟給一個弱學習器1分類,比如分對百分之60, 那么經過一定手段修改數據集,數據個數還是m個,將修改后的數據集扔給弱學習器2訓練,學習器2把在學習器1中分錯的那一部分又分對百分之三十。 再修改數據集,將修改后的數據集扔 閱讀全文
posted @ 2020-01-01 14:04 淇則有岸 閱讀(68) 評論(1) 推薦(0) 編輯
摘要:Bagging算法: 凡解:給定M個數據集,有放回的隨機抽取M個數據,假設如此抽取3組,3組數據一定是有重復的,所以先去重。去重后得到3組數據,每組數據量分別是s1,s2,s3,然后三組分別訓練組合成一個強模型。如下圖: 隨機森林算法: 一般用于大規模數據,百萬級以上的。 在Bagging算法的基礎 韩国快乐8开奖结果查询
posted @ 2020-01-01 14:00 淇則有岸 閱讀(105) 評論(0) 推薦(0) 編輯