聚類分析——大數(shù)據(jù)時代數(shù)據(jù)挖掘的關(guān)鍵突破口
【數(shù)據(jù)猿導(dǎo)讀】 大數(shù)據(jù)作為網(wǎng)絡(luò)時代的一種客觀存在,是網(wǎng)絡(luò)時代人類社會的重要資產(chǎn),數(shù)據(jù)數(shù)量巨大等給人們的認(rèn)知造成了很大的困擾,盡管目前對于大數(shù)據(jù)的認(rèn)知存在挑戰(zhàn),但聚類將會成為大數(shù)據(jù)認(rèn)知的突破口,這是一個發(fā)展趨向

一、什么是聚類分析?
聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程,其目的是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。
聚類類似于分類,但與分類的目的不同,是針對數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個類別。屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關(guān)聯(lián)性很低。聚類與分類的不同還在于,聚類所要求劃分的類是未知的。
二、聚類分析的重要性
“物以類聚,人以群分”,這是人類幾千年來認(rèn)識世界和社會的基本能力,是從大數(shù)據(jù)中發(fā)現(xiàn)價值必須面對的一個普遍性、基礎(chǔ)性問題,是認(rèn)知科學(xué)作為“學(xué)科的學(xué)科”要解決的首要問題。無論是政治、經(jīng)濟、文學(xué)、歷史、社會、文化、還是數(shù)理、化工、醫(yī)農(nóng)、交通、地理、各行各業(yè)的大數(shù)據(jù)或宏觀或微觀的任何價值發(fā)現(xiàn),無不借助于大數(shù)據(jù)聚類分析的結(jié)果,因此,數(shù)據(jù)分析和挖掘的首要問題是聚類,這種聚類是跨學(xué)科、跨領(lǐng)域、跨媒體的。大數(shù)據(jù)聚類是數(shù)據(jù)密集型科學(xué)的基礎(chǔ)性、普遍性問題。
可以毫不夸張的講,如果聚類算法都搞不明白,或者說沒有“落地”的“實例”,那說在搞數(shù)據(jù)挖掘就純粹是忽悠了。
人類的認(rèn)知科學(xué)要想有所突破,首先就要在大數(shù)據(jù)聚類上去的突破,聚類是挖掘大數(shù)據(jù)資產(chǎn)價值的第一步。
三、聚類算法的種類
作為數(shù)據(jù)挖掘中很活躍的一個研究領(lǐng)域,聚類分析有多種算法。
基于劃分聚類算法:
k-means:是一種典型的劃分聚類算法,它用一個聚類的中心來代表一個簇,即在迭代過程中選擇的聚點不一定是聚類中的一個點,該算法只能處理數(shù)值型數(shù)據(jù)
k-modes:K-Means 算法的擴展,采用簡單匹配方法來度量分類型數(shù)據(jù)的相似度
k-prototypes:結(jié)合了 K-Means 和 K-Modes 兩種算法,能夠處理混合型數(shù)據(jù)
k-medoids:在迭代過程中選擇簇中的某點作為聚點,PAM 是典型的 k-medoids 算法
CLARA:CLARA 算法在 PAM 的基礎(chǔ)上采用了抽樣技術(shù),能夠處理大規(guī)模數(shù)據(jù)
CLARANS:CLARANS 算法融合了 PAM 和 CLARA 兩者的優(yōu)點,是第一個用于空間數(shù)據(jù)庫的聚類算法
Focused CLARAN:采用了空間索引技術(shù)提高了 CLARANS 算法的效率
PCM:模糊集合理論引入聚類分析中并提出了 PCM 模糊聚類算法
基于層次聚類算法:
CURE:采用抽樣技術(shù)先對數(shù)據(jù)集 D 隨機抽取樣本,再采用分區(qū)技術(shù)對樣本進行分區(qū),然后對每個分區(qū)局部聚類,最后對局部聚類進行全局聚類
ROCK:也采用了隨機抽樣技術(shù),該算法在計算兩個對象的相似度時,同時考慮了周圍對象的影響
CHEMALOEN(變色龍算法):首先由數(shù)據(jù)集構(gòu)造成一個 K- 最近鄰圖 Gk ,再通過一個圖的劃分算法將圖 Gk 劃分成大量的子圖,每個子圖代表一個初始子簇,最后用一個凝聚的層次聚類算法反復(fù)合并子簇,找到真正的結(jié)果簇
SBAC:SBAC 算法則在計算對象間相似度時,考慮了屬性特征對于體現(xiàn)對象本質(zhì)的重要程度,對于更能體現(xiàn)對象本質(zhì)的屬性賦予較高的權(quán)值
BIRCH:BIRCH 算法利用樹結(jié)構(gòu)對數(shù)據(jù)集進行處理,葉結(jié)點存儲一個聚類,用中心和半徑表示,順序處理每一個對象,并把它劃分到距離最近的結(jié)點,該算法也可以作為其他聚類算法的預(yù)處理過程
BUBBLE:BUBBLE 算法則把 BIRCH 算法的中心和半徑概念推廣到普通的距離空間
BUBBLE-FM:BUBBLE-FM算法通過減少距離的計算次數(shù),提高了BUBBLE算法的效率
基于密度聚類算法:
DBSCAN:DBSCAN 算法是一種典型的基于密度的聚類算法,該算法采用空間索引技術(shù)來搜索對象的鄰域,引入了“核心對象”和“密度可達”等概念,從核心對象出發(fā),把所有密度可達的對象組成一個簇
GDBSCAN:算法通過泛化 DBSCAN 算法中鄰域的概念,以適應(yīng)空間對象的特點
OPTICS:OPTICS 算法結(jié)合了聚類的自動性和交互性,先生成聚類的次序,可以對不同的聚類設(shè)置不同的參數(shù),來得到用戶滿意的結(jié)果
FDC:FDC 算法通過構(gòu)造 k-d tree 把整個數(shù)據(jù)空間劃分成若干個矩形空間,當(dāng)空間維數(shù)較少時可以大大提高 DBSCAN 的效率
基于網(wǎng)格的聚類算法:
STING:利用網(wǎng)格單元保存數(shù)據(jù)統(tǒng)計信息,從而實現(xiàn)多分辨率的聚類
WaveCluster:在聚類分析中引入了小波變換的原理,主要應(yīng)用于信號處理領(lǐng)域。(備注:小波算法在信號處理,圖形圖像,加密解密等領(lǐng)域有重要應(yīng)用,是一種比較高深和牛逼的東西)
CLIQUE:是一種結(jié)合了網(wǎng)格和密度的聚類算法
基于神經(jīng)網(wǎng)絡(luò)的聚類算法:
自組織神經(jīng)網(wǎng)絡(luò) SOM:該方法的基本思想是——由外界輸入不同的樣本到人工的自組織映射網(wǎng)絡(luò)中,一開始時,輸入樣本引起輸出興奮細胞的位置各不相同,但自組織后會形成一些細胞群,它們分別代表了輸入樣本,反映了輸入樣本的特征
基于統(tǒng)計學(xué)的聚類算法:
COBWeb:COBWeb 是一個通用的概念聚類方法,它用分類樹的形式表現(xiàn)層次聚類
AutoClass: 是以概率混合模型為基礎(chǔ),利用屬性的概率分布來描述聚類,該方法能夠處理混合型的數(shù)據(jù),但要求各屬性相互獨立
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結(jié)論。不同研究者對于同一組數(shù)據(jù)進行聚類分析,所得到的聚類數(shù)未必一致。
四、聚類分析的應(yīng)用
商業(yè)
聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。聚類分析是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預(yù)處理。
電子商務(wù)
聚類分析在電子商務(wù)中網(wǎng)站建設(shè)數(shù)據(jù)挖掘中也是很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務(wù)的用戶了解自己的客戶,向客戶提供更合適的服務(wù)。
大數(shù)據(jù)作為網(wǎng)絡(luò)時代的一種客觀存在,是網(wǎng)絡(luò)時代人類社會的重要資產(chǎn),數(shù)據(jù)數(shù)量巨大等給人們的認(rèn)知造成了很大的困擾,盡管目前對于大數(shù)據(jù)的認(rèn)知存在挑戰(zhàn),但聚類將會成為大數(shù)據(jù)認(rèn)知的突破口,這是一個發(fā)展趨向。
來源:錢塘大數(shù)據(jù)
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新