愛情預(yù)測:基于Facebook的社交網(wǎng)絡(luò)分析
范長煜 | 2016-08-10 13:46
【數(shù)據(jù)猿導(dǎo)讀】 在社會網(wǎng)絡(luò)中,一個人的網(wǎng)絡(luò)鄰居在不同的社會情境中具有相當(dāng)重要的作用,如社會支持、工作機(jī)會。網(wǎng)絡(luò)結(jié)構(gòu)中包括了家庭成員、同事、長期朋友、熟人,甚至包括潛在的戀人或配偶。在線社會網(wǎng)絡(luò)分析的一個重要應(yīng)用就在于利用數(shù)據(jù)識別這些形形色色的關(guān)系

給定一個人所有朋友的連接關(guān)系,單從網(wǎng)絡(luò)結(jié)構(gòu)你能識別出他或她的Romantic伴侶嗎?Facebook高級工程師Lars Backstrom和康內(nèi)爾大學(xué)計算機(jī)科學(xué)家Jon Kleinberg于2013年在 Eprint Arxiv 上發(fā)表《浪漫關(guān)系與社會網(wǎng)絡(luò)分散性:基于Facebook關(guān)系狀態(tài)的網(wǎng)絡(luò)分析》一文指出,利用他們建構(gòu)的“分散性”測度僅以網(wǎng)絡(luò)結(jié)構(gòu)就可以識別特定個體的愛情伴侶,甚至可以預(yù)測,如果一對戀人或配偶的分散性得分比較低,他們在隨后兩個月分手的概率會大于50%。
愛情關(guān)系
在社會網(wǎng)絡(luò)中,一個人的網(wǎng)絡(luò)鄰居在不同的社會情境中具有相當(dāng)重要的作用,如社會支持、工作機(jī)會。網(wǎng)絡(luò)結(jié)構(gòu)中包括了家庭成員、同事、長期朋友、熟人,甚至包括潛在的戀人或配偶。在線社會網(wǎng)絡(luò)分析的一個重要應(yīng)用就在于利用數(shù)據(jù)識別這些形形色色的關(guān)系。
為什么要研究浪漫關(guān)系,與其他親人、朋友的關(guān)系相比,它的是否有特殊之處,特殊在哪里?作者認(rèn)為配偶或戀人關(guān)系研究的重要性有如下幾個原因:(1)本質(zhì)上而言,在個人整個生命歷程中,從單身到年老,愛情關(guān)系是一類特殊的、起非常重要作用的社會關(guān)系;(2)愛情關(guān)系構(gòu)成了個體每天實踐和社交媒體使用的一個重要方面;(3)對原有從“嵌入性”角度討論社會網(wǎng)絡(luò)提出了挑戰(zhàn)。作者研究的一個重要發(fā)現(xiàn)就是:在愛情關(guān)系的識別中“分散性”測量比“嵌入性”測量更有效。
Facebook大數(shù)據(jù)與分散性測度
作者從 Facebook 中獲得一個隨機(jī)的用戶數(shù)據(jù)庫,在數(shù)據(jù)庫中通過用戶標(biāo)示的“married”,“engaged”或者“in a relationship”等識別相互間的關(guān)系。這個數(shù)據(jù)庫包含了 130 萬名在個人網(wǎng)絡(luò)資料中列出以上標(biāo)示配偶或戀人關(guān)系的姓名的成年人,這些人的連接的社會網(wǎng)包含了 86 億個與他人的關(guān)系。下圖展示了某個用戶的網(wǎng)絡(luò)結(jié)構(gòu),圖的上側(cè)和右上側(cè)有兩個密度較高,相互獨(dú)立的網(wǎng)絡(luò),其余網(wǎng)絡(luò)則較為稀疏,可見個體的網(wǎng)絡(luò)結(jié)構(gòu)是異質(zhì)性的。作者認(rèn)為這些跨群的個體作為連接橋,對于理解網(wǎng)絡(luò)中的關(guān)系非常重要 。
分散性的理論基礎(chǔ)
作者原試圖通過“嵌入性”理論來解決這一愛情關(guān)系的識別問題,但他們發(fā)現(xiàn)嵌入性理論只能完成 24% 的任務(wù),因此提出了“分散性”測量的替代性方案。 一般而言,在生活中多數(shù)人都擁有不少朋友群,這些群在互動中形成社會焦點(diǎn)( social foci ),如同事群、同學(xué)群。在群里,人們?nèi)舯舜讼嗷フJ(rèn)識,即使沒有強(qiáng)關(guān)系,這些群也包含了較高的嵌入性。
相反,一個人的伴侶或其他關(guān)系密切的朋友可能只有低度嵌入性,在這個網(wǎng)絡(luò)中,個體間通過不同的幾個焦點(diǎn)相互聯(lián)系,但沒有一個高度重疊的焦點(diǎn),例如一個成年男性,他妻子有同事、親戚、同學(xué),這些人可以通過這個妻子連接起來,但他們卻相互不認(rèn)識。下圖顯示了用戶u的社會網(wǎng)絡(luò),從u到b、c、f,每個連接都有5度的嵌入性,而u和h只有4度嵌入性;另一方面,節(jié)點(diǎn)u和h在c和f,j和k的連接中是獨(dú)特的一對,換句話說,u-h之間的連接分散度高于u與b、c、f之間的連接。
模型與預(yù)測
因此,與嵌入性描述的不同,在個體u和他的伴侶v之間所呈現(xiàn)的是“分散性”結(jié)構(gòu),即u與v之間并沒有高度的相互連接,他們之間只通過來自網(wǎng)絡(luò)不同部分的少數(shù)個體連接在一起。分散度的表達(dá)式如下:
其中dv表示伴侶u和v之間的距離,s和t分別表示在u和v兩者的網(wǎng)絡(luò)中沒有直接聯(lián)系的個體。當(dāng)s和t沒有直接連接且在u的個人網(wǎng)絡(luò)中沒有共同鄰居時,dv(s,t)等于1,否則就等于0。以上圖為例,Guh代表u和h的共同網(wǎng)絡(luò)鄰居,包括c、f、j和k,根據(jù)上述定義可知disp(u,v)=4,即有4對相互不連接且沒有共同鄰居的節(jié)點(diǎn),分別是c-j,c-k,f-j,f-k。相反,disp(u,b)=1,其共同鄰居包括a、c、d、f、e,但沒有直接聯(lián)系且沒有共同鄰居的僅a-e。作者把上述disp(u,v)稱為絕對分散性(absolutedispersion)。
作者分析發(fā)現(xiàn),要預(yù)測u與v是否是伴侶關(guān)系,以disp(u,v)/emb(u,v)效力最高,以norm(u,v)表示,定名為標(biāo)準(zhǔn)分散性(normalized dispersion)。在標(biāo)準(zhǔn)分散性的基礎(chǔ)上,作者又推導(dǎo)出另一個分散性叫遞歸分散性(recursive dispersion),以rec(u; v)表示,公式如下:
下表顯示了根據(jù)嵌入性和分散性公式計算,從數(shù)據(jù)分析得到的預(yù)測結(jié)果。從表中可知,與嵌入性公式相比,遞歸分散性有更高的預(yù)測效力,如在所有案例中,分散性公式有0.506的概率,而嵌入性公式僅0.247,結(jié)婚人士的預(yù)測效力更高,尤其是已婚男性,達(dá)到了0.667。
那么分散性與伴侶關(guān)系形成兩者的關(guān)聯(lián)是什么?作者設(shè)置了不同的分散度閾值,分析哪些分散度的預(yù)測概率更高。從下表可知,與2、3相比,分散度為4的時候預(yù)測概率最高,另外3種設(shè)置的預(yù)測概率也不如分散度為4的預(yù)測效力。也是就說,分散度越高,兩個人形成伴侶關(guān)系的可能性越大,作者分析了同性伴侶關(guān)系也是如此。
此外,利用機(jī)器學(xué)習(xí)法,通過每日社交網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù),作者計算并預(yù)測了個體進(jìn)入“結(jié)婚”狀態(tài)的概率。從下圖可以看出絕對分散性和標(biāo)準(zhǔn)分散性的預(yù)測準(zhǔn)確率大大高于嵌入性。
點(diǎn)評
這是一項重要的創(chuàng)新性研究。從社會網(wǎng)絡(luò)理論的角度,除了原來的“嵌入性”,“分散性”也具有重要意義,這項研究通過大數(shù)據(jù)分析發(fā)現(xiàn)了這一機(jī)制,但筆者尚未發(fā)現(xiàn)對這一機(jī)制的理論說明:為什么社會網(wǎng)絡(luò)分散度越高,兩人形成伴侶關(guān)系的可能性越高?
由于文章中建構(gòu)分散性測度的計算過程較為復(fù)雜,有興趣的讀者可以自行下載原文研讀,這里僅做簡要介紹。
來源:社論前沿
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1【金猿案例展】中國銀聯(lián):以內(nèi)外聯(lián)動的數(shù)
-
2【報名倒計時1周】P4個體化醫(yī)學(xué)60+殿堂
-
3全棧云原生產(chǎn)品戰(zhàn)略升級,時速云領(lǐng)跑云原
-
4新趨勢·新未來 | 2019第六屆中國嬰幼
-
5【金猿產(chǎn)品展】中原銀行智能化BI:一站式
-
6【金猿產(chǎn)品展】易觀方舟:智能用戶數(shù)據(jù)中
-
7【金猿人物展】張涵誠: 2020年大數(shù)據(jù)產(chǎn)
-
8小飯桌2019全球青年創(chuàng)業(yè)者大會圓滿舉辦,
-
9繁華之下有隱憂,零售企業(yè)如何走出增長困
-
10【金猿產(chǎn)品展】羽扇決策引擎平臺:運(yùn)籌帷