純干貨!清華大學(xué)教授講述社交網(wǎng)絡(luò)數(shù)據(jù)挖掘的前沿技術(shù)
【數(shù)據(jù)猿導(dǎo)讀】 近日,清華大學(xué)數(shù)據(jù)科學(xué)研究院院長俞士綸在清華RONGv2.0系列論壇之“社會(huì)關(guān)系網(wǎng)絡(luò)與大數(shù)據(jù)技術(shù)”專場上進(jìn)行了題為《社交網(wǎng)絡(luò)數(shù)據(jù)挖掘的前沿技術(shù)》的演講,本文就收錄了當(dāng)時(shí)演講內(nèi)容

首先感謝各位嘉賓參加清華RONGv2.0系列“社會(huì)關(guān)系網(wǎng)絡(luò)與大數(shù)據(jù)技術(shù)”的研討會(huì)。剛剛鄧教授已經(jīng)給我們講了一下這個(gè)問題的重要性,接下來我就跟大家分享一下我在這一方面的研究。
我們都知道大數(shù)據(jù)有4個(gè)“V”,數(shù)據(jù)的規(guī)模大、產(chǎn)生的速度快,但是更重要的是大數(shù)據(jù)是五花八門的,猶如萬花筒,各種各樣類型的數(shù)據(jù)都有。針對各種類型的數(shù)據(jù),我們?nèi)绻龊茫捅仨氁巡煌愋偷臄?shù)據(jù)融合在一起。這就是我們這個(gè)系列的主題——RONG,把不同的數(shù)據(jù)融合在一起才能做得更精確、內(nèi)涵更豐富。另外,因?yàn)閿?shù)據(jù)是五花八門的,所以這里也有一個(gè)問題,即不是所有的數(shù)據(jù)都可以直接融合在一起,處理得不好的話反而會(huì)把好的數(shù)據(jù)也弄糟了。把不同類型的數(shù)據(jù)有效融合起來后,接下來我們要能夠從中提取出價(jià)值來。
我們當(dāng)然知道社交網(wǎng)絡(luò)是一個(gè)典型,社交網(wǎng)絡(luò)很大,比如說美國的Facebook有數(shù)十億個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),中國的網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)量也極多。大家不斷地在社交網(wǎng)絡(luò)里發(fā)表意見,把照片或者視頻分享上去,這樣就產(chǎn)生了各種各樣的數(shù)據(jù),而且有各種不同形態(tài)的信息,如文本、圖像、鏈接、社區(qū)等。我們知道社交網(wǎng)絡(luò)上的信息是非常多的,湊在一起是規(guī)模巨大而價(jià)值稀疏的,怎么從中獲取價(jià)值是一個(gè)待解決的問題。
我今天主要講兩個(gè)問題:一,不同類型的數(shù)據(jù)如何融合在一起。二,怎么處理垃圾數(shù)據(jù)。
雖然我們講社交網(wǎng)絡(luò),但是社交網(wǎng)絡(luò)并不是只有一個(gè),在美國就有很多不同的社交網(wǎng)絡(luò)。一般大家最熟悉的是Facebook,但是Facebook并不是唯一的社交網(wǎng)絡(luò),比如說Twitter用得也很多,但是Twitter只是發(fā)一些短信息。另外有Foursquare,這個(gè)主要是面向電子商務(wù)的社交網(wǎng)站,其服務(wù)模式就是如果你的朋友看了相應(yīng)的店面以后都到這個(gè)店里來的話,那么他們的賬戶會(huì)顯示他們來過這里,逐漸地形成一個(gè)反映朋友偏好和趣味的網(wǎng)絡(luò)。像LinkedIn,基本上所有的人會(huì)把自己工作的內(nèi)容放到這上面去。如果你要去雇一個(gè)人,你就可以到LinkedIn,看看哪一個(gè)人適合你的需要。另外一個(gè)是YouTube,你可以將自己拍的視頻短片放上去。綜上所述,有各種各樣的社交網(wǎng)絡(luò),因?yàn)檫@些社交網(wǎng)絡(luò)的特性和興趣點(diǎn)不同,所以通常一個(gè)人會(huì)參加不同的社交網(wǎng)絡(luò)。
我們可以說每一個(gè)社交網(wǎng)絡(luò)個(gè)體在不同的社交網(wǎng)絡(luò)上的特點(diǎn)是不一樣的。如果我們可以和多個(gè)社交網(wǎng)絡(luò)融在一起的話,就可以得到更多的咨詢。如果你有新的社交網(wǎng)絡(luò),也可以從已知的其他社交網(wǎng)絡(luò)中拿到一些資料,得到更多信息。所以怎么樣把這些社交網(wǎng)絡(luò)融合在一起,是一個(gè)挑戰(zhàn)。
我們要把社交網(wǎng)絡(luò)融合在一起,要解決兩個(gè)問題:
一,一個(gè)人參加不同的社交網(wǎng)絡(luò)用的名字不見得是一樣的,所以你很難知道在社交網(wǎng)絡(luò)A和社交網(wǎng)絡(luò)B中的兩個(gè)賬號對應(yīng)著同一個(gè)人,這是一個(gè)挑戰(zhàn)。
二,即使你知道在Facebook里面的A人和Twitter的B人對應(yīng)的是一個(gè)人,怎么樣在Twitter里幫助他更好地利用其Facebook里的信息,這是另外一個(gè)挑戰(zhàn)。社交網(wǎng)絡(luò)的目的是把人聯(lián)在一起,所以通常在社交網(wǎng)絡(luò)里我們喜歡做的事情就是推薦朋友,這和電子商務(wù)里的推薦商品的功能類似。
在一個(gè)社交網(wǎng)絡(luò)上,最重要的是社交,也就是挖掘出誰和誰是朋友。任何一個(gè)社交網(wǎng)絡(luò)總是要推薦更多的朋友給你。但是怎么去推薦?通常社交網(wǎng)絡(luò)有各種各樣的信息在里面,當(dāng)然我們首先知道有一些人是朋友,他們會(huì)自行建立起聯(lián)系。此外,我們也可以知道這些人所在的不同的位置。另外在社交網(wǎng)絡(luò)里人們可以發(fā)表訊息,所以我們從這里面也可以知道他對什么有興趣,而且是什么時(shí)間有興趣的。所以,一般在一個(gè)社交網(wǎng)絡(luò)里,我們是可以知道誰在什么地方對什么有興趣,大概發(fā)生在什么時(shí)間。
如果我們想把兩個(gè)社交網(wǎng)絡(luò)連在一起,比如說foursquare,有的時(shí)候foursquare可以推薦Twitter的賬號,所以我們很容易就可以連在一起。所以說有一些人我們可以很容易地連在一起,因而就挨個(gè)用戶去關(guān)聯(lián),但是我們不清楚大部分的用戶不知道在另外一個(gè)社交網(wǎng)絡(luò)里的對應(yīng)是什么。所以一般來說我們拿到一個(gè)網(wǎng)絡(luò),通常只有一部分人的兩邊是對應(yīng)的。
所以通常我們的研究中,如果要做社交網(wǎng)絡(luò)朋友的預(yù)測,我們可以這樣來做。根據(jù)我們已經(jīng)知道的Anchor Link,訓(xùn)練一下幫我們組織更多的AnchorLink。再幫我們對應(yīng)到SocialLink里,然后再回來。
為什么連到另外一個(gè)社交網(wǎng)絡(luò)?比如說我們知道這些人,我們現(xiàn)在要預(yù)測A和B是不是朋友,你要看A的朋友和B的朋友之間有沒有交集,如果A和B之間有很多共同的朋友,我們就覺得這兩個(gè)人很可能會(huì)變成朋友,我們就可以做推薦。反之,如果沒有交集,我們很難給出推測。如果這個(gè)網(wǎng)絡(luò)不夠密,便很可能找不到A和B之間的聯(lián)系。但是,如果我們知道A在另外一個(gè)社交網(wǎng)絡(luò)里的對應(yīng)賬戶,我們就知道他在另外一個(gè)社交網(wǎng)絡(luò)里的朋友,如果有這個(gè)信息,對我們推薦他們兩個(gè)做朋友會(huì)很有幫助。再看一個(gè)例子,有兩個(gè)社交網(wǎng)絡(luò),在第一個(gè)網(wǎng)絡(luò)里C和A連接,在另外一個(gè)網(wǎng)絡(luò)里B和A連接,所以B和C他們兩個(gè)是朋友的朋友。
如果我們把這些數(shù)據(jù)源有效地融合起來,我們的預(yù)測就會(huì)比單用一個(gè)數(shù)據(jù)源做得更精準(zhǔn)。
下面一個(gè)問題是我們怎么處理社交網(wǎng)絡(luò)里的垃圾信息,比如說到一個(gè)飯店吃飯,我們習(xí)慣于去看一看在大眾點(diǎn)評上面對這個(gè)飯店的評價(jià)怎么樣,如果大家都說這個(gè)飯店好我們就去吃。但是我們常常碰到的問題是這些評論里包含很多的垃圾信息,就是說事實(shí)上也不見得是真的好吃,只是有人要故意去放一些好的評價(jià),把你騙過去?;蛘咚幌矚g旁邊這一家,就放一些對旁邊那家不好的評價(jià),所以有時(shí)候你看到的評價(jià)是制作的。也就是說,你如果想知道這飯店到底怎么樣,就要把這些垃圾信息去掉,否則這些評價(jià)是不可信的。但是你剛剛看一個(gè)評價(jià),你很難決定一個(gè)評價(jià)是不是一個(gè)垃圾信息,因?yàn)閷懙奈那椴⒚?,我到這里很好吃,怎么樣的,跟事實(shí)不符,所以你光讀這個(gè)文字還不夠,不能說這個(gè)文字寫得很好就不是一個(gè)垃圾信息;那個(gè)文字寫得不好,也許是在手機(jī)上打的,還有錯(cuò)字,但是也并不表示它是垃圾信息。所以這是一個(gè)很困難的問題。
值得慶幸的是,我們不是只有一個(gè)評價(jià),而是有很多的評價(jià)。也不是只有一家飯店,而是有很多家飯店。我們可以用這大量的數(shù)據(jù)來幫助我們解決這個(gè)問題。大數(shù)據(jù)的大也有大的好處。一般來說一個(gè)評價(jià)者會(huì)評價(jià)很多不同的店,每一個(gè)店會(huì)收到很多評價(jià)。所以說我們要把他們之間的關(guān)系找出來,通常,如果一個(gè)評價(jià)者寫的這些評價(jià)都是很可信的,我們說他是誠實(shí)的;另一方面,如果一個(gè)評價(jià)跟其他誠實(shí)的評價(jià)者所寫的一致,我們就說這個(gè)評價(jià)是可信的。另外,如果大多數(shù)誠實(shí)的評價(jià)者都說一家店好,我們就說這家店是可靠的;反之亦然。最后,不誠實(shí)評價(jià)者的評論的我們是不看的。
總結(jié)一下,我們怎么說一個(gè)點(diǎn)評是誠實(shí)的?要看兩件事情:一,如果他跟值得信任的人的意見是一致的,那就很誠實(shí)。如果他跟不誠實(shí)的人的意見不一致,那也可以得到一些信息。最后我們說打分行為,這是非常好的店,你去給一個(gè)不好的評價(jià),對這個(gè)評價(jià)者誠實(shí)的影響很大。但是如果說有人喜歡,有人不喜歡,那也無所謂,影響不到你的誠信問題。
歸根結(jié)底,我們評價(jià)一個(gè)商店究竟好不好,如果誠實(shí)的評價(jià)者都說是好的,那就是好的。誠實(shí)的人說它不好,這個(gè)也是可以的。我們只是看這之間的評價(jià),就可以算這個(gè)商店是不是好的。比如說我們來看這些商店,如果我們比較Resellerating評分的話,基本上Resellerating評分越高,那么我們認(rèn)為店鋪的評價(jià)越好。有的時(shí)候像CCI這個(gè)商店,雖然BBB評分很高,但是Resellerating評分很低,我們認(rèn)為這家店并不好,我們做了更深入的調(diào)查,發(fā)現(xiàn)這個(gè)商店是有問題的。
所以我們總結(jié),大數(shù)據(jù)時(shí)代,大家都已經(jīng)了解數(shù)據(jù)越來越重要,當(dāng)然社交網(wǎng)絡(luò)是一個(gè)有一大堆數(shù)據(jù)的地方,我們要從這里面試著把金子煉出來。在大數(shù)據(jù)時(shí)代,如果能夠從這個(gè)大數(shù)據(jù)中,而不光是哪方面的數(shù)據(jù),提煉出價(jià)值,這會(huì)給我們新的機(jī)會(huì)。這是一種顛覆性的技術(shù),很多傳統(tǒng)的產(chǎn)業(yè)如果不重視數(shù)據(jù),他們可能就會(huì)被推倒,這也給了我們很多新的機(jī)會(huì),我們可以成立新的公司。上一次有一個(gè)顛覆性的技術(shù)發(fā)生的時(shí)候就是網(wǎng)絡(luò),網(wǎng)絡(luò)發(fā)生的時(shí)候就有很多新興的企業(yè)跳出來,在中國有阿里巴巴,傳統(tǒng)的產(chǎn)業(yè),比如在美國很多的零售產(chǎn)業(yè),就發(fā)生了很大的問題。第一個(gè)是書店,你在哪里買都是同樣的書,同樣的價(jià)錢在網(wǎng)上可以給你寄來,還不如在網(wǎng)上買。電子也是一樣的。所以我們可以看出來,傳統(tǒng)產(chǎn)業(yè)如果不注意,就會(huì)發(fā)生問題。最簡單的就是出租車,傳統(tǒng)的出租車行業(yè)就發(fā)生問題了,現(xiàn)在在手機(jī)上叫滴滴會(huì)更方便。對我們同學(xué)來說這是一個(gè)莫大的機(jī)會(huì),如果你可以抓到大數(shù)據(jù),也許就可以開一個(gè)新的公司。我們總理也說,這是一個(gè)大機(jī)會(huì)。
從數(shù)據(jù)里面找出金子也不是一個(gè)簡單的事情,我們今天講了很多,你們也看到了,這個(gè)東西還是要有技術(shù)的,不管是統(tǒng)計(jì)技術(shù)還是計(jì)算機(jī)技術(shù)等,有這些知識(shí)才能夠創(chuàng)業(yè)。不管怎么樣,大數(shù)據(jù)一定會(huì)對將來不同的產(chǎn)業(yè),對我們每個(gè)人的生活發(fā)生莫大的影響。所以希望大家今天好好地參與這個(gè)座談會(huì),希望你們能夠吸收一些好的知識(shí),謝謝大家!
來源:數(shù)據(jù)派
刷新相關(guān)文章
我要評論
活動(dòng)推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會(huì)丨《云MSP發(fā)展白皮書》重