明略技術(shù)合伙人任鑫琦:數(shù)據(jù)關(guān)系挖掘算法、技術(shù)難點(diǎn)及應(yīng)用場景分析
劉羽飛 | 2016-05-06 14:20
【數(shù)據(jù)猿導(dǎo)讀】 數(shù)據(jù)孤島、零散數(shù)據(jù)等現(xiàn)象一直是企業(yè)大數(shù)據(jù)應(yīng)用過程中所常見的問題,當(dāng)數(shù)據(jù)以及數(shù)據(jù)來源增加過快時,不同數(shù)據(jù)之間的打通就成了最大的困難,有時這對于傳統(tǒng)企業(yè)來說更是尤為困難

數(shù)據(jù)關(guān)系挖掘作為解決數(shù)據(jù)孤島等難題的手段之一,可以有效的幫助企業(yè)將多樣化的數(shù)據(jù)進(jìn)行統(tǒng)一存儲并挖掘出其中隱藏的價值,目前在公安、電信、金融等傳統(tǒng)行業(yè)中的應(yīng)用也正變得愈加廣泛。為了了解數(shù)據(jù)關(guān)系挖掘背后的算法應(yīng)用、技術(shù)難點(diǎn)等問題,InfoQ對明略數(shù)據(jù)技術(shù)合伙人及SCOPA產(chǎn)品負(fù)責(zé)人任鑫琦進(jìn)行了獨(dú)家專訪。
SCOPA是明略數(shù)據(jù)去年底剛剛推出的一款數(shù)據(jù)關(guān)系挖掘新產(chǎn)品,它構(gòu)建在企業(yè)大數(shù)據(jù)平臺之上,可結(jié)合明略數(shù)據(jù)在特定領(lǐng)域與行業(yè)中積累的業(yè)務(wù)知識,進(jìn)行領(lǐng)域模型的轉(zhuǎn)換,并且將轉(zhuǎn)換后的領(lǐng)域模型對象數(shù)據(jù)進(jìn)行關(guān)聯(lián),將所有數(shù)據(jù)轉(zhuǎn)換成業(yè)務(wù)人員能輕松理解的數(shù)據(jù)形式,挖掘出這些數(shù)據(jù)之間的聯(lián)系,把有關(guān)聯(lián)的數(shù)據(jù)放在一起,最后交給上層的業(yè)務(wù)人員用以展示或分析。
明略技術(shù)合伙人任鑫琦
Q:提到數(shù)據(jù)挖掘和數(shù)據(jù)分析,就不得不談算法的問題。前一段時間谷歌AlphaGo在圍棋對戰(zhàn)中戰(zhàn)勝世界頂級圍棋棋手李世石,這使得機(jī)器算法的話題引起了一陣熱議。能否請您談一談明略的SCOPA在實(shí)際使用時都用到了哪些算法?怎么用的?這些算法各自又有什么不同的特點(diǎn)?
任鑫琦:SCOPA在做數(shù)據(jù)的關(guān)系構(gòu)建或數(shù)據(jù)關(guān)聯(lián)時,要用到的方法是多種多樣的。因?yàn)樵谶@一過程中所面對的數(shù)據(jù)形式、數(shù)據(jù)來源、數(shù)據(jù)種類同樣也是多種多樣的?;A(chǔ)的數(shù)據(jù)挖掘算法肯定是必要的,比如基礎(chǔ)的分類算法和聚類算法,這也是明略數(shù)據(jù)在公安和金融領(lǐng)域通過實(shí)踐而知的,不同于其他行業(yè)應(yīng)用的一個重要方面。
傳統(tǒng)行業(yè)的業(yè)務(wù)人員更多的是依靠自己的經(jīng)驗(yàn)和習(xí)慣去總結(jié)一些類似于公式的東西,然后將抽樣數(shù)據(jù)或者是能找到的結(jié)構(gòu)化數(shù)據(jù)套用在這個公式上去計(jì)算,然后得到比如像重點(diǎn)人防控的數(shù)據(jù)模型或者是金融行業(yè)里的反欺詐數(shù)據(jù)模型等等。這些模型的問題大多在于它是源于“人”的經(jīng)驗(yàn),其數(shù)據(jù)特征都是由“人”的主管意識來決定的。
從傳統(tǒng)的數(shù)據(jù)挖掘方法上來看,明略其實(shí)是利用相關(guān)技術(shù),先將所有數(shù)據(jù)進(jìn)行人工智能處理,比如先自動的按照一些基本特征去進(jìn)行分類、聚類,雖然這中間產(chǎn)生的數(shù)據(jù)處理結(jié)果并一定能被人類完全理解,但是SCOPA會在這個基礎(chǔ)之上再根據(jù)一些真實(shí)的數(shù)據(jù)樣本,比如公安部門中的案件數(shù)據(jù),或者金融領(lǐng)域里過去發(fā)生的欺詐行為的數(shù)據(jù),來作為樣本再進(jìn)行訓(xùn)練。這樣的話,之后得出來的規(guī)則集和模型,其實(shí)都是由真實(shí)的數(shù)據(jù)特征所決定的結(jié)果,相比“人”的主觀意識來說會更精確。
另外在解決數(shù)據(jù)關(guān)聯(lián)問題上,明略會把數(shù)據(jù)轉(zhuǎn)化成類似知識圖譜的形式去進(jìn)行存儲,幫助業(yè)務(wù)人員能夠更容易地去理解這些數(shù)據(jù)。而在這之后,就可以結(jié)合很多在互聯(lián)網(wǎng)領(lǐng)域中很成熟的圖像數(shù)據(jù)挖掘與分析的方法,從中再繼續(xù)提取數(shù)據(jù)特征,找到有用的信息。
比如一些離線的圖挖掘算法,可以做一個省內(nèi)一億人口之間的數(shù)據(jù)記錄關(guān)系網(wǎng),然后就能從數(shù)據(jù)關(guān)系網(wǎng)當(dāng)中挖掘出一些可疑的團(tuán)伙或是一些正常的交集群,這些通過現(xiàn)成的數(shù)據(jù)挖掘算法就可以實(shí)現(xiàn)。甚至還可以做一些link prediction的預(yù)測工作,分析這張數(shù)據(jù)關(guān)系網(wǎng)里面哪部分處于活躍狀態(tài),哪部分未來可能會發(fā)生一些關(guān)聯(lián)的事件。
同時這張數(shù)據(jù)關(guān)系網(wǎng)也可以做一些可視化的展示,或是可視化的分析。比如在一個群體內(nèi)部,可以分析出哪些方面是權(quán)重點(diǎn),而這就需要一些更具體的圖挖掘或圖分析的算法了。比如可以利用基于Betweenness或Closeness等方法去計(jì)算出一些核心點(diǎn)。
舉一些簡單例子,比如基于Betweenness計(jì)算的點(diǎn),它相當(dāng)于在一個犯罪團(tuán)伙內(nèi)所有通路和路徑交匯最多的一個點(diǎn),也相當(dāng)于這個團(tuán)伙組織架構(gòu)的一個核心點(diǎn),而這個點(diǎn)可能并不只一個,那么如果能夠把這些點(diǎn)都一一破獲的話,那么這個團(tuán)伙或者組織就基本會落網(wǎng)了,這在公安部門打擊一些非法傳銷或者非法金融鏈條的時候會有所應(yīng)用。而基于Closeness的方法則是利用計(jì)算中心度的方式來尋找一些團(tuán)伙內(nèi)真正的核心人物,這個人關(guān)聯(lián)到團(tuán)伙內(nèi)其他人的平均距離應(yīng)該是最短的,這也是打擊非法團(tuán)伙的最快方式。
此外由于在大量的結(jié)構(gòu)化數(shù)據(jù)之外還有很多非結(jié)構(gòu)化的數(shù)據(jù),尤其是像公安部門中的案情、筆錄、出警描述這樣的文本數(shù)據(jù),里面往往都包含著非常重要信息,所以SCOPA所使用比較多的另外一類算法,就是自然語言處理NLP,同時也會進(jìn)行非常精準(zhǔn)的命名實(shí)體識別,并計(jì)算實(shí)體之間的關(guān)系。比如可以通過一段文字描述鎖定在某地區(qū)出現(xiàn)過的一群人,同時分析這些人之間的聯(lián)系,其中哪些人跟某個案件有什么樣的關(guān)聯(lián),受害人或被害人是誰,他們是否有一些共同的特征,某些地址、單位是否會跟他們產(chǎn)生關(guān)聯(lián),這些都是自然語言處理算法需要解決的問題。
當(dāng)需要處理的案件描述非常多的情況下,比如110接警電話記錄,或是警察調(diào)查走訪的筆錄等等,那么SCOPA就可以進(jìn)行自動化的案件對比和分類工作,以便在大規(guī)模的案件描述里挖掘出一些數(shù)據(jù)特征,為一線調(diào)查人員的工作起到指引作用。
Q:數(shù)據(jù)關(guān)系挖掘的作用毋庸置疑,理論上的方法也有很多,但是要想在實(shí)際的應(yīng)用場景中做好落地,還需要考慮更多的細(xì)節(jié)問題。那么能否請您談一談進(jìn)行數(shù)據(jù)關(guān)系挖掘時會面臨哪些技術(shù)難點(diǎn)?
任鑫琦:關(guān)聯(lián)數(shù)據(jù)挖掘或者更深入的說關(guān)系數(shù)據(jù)挖掘,研究的不僅僅是客觀上的關(guān)聯(lián)度,還會深入挖掘在物理世界中真實(shí)存在的某種準(zhǔn)確的直接聯(lián)系,同時還要確定是什么樣的聯(lián)系。那么在進(jìn)行關(guān)系數(shù)據(jù)挖掘時的難點(diǎn),主要就在于確定數(shù)據(jù)模型的特征時,必須要保證數(shù)據(jù)特征的準(zhǔn)確性,否則可能做出來的模型也是不夠精確的,而這種似是而非的數(shù)據(jù)模型在很多行業(yè)中其實(shí)是沒有意義的,比如公安部門就必須要使用非常嚴(yán)格的數(shù)據(jù)模型。
SCOPA所使用的算法都是依賴于底層數(shù)據(jù)支持的,然而數(shù)據(jù)量越大并不一定就越好,而是數(shù)據(jù)的種類和來源越多越好。比如說公安部門需要確定犯罪嫌疑人之間的關(guān)系,那么如果能夠擁有關(guān)聯(lián)類數(shù)據(jù)、軌跡類數(shù)據(jù)、網(wǎng)絡(luò)虛擬化數(shù)據(jù)、電信運(yùn)營商數(shù)據(jù)等的話,就能確定嫌疑人經(jīng)常出現(xiàn)的位置,這樣可以依靠出現(xiàn)時間、空間、頻次等幾類模型來將這個人以及與之有關(guān)系的人或物給確定下來。
然而真正要完成這項(xiàng)工作,還需要克服兩個挑戰(zhàn),第一個是如何盡可能多的收集和處理數(shù)據(jù);第二個是如何在這么多復(fù)雜的數(shù)據(jù)之上挖掘關(guān)聯(lián)性,這需要足夠強(qiáng)的計(jì)算能力。
Q:隨著企業(yè)在大數(shù)據(jù)方面的需求不斷擴(kuò)大,數(shù)據(jù)的關(guān)聯(lián)、關(guān)系挖掘在行業(yè)中的應(yīng)用范圍也正變得越來越廣。您認(rèn)為數(shù)據(jù)關(guān)系挖掘相關(guān)技術(shù)最近有哪些發(fā)展趨勢呢?
任鑫琦:在沒有大數(shù)據(jù)概念之前,很多時候是用數(shù)據(jù)庫去做一些顯性關(guān)聯(lián)分析,而當(dāng)有了大數(shù)據(jù)概念之后,更多地其實(shí)是想做隱性的關(guān)聯(lián)分析與挖掘,也就是結(jié)合不同類型的數(shù)據(jù),然后找到其中的聯(lián)系。因此這其中的趨勢,實(shí)際就是目前的數(shù)據(jù)關(guān)系挖掘更加偏向于跨領(lǐng)域數(shù)據(jù)或者跨類型數(shù)據(jù)的綜合分析。
另外一個趨勢就是數(shù)據(jù)分析中需要考慮的數(shù)據(jù)各種特征以及各種維度都越來越多,比如時間緯度、空間緯度、關(guān)系緯度、頻次緯度等等,而這樣一來數(shù)據(jù)關(guān)系挖掘的結(jié)果就會變得越來越準(zhǔn)確。
目前還出現(xiàn)了一些類似于搜索引擎相關(guān)技術(shù)的數(shù)據(jù)分析技術(shù),它可以通過一些文本及文字的匹配,進(jìn)行一些類似關(guān)聯(lián)度分析的數(shù)據(jù)挖掘。但是這種數(shù)據(jù)關(guān)系挖掘,可能今后發(fā)展的空間以及潛力會相對少一些。
Q:目前看來,數(shù)據(jù)關(guān)系挖掘在保障公共安全以及維護(hù)治安方面的作用是非常顯著的,通過技術(shù)層面的手段,尋找數(shù)據(jù)之間的隱藏信息,這對于公安部門來說正是提升執(zhí)法效率的途徑之一,您能否簡單地介紹一個相關(guān)的數(shù)據(jù)關(guān)系挖掘應(yīng)用案例呢?
任鑫琦:明略曾經(jīng)為一個市級公安局做了數(shù)據(jù)系統(tǒng),之后當(dāng)某個區(qū)域內(nèi)經(jīng)常出現(xiàn)電動車或者電動三輪車盜竊案后,直接通過數(shù)據(jù)關(guān)系挖掘在一分鐘之內(nèi)鎖定了該盜竊團(tuán)伙。
這其實(shí)是根據(jù)這個區(qū)域中的攝像頭數(shù)據(jù),先找出一些可疑車輛,接著分析在一定時間范圍內(nèi)這些車輛出現(xiàn)的位置,基于這些篩查工作的結(jié)果,再對比車主個人信息、違章記錄以及與車主有關(guān)聯(lián)的人,從而把范圍縮小到一些小人群上,然后把這些人群的行為軌跡進(jìn)行區(qū)域數(shù)據(jù)模型驗(yàn)證,確定他們在固定的時間段內(nèi),在固定范圍內(nèi)出現(xiàn)的概率,在進(jìn)一步的篩查之后,計(jì)算出關(guān)聯(lián)度最高的那群人,最后由調(diào)查人員再通過進(jìn)一步的調(diào)查取證,鎖定了該電動車盜竊團(tuán)伙。
而過去一般遇到這樣的案件,如果警方只用傳統(tǒng)的數(shù)據(jù)檢索和數(shù)據(jù)比對的方式的話,可能至少需要一個小團(tuán)隊(duì)工作三到四天才能破案。
來源:InfoQ
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重