新能源就是大數(shù)據(jù)本身 淺析阿里數(shù)據(jù)新能源技術(shù)架構(gòu)
【數(shù)據(jù)猿導(dǎo)讀】 把數(shù)據(jù)有效地收集、存儲起來之后,接著要做的就是怎么通過算法把這些數(shù)據(jù)打通,并且真正有效、智能地把這些數(shù)據(jù)提煉出來。最近可能會頻繁聽到阿里巴巴談到“五新”這個詞,“五新”中的其中一個概念是新能源。

如果大家對阿里巴巴的新聞比較關(guān)注,最近可能會頻繁聽到阿里巴巴談到“五新”這個詞,“五新”中的其中一個概念是新能源。其實(shí)新能源就是大數(shù)據(jù)本身。技術(shù)、數(shù)據(jù)和算法三個方面結(jié)合在一起,才可以把數(shù)據(jù)真正用起來。
大家都知道,Google的數(shù)據(jù)量是很大的,但是它的數(shù)據(jù)源本身其實(shí)比較單一。以Google search,Google map等為主導(dǎo),并沒有太多和商業(yè)有直接相關(guān)的數(shù)據(jù)。
再來看看,F(xiàn)acebook。它更多的是社交行為的數(shù)據(jù),缺少出行數(shù)據(jù)、瀏覽器數(shù)據(jù)、或者類似優(yōu)酷的視聽數(shù)據(jù)。
但是,對于阿里來說,上述的這些數(shù)據(jù)我們都有。我們面臨的極大挑戰(zhàn)是:怎么樣有效的把這些全域數(shù)據(jù)融合在一起。
首先我們需要把數(shù)據(jù)有效地收集起來。我們有一個大數(shù)據(jù)體系“OneData”(有關(guān)OneData的內(nèi)容,回復(fù)關(guān)鍵詞“OneData”即可獲得)。
把數(shù)據(jù)有效地收集、存儲起來之后,接著要做的就是怎么通過算法把這些數(shù)據(jù)打通,并且真正有效、智能地把這些數(shù)據(jù)提煉出來。
數(shù)據(jù)融合的技術(shù)框架
這是阿里的一個生態(tài)體系圖。最底層是阿里巴巴的阿里云,這是我們的一個計(jì)算存儲框架。上面是阿里媽媽,阿里媽媽是負(fù)責(zé)整個阿里巴巴計(jì)算廣告的一個部門,再上面是菜鳥、支付寶和螞蟻金服。然后是與商業(yè)相關(guān)的,像淘寶網(wǎng)、天貓、聚劃算等等,或者是跟文娛相關(guān)的,優(yōu)酷土豆,還有像阿里旅行,口碑之類的業(yè)態(tài)。
阿里巴巴數(shù)據(jù)中臺要做的事情是什么呢
舉一個最簡單的例子,之前有一個比較火的電視劇《三生三世》?!度馈坊馃嵘嫌车臅r候,與之相關(guān)的商品元素,比如飲食或者穿戴之類的商品,也會瞬間在淘寶網(wǎng)上火爆起來。
那么如果我提前就知道某一類人群是《三生三世》的粉絲,我就可以在淘寶網(wǎng)上做非常高效的、準(zhǔn)確的定位推廣。
阿里數(shù)據(jù)要做的是:把數(shù)據(jù)真正打通,深度挖掘數(shù)據(jù)的價值,為業(yè)務(wù)創(chuàng)新應(yīng)用提供數(shù)據(jù)決策基礎(chǔ)和依據(jù)。
在真正進(jìn)入算法之前,我們一定要對數(shù)據(jù)進(jìn)行非常認(rèn)真、仔細(xì)地進(jìn)行清洗過程。俗話說,如果你的數(shù)據(jù)不清洗,其實(shí)就是“learn trash from trash”。所以數(shù)據(jù)本身一定要做得非常干凈。
來看一下架構(gòu)圖。第一個數(shù)據(jù)層中有各種各樣的數(shù)據(jù),比如有消費(fèi)數(shù)據(jù),有廣告數(shù)據(jù),出行數(shù)據(jù)等等
把這些數(shù)據(jù)層經(jīng)過有效結(jié)合在一起之后,接下來得到這種特征層的提取。
在阿里數(shù)據(jù)內(nèi)部,大概有這樣幾個比較抽象的維度:像賬號設(shè)立的靜態(tài)特征,電商行為的特征,或者設(shè)備的特征等等。
在特征層之上,我們會有模型層,這里面有基于業(yè)務(wù)規(guī)則的模型,也有其他的例如異常檢測,有監(jiān)督或者無監(jiān)督的學(xué)習(xí),然后特征的聯(lián)合校驗(yàn)等模型。
因?yàn)槲覀兊臄?shù)據(jù)源非常多,因此我們也可以通過部分的數(shù)據(jù)源驗(yàn)證另外一個數(shù)據(jù)源,看數(shù)據(jù)的增長或者留存是否處于一個正常范圍。
另外還有一些比較好的方法,比如基于Graph的一些算法,實(shí)時的反作弊算法等等。在算法層之上,就是評估層。在評估層內(nèi),我們可以判斷留下來的數(shù)據(jù)是否是真正有效的數(shù)據(jù)。
在上述這些數(shù)據(jù)層的上面,會有一個應(yīng)用層,也同時會抽象出一些產(chǎn)品來幫助內(nèi)部員工或者外部商家進(jìn)行使用。
所以,整個數(shù)據(jù)中臺實(shí)際上是從底到上對數(shù)據(jù)進(jìn)行清洗的一個架構(gòu)。
當(dāng)我們有了非常干凈的數(shù)據(jù)之后,我們要做的就是把數(shù)據(jù)打通。我剛才說了,阿里生態(tài)體系會呈現(xiàn)出幾百個不同的數(shù)據(jù)源,這些數(shù)據(jù)源本身的數(shù)據(jù)量非常大,收集模式也各不相同。
那么我們是如何進(jìn)行數(shù)據(jù)之間的融通的呢?
數(shù)據(jù)聯(lián)通的技術(shù)思考
這是我們關(guān)于怎么把數(shù)據(jù)打通的一個技術(shù)架構(gòu)。
大家可以看到,整個技術(shù)體系都是,先把數(shù)據(jù)接進(jìn)來,再通過一些機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的辦法(像word2vec,node2vec,TFIDF,歸一化等)處理特征層,之后映射到一些比較抽象的高緯度Level(比方說像用戶的身份信息,網(wǎng)絡(luò)的環(huán)境相似度,文本的相似度,APP相似度等等)。
抽象完這些特征層之后,我們究竟怎樣去判斷。
這期間的方法大致可以分為四種有效的辦法:
第一、是深度學(xué)習(xí)的模型。
第二、非線性。
第三、線性。
第四、基于圖計(jì)算
此外,還有一些強(qiáng)召回,就是比如說用戶有相同的賬號登陸不同的地方。這些是所謂的強(qiáng)召回,它可以非常準(zhǔn)確地被判斷出來。弱召回就是基于算法特征層的這些模型,有效地判斷出所有信息是否真正屬于同一個自然人。
來源:36大數(shù)據(jù)
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新