案例分析:掌握AI在大數(shù)據(jù)領(lǐng)域的前沿應(yīng)用
云棲團隊 | 2017-07-18 11:04
【數(shù)據(jù)猿導(dǎo)讀】 鴻俠從什么是數(shù)據(jù)新能源說起,接著介紹了阿里目前比較成功的兩款數(shù)據(jù)產(chǎn)品,一個是是自動化標簽生產(chǎn),另外一個是大規(guī)模分布式知識圖譜,以及在此之上的一些重要應(yīng)用。最后是她對機器學(xué)習和人工智能技術(shù)對數(shù)據(jù)新能源產(chǎn)業(yè)中有效落地的一些建議和期望。

近日,全球技術(shù)學(xué)習技術(shù)大會首次在京舉行,阿里巴巴數(shù)據(jù)技術(shù)及產(chǎn)品部資深算法專家楊紅霞(鴻俠)作為特邀嘉賓出席并發(fā)表主題演講。鴻俠從什么是數(shù)據(jù)新能源說起,接著介紹了阿里目前比較成功的兩款數(shù)據(jù)產(chǎn)品,一個是是自動化標簽生產(chǎn),另外一個是大規(guī)模分布式知識圖譜,以及在此之上的一些重要應(yīng)用。最后是她對機器學(xué)習和人工智能技術(shù)對數(shù)據(jù)新能源產(chǎn)業(yè)中有效落地的一些建議和期望。
下面是基于鴻俠現(xiàn)場演講內(nèi)容摘要:
如果大家對阿里巴巴的新聞比較關(guān)注,最近可能會頻繁聽到阿里巴巴談到“五新”這個詞,“五新”中的其中一個概念是新能源。其實新能源就是大數(shù)據(jù)本身。技術(shù)、數(shù)據(jù)和算法三個方面結(jié)合在一起,才可以把數(shù)據(jù)真正用起來。
大家都知道,Google的數(shù)據(jù)量很大,但是它的數(shù)據(jù)源本身其實比較單一。以Google search,Google map等為主導(dǎo)。再來看看Facebook,它更多的是社交行為數(shù)據(jù),缺少出行數(shù)據(jù)、 瀏覽器數(shù)據(jù)、或者類似優(yōu)酷的視聽數(shù)據(jù)。但是,對于阿里來說,上述的這些數(shù)據(jù)我們都有。我們面臨的極大挑戰(zhàn)是:怎么樣有效的把這些全域數(shù)據(jù)融合在一起。
首先我們需要把數(shù)據(jù)有效地收集起來。把數(shù)據(jù)有效地收集、存儲起來之后,接著要做的就是怎么通過算法把這些數(shù)據(jù)打通,并且真正有效、智能地把這些數(shù)據(jù)提煉出來。
這是阿里的一個生態(tài)體系圖。最底層是阿里云,這是我們的一個計算存儲框架。上面是阿里媽媽,阿里媽媽是負責整個阿里巴巴計算廣告的一個部門,再上面是菜鳥、支付寶和螞蟻金服。然后是與電商業(yè)務(wù)相關(guān)的,像淘寶網(wǎng)、天貓、聚劃算等等,或者是跟文娛相關(guān)的,優(yōu)酷土豆,還有像阿里旅行,口碑之類的業(yè)態(tài)。
阿里巴巴數(shù)據(jù)中臺要做的事情是什么呢 舉一個最簡單的例子,之前有一個比較火的電視劇《三生三世》?!度馈坊馃嵘嫌车臅r候,與之相關(guān)的商品元素,比如飲食或者穿戴之類的商品,也會瞬間在淘寶網(wǎng)上火爆起來。那么如果我提前就知道某一類人群是《三生三世》的粉絲,我就可以在淘寶網(wǎng)上做非常高效的、準確的定位推廣。阿里數(shù)據(jù)要做的是:把數(shù)據(jù)真正打通,深度挖掘數(shù)據(jù)的價值,為業(yè)務(wù)創(chuàng)新應(yīng)用提供數(shù)據(jù)決策基礎(chǔ)和依據(jù)。
下面具體介紹一下數(shù)據(jù)融合的技術(shù)框架。因為在真正進入算法之前,我們一定要對數(shù)據(jù)進行非常認真、仔細地進行清洗過程。俗話說,如果你的數(shù)據(jù)不清洗,其實就是“learn trash from trash”。所以數(shù)據(jù)本身一定要做得非常干凈。
首先來看一下架構(gòu)圖,第一個數(shù)據(jù)層中有各種各樣的數(shù)據(jù),比如有消費數(shù)據(jù),有廣告數(shù)據(jù),出行數(shù)據(jù)等等。把這些數(shù)據(jù)層經(jīng)過有效結(jié)合在一起之后,接下來得到這種特征層的提取。在阿里數(shù)據(jù)內(nèi)部,大概有這樣幾個比較抽象的維度:像賬號設(shè)立的靜態(tài)特征,電商行為的特征,或者設(shè)備的特征等等。
在特征層之上,我們會有模型層, 這里面有基于業(yè)務(wù)規(guī)則的模型,也有其他的例如異常檢測,有監(jiān)督或者無監(jiān)督的學(xué)習,然后特征的聯(lián)合校驗等模型。因為我們的數(shù)據(jù)源非常多,因此我們也可以通過部分的數(shù)據(jù)源驗證另外一個數(shù)據(jù)源,看數(shù)據(jù)的增長或者留存是否處于一個正常范圍。另外還有一些比較好的方法,比如基于Graph的一些算法,實時的反作弊算法等等。在算法層之上,就是評估層。在評估層內(nèi),我們可以判斷留下來的數(shù)據(jù)是否是真正有效的數(shù)據(jù)。
在上述這些數(shù)據(jù)層的上面,會有一個應(yīng)用層,也同時會抽象出一些產(chǎn)品來幫助內(nèi)部員工或者外部商家進行使用。所以,整個數(shù)據(jù)中臺實際上是從底到上對數(shù)據(jù)進行清洗的一個架構(gòu)。
當我們有了非常干凈的數(shù)據(jù)之后,我們要做的就是把數(shù)據(jù)打通。我剛才說了,阿里生態(tài)體系會呈現(xiàn)出幾百個不同的數(shù)據(jù)源,這些數(shù)據(jù)源本身的數(shù)據(jù)量非常大,收集模式也各不相同。那么我們是如何進行數(shù)據(jù)之間的融通的呢
上圖是這是我們關(guān)于怎么把數(shù)據(jù)打通的一個技術(shù)架構(gòu)。大家可以看到,整個技術(shù)體系都是,先把數(shù)據(jù)接進來,再通過一些機器學(xué)習或者深度學(xué)習的辦法(像word2ve,node2vec, TFIDF,歸一化等)處理特征層,之后映射到一些比較抽象的高緯度Level(比方說像用戶的身份信息,網(wǎng)絡(luò)的環(huán)境相似度,文本的相似度,APP相似度等等)。抽象完這些特征層之后,我們究竟怎樣去判斷。
這期間的方法大致可以分為四種有效的辦法:
深度學(xué)習的模型
非線性模型
線性模型
圖模型
此外,還有一些基于規(guī)則的強召回,就是比如說用戶有相同的賬號登陸不同的地方。這些是所謂的強召回,它可以非常準確地被判斷出來。弱召回就是基于算法特征層的這些模型,有效地判斷出所有信息是否真正屬于同一個自然人。下面,基于剛才的打通融合的數(shù)據(jù)之后,介紹兩個數(shù)據(jù)應(yīng)用類產(chǎn)品。
1、自動化標簽的生產(chǎn)
在電商業(yè)務(wù)中,我們想知道這個人背后更多的其他方面的特征。所以,我們會有一個自動化標簽生產(chǎn)的體系,快速地進行標簽生產(chǎn)。比方說上傳一些種子用戶,比較類似于像Facebook 的Look alike audience,可以快速在幾千萬個特征中選出來最重要的那些特征,然后通過最重要的這些特征對于那些還沒有打標的龐大人群進行打標。
在阿里數(shù)據(jù)中臺,我們研發(fā)了一個叫“自動化標簽生產(chǎn)”的體系。這個體系需要滿足三個需求:
需求的響應(yīng)速度一定要快。
標簽生產(chǎn)的負荷能力要強。
對于這個標簽生產(chǎn)數(shù)據(jù)源是有一定要求的,就是你要做出判斷,不是他上傳了一批種子用戶,他對某一些標簽有需求,我們的數(shù)據(jù)量,或者數(shù)據(jù)就一定是足夠幫你產(chǎn)生這些標簽的。
所以,基于剛才的一些要求,我們推出了“標簽工廠”的這一套服務(wù)體系。它可以達到幾個目的:
降低成本。現(xiàn)在我們有一個可視化界面,只要你上傳一個種子用戶,按照你自己的要求,大概在一兩個小時之內(nèi),幫你快速生產(chǎn)標簽。
質(zhì)量。當你在產(chǎn)生第一輪標簽的時候,其實更多的還是基于對算法本身的一個評估判斷。標簽真正上線之后,在業(yè)務(wù)的指標上面會不停產(chǎn)生反饋,所以我們實時的把這些業(yè)務(wù)反饋放進在標簽生產(chǎn)體系,不停地幫助優(yōu)化標簽的產(chǎn)生。
保證數(shù)據(jù)安全。
下面具體看一下我們的技術(shù)架構(gòu):
第一,數(shù)據(jù)源。你可以認為,整個數(shù)據(jù)新能源的數(shù)據(jù)源都是接到下面,經(jīng)過數(shù)據(jù)清洗、打通之后,來到一個標簽工廠的體系。在標簽工廠,首先會進行一定特征學(xué)習(feature engineering),比方說有一些像類型判斷、分層、降維,因為數(shù)據(jù)量非常大,通過深度學(xué)習,深度表征去學(xué)習出特征之間的非線性關(guān)系,和它們之間的high order interaction。
接下來就是打標。首先可以傳一批種子用戶,由于你打標簽的這部分種子用戶是非常小的一部分用戶,所以還涉及到快速擴充Label,或者通過不停的這種adaptive learning去訓(xùn)練完之后,可能通過算法的輸出,可以增加一些更有效的確實是能反映出你的Label真實的樣本集。
如果你的標準樣本很多,很豐富的情況下,你可以用有監(jiān)督的學(xué)習。有監(jiān)督的學(xué)習,其實有線性的、非線性的或者是基于深度學(xué)習的。真實情況是有l(wèi)abel的sample很少,在更多情況下我們需要使用半監(jiān)督的算法,例如self-training, co-training等。
2、大規(guī)模分布式知識圖譜
講完標簽工廠之后,介紹另外一個產(chǎn)品,大規(guī)模分布式知識圖譜。大規(guī)模知識圖譜抽象也是一種圖計算。首先談一下基于大規(guī)模分布式知識圖譜做了哪些工作,以及我們?yōu)槭裁匆鲞@樣一件事情。
阿里巴巴的生態(tài)非常豐富,而豐富的業(yè)態(tài)背后給我們數(shù)據(jù)工作者帶來的困難就是,我們常常需要接入各種數(shù)據(jù),并將他們有效地管理和整合起來,傳統(tǒng)的方法,我們可能需要花幾個月,投入幾十個人做這樣一件事情,對數(shù)據(jù)進行打標。
但是,假設(shè)我們已經(jīng)知道數(shù)據(jù)和數(shù)據(jù)之間的一些關(guān)系,而且也知道數(shù)據(jù)表中哪些表之間調(diào)用的血緣關(guān)系。那么,如果我只是對調(diào)用次數(shù)最多的表進行非常精確地打標,然后用基于知識圖譜的方法,對剩下的90%表進行推理式的Label打標,就能極大節(jié)約了人力成本。所以這就是我們?yōu)槭裁匆弥R圖譜去做數(shù)據(jù)接入這樣的事情。那么,對于數(shù)據(jù)管理也是同樣的道理。
假如只有1G的數(shù)據(jù),你可以很快地回答出數(shù)據(jù)分布的情況和質(zhì)量。而我們的現(xiàn)狀時,我們的數(shù)據(jù)達到ZB級別的規(guī)模。因此對數(shù)據(jù)管理來說,挑戰(zhàn)不容小覷。同樣地來看看數(shù)據(jù)應(yīng)用方面的情況。我們基于數(shù)據(jù)應(yīng)用,實際上也有一款產(chǎn)品叫做“數(shù)據(jù)地圖”。
數(shù)據(jù)地圖是干什么呢 其實就是當你進行一個查詢,在這個產(chǎn)品里會自動幫你反饋出一個最相關(guān)的表。延伸開來的是我們想要做得下一步工作:當你下一次進行查詢后,能直接返回出相應(yīng)的SQL,再產(chǎn)生出相應(yīng)的表和相應(yīng)的結(jié)果——這是我們想做的智能取數(shù)。
下面介紹一下知識圖譜在數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用方面的落地進展。目前我們開發(fā)了一些基于幾十萬張、上百萬張ODPS表的知識圖譜。說一下我們的結(jié)果:
在數(shù)據(jù)資產(chǎn)管理中,有一項重要的工作就是判斷數(shù)據(jù)的歸屬。我們有上百萬張的線上表,其中可能有幾萬張到幾十萬張的表能夠比較清楚判斷是屬于哪個團隊,可以在數(shù)據(jù)版圖上打標。但是,還有上百萬張沒有打標的表,因為這個表屬于異構(gòu)的。在之前,通過一些人工的規(guī)則,它的歸屬判斷準確率大概是55%,而通過前面介紹的知識圖譜框架,準確率可以提升到88%。所以,它對數(shù)據(jù)資產(chǎn)管理的準確性起了顯著的提高作用。
接下來講一下知識圖譜在數(shù)據(jù)應(yīng)用當中的一個技術(shù)框架,其實也是比較類似的:
首先,數(shù)據(jù)層。因為是一個知識圖譜的構(gòu)建,所以上面要加個辭典層和語義層。再上面就是基于推理層。在推理上,用的方法有大家比較熟悉的像隨機游走和延伸等。那基于標注的,我們其實嘗試了很多種方法,比方說張量分解等。
目前為止比較成功的是PRA(path rankingalgo),我們研發(fā)了幾個主流的graph feature model,PRA在大規(guī)模分布式知識圖譜推理上,在我們的問題中,表現(xiàn)是最好的。什么是PRA,其實是把這些路徑抽象出來,然后就是學(xué)習一下再推薦這個路徑,但是它對于我剛才說的很多文本信息并沒有有效的利用起來,比如對于這些表的描述,在最原始的PRA當中路徑本身的位置是有考慮進去的,當然我對于這些描述,可能會知道也許這個路徑更有效。所以,后來我們看了一下這個Trans系列,其實類似text analysis 中的word2vec vs tfidf。確實在我們整個的剛才說的案例當中也是有比較大的提高。
看一個具體的例子,在數(shù)據(jù)地圖當中,知識圖譜到底是怎么工作的:
你打出一個查詢,首先就是基本的分詞與分析,其實大家可以看到,我們這個場景也是相當于搜索反饋一個結(jié)果,但是其實它和傳統(tǒng)的搜索是不一樣的:傳統(tǒng)的搜索像Google、百度,其實它關(guān)心的指標是你準確的那個值是不是在TOP5或者TOP10。
但是,我們這個場合下一定要反饋唯一的、準確的表。所以,接下來我們會有一些模板匹配,所以這里非常重要的一部分是人機交互這一塊,把人機交互的結(jié)果,就是人要告訴你說,這個結(jié)果是否是他想到的,然后知識圖譜整個剛才的框架有效的結(jié)合在一起,然后產(chǎn)生出你真正想找到那張表,然后整個的這個過程,其實這些是一些抽象出來的模板,這些模板可能是不夠的。因為隨著人的查詢越來越多,模板也需要慢慢的擴展。現(xiàn)在我們還是基于一些規(guī)則判斷一些模板,未來我們也會嘗試,讓這個機器自動產(chǎn)生一些模板。
所以總結(jié)一下,我剛才給大家大概介紹了一下什么叫數(shù)據(jù)新能源,以及我們在數(shù)據(jù)新能源上兩個成功產(chǎn)品,一個是自動化標簽的生產(chǎn),可以在非常快速的在幾個小時之內(nèi),為幾億人打上有效的標簽,并且快速的驗證落地。另外一個是大規(guī)模分布式知識圖譜,以及兩個應(yīng)用的比較好的產(chǎn)品,一個是數(shù)據(jù)資產(chǎn)管理,另外一個是數(shù)據(jù)地圖,就是快速的查詢這個有效的表。未來我們想做的不只是一個表本身,也許就是一個query對應(yīng)的sql,對應(yīng)的你最后的結(jié)果。
最后再講一下我們對于整個工業(yè)界中機器學(xué)習怎么才能成功落地的一些建議:
第一,必須要有大數(shù)據(jù)。如果沒有大數(shù)據(jù),其實很多的挑戰(zhàn)你是看不到的。而且大數(shù)據(jù)本身一定是要豐富多樣的,如果數(shù)據(jù)源本身過于單一,其實對模型的挑戰(zhàn)是比較小的。所以你的數(shù)據(jù)源本身多樣性比較要多,機器學(xué)習才會發(fā)揮出更大的作用;
第二,一定要有計算平臺。像現(xiàn)在阿里云給我們提供了一個非常好的保障;
第三,你開發(fā)的算法一定是要通用的。就是大家可能是在這個公司工作會發(fā)現(xiàn),每開發(fā)一套算法,投入的人力和時間和成本都是比較高的。所以說你的算法本身可延展性一定是要比較好的。
我今天的演講就到這里。謝謝大家!
來源:云棲團隊博客
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新