易觀CTO郭煒:三層優(yōu)化搞定數(shù)據(jù)安全問題
郭煒 | 2016-04-29 16:14
【數(shù)據(jù)猿導(dǎo)讀】 近日,易觀CTO郭煒在參加QCon2016時接受了記者采訪。據(jù)郭煒介紹,數(shù)據(jù)安全是每個大數(shù)據(jù)企業(yè)都比較關(guān)心的問題,易觀通過模糊掉個人信息、優(yōu)化渠道、做計算池這三層優(yōu)化來保障數(shù)據(jù)安全、準(zhǔn)確

大數(shù)據(jù)和云計算已成為未來趨勢,作為業(yè)內(nèi)知名的大數(shù)據(jù)分析公司,易觀是如何做數(shù)據(jù)分析的?近日,業(yè)內(nèi)知名大數(shù)據(jù)專家、易觀CTO郭煒接受了InfoQ專訪,分享了他在易觀做數(shù)據(jù)分析的經(jīng)驗和感受。
據(jù)郭煒介紹,易觀主要通過混合云的技術(shù)解決公有云集群效率低的問題;通過模糊個人信息、優(yōu)化渠道、做計算機池的方法解決數(shù)據(jù)隱私與安全的問題;通過日活、月活、用戶畫像、應(yīng)用評級等數(shù)據(jù)分析指標(biāo)幫助企業(yè)更好地運營產(chǎn)品、找準(zhǔn)自己市場價值。
以下是專訪全文:
為什么加入易觀?
提問:各位InfoQ的網(wǎng)友,大家好?,F(xiàn)在我們是在QCon2016現(xiàn)場,今天做客我們專訪間的是來自易觀的郭煒老師。郭老師,先請你簡單介紹一下自己。
郭煒:其實我是北大的本科研究生,當(dāng)時畢業(yè)的時候選擇了做數(shù)據(jù)這條路,我印象很深刻,我畢業(yè)論文寫的是基于過程神經(jīng)網(wǎng)絡(luò)的客戶流失分析做法,那個時候在做數(shù)據(jù)挖掘。畢業(yè)以后十多年經(jīng)歷了IBM、中金、萬達(dá)電商、聯(lián)想這樣幾家公司。其中在萬達(dá)電商和聯(lián)想負(fù)責(zé)大數(shù)據(jù)平臺的建設(shè)?,F(xiàn)在加盟了易觀,我過去的經(jīng)歷基本上是這樣的。
提問:能問一下你為什么會選擇加入易觀嗎?
郭煒:其實加入易觀,我也和我們的CEO一樣考慮了很久。因為從大學(xué)開始到現(xiàn)在我一直在做數(shù)據(jù)相關(guān)的事情。數(shù)據(jù)這件事情有高峰、低谷、高峰這個過程。很多人說大數(shù)據(jù)得有數(shù),你調(diào)研發(fā)現(xiàn)所有有數(shù)據(jù)的公司越來越多,未來每一家公司都會成為數(shù)據(jù)公司。
在整個數(shù)據(jù)和大數(shù)據(jù)行業(yè)里面,最缺的不是數(shù)據(jù),而是數(shù)的背后能看出什么結(jié)果,人怎么拿它的結(jié)果反饋到真正應(yīng)用生產(chǎn)流程里面,中間這個過程我們叫做分析,而這樣一個分析的人才,在國內(nèi)或者是國際,都是非常缺乏的。而這個恰好是易觀最強的優(yōu)勢,因為它有非常龐大的分析師團(tuán)隊,有很強大的分析平臺和分析報告,這些是在大數(shù)據(jù)時代里面是不可或缺的。
所以當(dāng)時也是跟我們CEO聊,其實大數(shù)據(jù)各方面,過去很多都是人在做一些分析。現(xiàn)在易觀有自己的大數(shù)據(jù)了,它現(xiàn)在有7.5億的人數(shù),每月有1.5億的月活,把分析師建的人的模型,通過程序化的算法變成自動化的東西,出來人可以理解的結(jié)果,再看人怎么做決策,最終我們通過機器的算法去學(xué)習(xí)人的這些決策,最終形成一個閉環(huán)。將來讓機器自己做決策閉環(huán),我們插上比特的翅膀,讓它自己的決策流程迅速轉(zhuǎn)起來,這件事情我覺得從大數(shù)據(jù)領(lǐng)域來講是不可或缺的,所以我在這個時候加盟易觀,讓它完成由人的模型變成機器化的算法,自動化的東西,是這樣一個過程。
易觀數(shù)據(jù)來源有哪些?
提問:我看到易觀有APP分析和網(wǎng)絡(luò)分析,這兩種有什么區(qū)別嗎?
郭煒:目前整個易觀的目標(biāo),它叫做互聯(lián)網(wǎng)大數(shù)據(jù)分析公司。它現(xiàn)在自己有的數(shù)據(jù)主要是來自于移動客戶端。我們會基于這些移動客戶端各種各樣的行為,來做一些分析的報告,幫助企業(yè)自己做相應(yīng)的分析、運營的優(yōu)化。
過去大家看到易觀的分析報告都是某個行業(yè),都是通過當(dāng)年的調(diào)研問卷、訪談來做的?,F(xiàn)在不是了,現(xiàn)在盡管是分析師對行業(yè)的理解,但是他的排名和領(lǐng)域已經(jīng)是基于易觀現(xiàn)有的大數(shù)據(jù)來計算出來的結(jié)果。易觀榜單TOP500,以前是通過訪談和抽樣調(diào)查做的,現(xiàn)在是通過7.5億的客戶行為做的,已經(jīng)發(fā)生了比較大的變革。
提問:它后面是一整套完整的底層的系統(tǒng)在支撐所有的分析?
郭煒:對,我們用混合型的架構(gòu),手機端的SDK,云端數(shù)據(jù)的接受,云端大數(shù)據(jù)的實時運算,以及最后加工的展現(xiàn)和存儲是一套的東西。易觀已經(jīng)不是過去大家想的,只是做報告的,全是分析師的公司了,它已經(jīng)是一個技術(shù)產(chǎn)品公司,現(xiàn)在我們技術(shù)產(chǎn)品在易觀已經(jīng)接近一半的人員,另一半是分析師。
從人的分析到數(shù)據(jù)分析,遇到哪些挑戰(zhàn)?
提問:這樣一個轉(zhuǎn)變的過程,從人分析到后面數(shù)據(jù)分析,這樣一個過程當(dāng)中,易觀在技術(shù)團(tuán)隊方面踩過哪些坑,遇到過哪些比較大的挑戰(zhàn)呢?
郭煒:前面說了為什么做混合云,一開始易觀是一家強調(diào)云化的公司,我們一直希望我們所有的系統(tǒng)都是云化。但是我們的數(shù)據(jù)量級非常大,其實我們的大數(shù)據(jù)已經(jīng)遷移過幾次,現(xiàn)在我們希望國內(nèi)非常成熟的大數(shù)據(jù)的云服務(wù),不僅僅我們說的IaaS或者是軟件的PaaS,它們能夠給我們提供云化,我們直接用它的云服務(wù),底層希望通過合作伙伴來做,原來我們是這么執(zhí)行的,但是我們發(fā)現(xiàn)數(shù)據(jù)量級到PB級以后,云化的廠商提供的性能都是有限的。我們特別希望能夠把現(xiàn)有的云的廠商能提供像Hadoop一樣好,這種公有云的服務(wù),而且是非常穩(wěn)定的服務(wù),我們非常愿意試。我們發(fā)現(xiàn)這個東西在國外已經(jīng)有這樣的服務(wù),我們也已經(jīng)試過,國內(nèi)的技術(shù)稍微有點差距,所以我們變成了混合云。
現(xiàn)在我們混合云的方式,云端用公有云,通過一些連接的方式直通到我們自己的大數(shù)據(jù)集群,既享受了云端混合云的優(yōu)勢,我們可以按需增加服務(wù)器,也能享受到下面大數(shù)據(jù)平臺高性能的計算,通過這個方式來實現(xiàn)我們整個業(yè)務(wù)和結(jié)構(gòu)框架。
提問:第二個呢?
郭煒:第二個就是大數(shù)據(jù)遷移和普通數(shù)據(jù)遷移不太一樣。一是它的量級大,PB級的數(shù)據(jù),你怎么遷,從云端遷到線下。混合云遷移一定涉及到互聯(lián)網(wǎng),這種數(shù)據(jù)遷移不是從一個機架到另一個機架。同時我要求我們的數(shù)據(jù),兩個系統(tǒng)并行運行,因為我們面向的是互聯(lián)網(wǎng)的,如何通過互聯(lián)網(wǎng)轉(zhuǎn)發(fā)這么大的數(shù)量級,是一個難點?,F(xiàn)在傳輸?shù)慕K端每秒是80萬次,高峰是100萬次,這么大的數(shù)據(jù)怎么能并行起來,我們試了各種方式,最后我們才選擇了今天混合云遷移的辦法來解決這樣的問題。我相信將來無論是大數(shù)據(jù)公司或者是任何一家企業(yè),它們在做云化或者是混合云的時候一定會面臨跟我們一樣的問題,中間有很多坑,希望大家不要再踩了。
提問:對,因為現(xiàn)在很多公司一部分是往云上遷,一部分是保留自己的一些東西,現(xiàn)在混合云是非常靈活的云化方向。
郭煒:對,因為現(xiàn)在很多服務(wù),特別像高并發(fā),有時候云端還不能滿足。因為它原來是小分享,現(xiàn)在在技術(shù)上還存在一定的瓶頸。
如何保證數(shù)據(jù)準(zhǔn)確又安全?
提問:我還有一個問題,你剛才提到了很多大數(shù)據(jù)的問題。我想說現(xiàn)在易觀數(shù)據(jù)量這么大,怎么保證數(shù)據(jù)的準(zhǔn)確性,另外也是由于數(shù)據(jù)安全的問題,在技術(shù)上是怎么保障的呢?
郭煒:先說安全性的問題,因為所有做大數(shù)據(jù)的公司都會涉及到隱私的問題。其實我們通過三層優(yōu)化把這個優(yōu)化掉。
第一層是模糊掉個人信息。因為我們做的是統(tǒng)計分析報告,個人在進(jìn)入采集的時候,首先會模糊掉個人的信息,不會入到整個庫里面。
第二層是優(yōu)化渠道。因為我們要看整個趨勢排行是怎么樣,究竟從哪個渠道接進(jìn)來的,這些渠道我們會模糊掉,你不會看到到底從哪個渠道上傳上來的。
第三層是做計算池。模糊掉人和渠道以后,不是所有人的東西都可以到計算池里面變成分析報告的來源,因為我們要去掉有人故意刷單的數(shù)據(jù),這些其實都不是我們的目標(biāo)統(tǒng)計池人群,我們把這些東西放到統(tǒng)計池里面再變成相關(guān)的統(tǒng)計報告分析,這時候你基本上看不到相關(guān)的信息了,也保證了數(shù)據(jù)質(zhì)量的問題,也保證我們統(tǒng)計池里面的數(shù)據(jù)全都是干凈、穩(wěn)定的數(shù)據(jù)。
提問:現(xiàn)在統(tǒng)計池的數(shù)據(jù)量大概是多大的量級呢?
郭煒:這個不能完全公布,我們整個社會數(shù)是7.5億,其中很大一部分是在統(tǒng)計池里面的。
易觀數(shù)據(jù)分析指標(biāo)有哪些?
提問:你剛才提到把它弄到統(tǒng)計池會模糊掉很多信息,你們做數(shù)據(jù)分析的時候會對他們哪些關(guān)鍵的指標(biāo)進(jìn)行挖掘呢?
郭煒:大家可以看到易觀各種分析報告,我們看到日活、月活、上升的趨勢、留存、用戶畫像,要對這些做一些分析。對于每一個開發(fā)者來講,他們都很關(guān)心自己的APP活躍程度到底怎么樣,我的用戶到底長怎么樣,我的用戶它的消費潛力到底如何,易觀有相關(guān)的易觀方舟產(chǎn)品,提供的技術(shù)是免費的,大家都可以使用這樣的工具。
提問:其實這些點也是目標(biāo)用戶的痛點,也是他們感興趣的點。
郭煒:對。
提問:怎么看待日活和月活。
郭煒:我覺得日活和月活,大家一般都知道。但是用戶畫像和應(yīng)用評級,這兩件事可能普遍開發(fā)者很難找到相關(guān)的服務(wù),易觀主要在這方面提供了相關(guān)的服務(wù),能夠把你的用戶究竟是什么樣的,他早上起來打開什么樣的APP,你怎么樣更好的運營你自己的APP,做一些相關(guān)的活動。
因為易觀原來就做分析報告,他有很強大的分析模型,他在行業(yè)報告里面有一些分析?,F(xiàn)在我們把這些模型摘出來以后,能讓他在自己的APP上看,他的AMC模型是什么,這是易觀的模型,通過程序化的算法現(xiàn)在提供免費的服務(wù),將來可能有一部分高級功能會收費,但是現(xiàn)在這種是免費的。
提問:你剛才提到分析模型,易觀現(xiàn)在有哪些比較常用或者說是比較受歡迎的的分析模型呢?
郭煒:現(xiàn)在最受歡迎的,我們叫TKI指數(shù)。因為現(xiàn)在我們一共有278個領(lǐng)域,我們拿金融證券來講,我們能看到你的用戶和全互聯(lián)網(wǎng)用戶的傾向性怎么樣,我能告訴你,你的用戶里面80%在互聯(lián)網(wǎng)金融里面,它的指數(shù)非常高,意味著你的客群很多人都傾向于跟互聯(lián)網(wǎng)金融下載相關(guān)的APP、活躍度高,如果你是普通的APP開發(fā)者,你將來可以跟互聯(lián)網(wǎng)金融公司達(dá)成一些合作。我們把這些指數(shù)當(dāng)成很重要的用戶畫像的基礎(chǔ)和我們評估一個APP應(yīng)用評價的基礎(chǔ),這是我們目前最受歡迎的分析模型,我們把分析師的分析模型程序化和自動化。
易觀創(chuàng)新產(chǎn)品有哪些?
提問:我還有一個問題,雖然大數(shù)據(jù)易觀做的特別好,最終還是要產(chǎn)品呈現(xiàn)來吸引用戶。易觀在這方面的數(shù)據(jù)產(chǎn)品,雖然都是一些分析報告或者是其他的結(jié)果,它在產(chǎn)品方面有沒有一些創(chuàng)新的產(chǎn)品來吸引用戶呢?
郭煒:剛才提到了兩個創(chuàng)新的產(chǎn)品,一個是易觀方舟的用戶畫像,我剛才在場內(nèi)轉(zhuǎn)了一圈,目前沒有一家提供這樣的功能。你的APP用戶究竟是什么樣的,可以畫出來。再一個是應(yīng)用評級,這是易觀模型程序化的算法,給你的APP通過程序來自動化的跑一遍,相當(dāng)于易觀的分析師給你做專門的服務(wù),只不過他是通過程序化的方法來做的。
提問:你剛才提到的應(yīng)用評級是指應(yīng)用的哪些方面呢?
郭煒:有幾方面,一方面是用戶的價值,比如說你自己的APP,你的媒體價值怎么樣,你將來投廣告,你的收入是多高;游戲價值,你的客戶是游戲的廠商,跟你可能有合作關(guān)系,因為你的用戶大多數(shù)都非常喜歡玩游戲,可以買很多東西;還有一些消費價值,比如說網(wǎng)購。以及應(yīng)用價值,APP使用的程度怎么樣。
目前開放了四個,將來會有越來越多的模型給評價你自己的APP如何。
易觀技術(shù)創(chuàng)新點在哪?
提問:產(chǎn)品應(yīng)該算是比較創(chuàng)新的,我想問一下技術(shù)方面,易觀在技術(shù)上有沒有創(chuàng)新或者不一樣的地方呢?
郭煒:一是混合云。國內(nèi)我們做自己的混合云打法不多,大部分要么是公有云,要么是私有云?,F(xiàn)在我們唯一把兩邊全部打通,這是我們其中的一點。
二是用抽樣計算、模糊計算的方式,來滿足客戶實時查詢數(shù)據(jù)的需求。
我們在做大數(shù)據(jù)計算的時候,很多人想可以實時查到非常大量數(shù)據(jù)的統(tǒng)計結(jié)果,這些東西在過去不太容易算,特別對于每家公司他的服務(wù)器是有限的,不像BAT那樣,我們想做到高并發(fā),而且有很好的客戶體驗。
比如說我是APP開發(fā)者,我的用戶里面90后女性、愛購物、喜歡玩游戲的人,晚上十點鐘經(jīng)常打開哪些APP,TOP50多少,這個是自定義的查詢,你要在7.5億的大池子里查其實是非常困難的,而且他希望能看到實時的結(jié)果,這個時候我們用到抽樣計算、模糊計算的方式,來滿足客戶的需求,這些東西是我們現(xiàn)在通過在大數(shù)據(jù)時代,先把小數(shù)據(jù)分析做到極致,在這個時代里面把這件事做起來,再通過小數(shù)據(jù)給人的反饋做決策,我們是這樣來做這件事情的。
我想問的問題大概就是這些,謝謝你的分享。
來源:易觀國際
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重