Sensors Data CEO桑文鋒:深度解讀大數(shù)據(jù)及數(shù)據(jù)分析方案
桑文鋒 | 2016-05-16 12:13
【數(shù)據(jù)猿導(dǎo)讀】 在第七屆中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì)上,Sensors Data CEO(前百度大數(shù)據(jù)部技術(shù)經(jīng)理)桑文鋒,作為一名資深大數(shù)據(jù)牛人,站在從創(chuàng)業(yè)公司服務(wù)角度,與大家深度解讀了大數(shù)據(jù),技術(shù)應(yīng)用以及數(shù)據(jù)分析方法

“大數(shù)據(jù)”的概念是什么?在桑文鋒的演講中,首先將這個(gè)問(wèn)題提了出來(lái)。簡(jiǎn)單來(lái)說(shuō),大數(shù)據(jù)的概念可以用四個(gè)字來(lái)概括。即:“大”、“全”、“細(xì)”、“時(shí)”。
所謂“大”是什么含義?可以理解為L(zhǎng)arge,而不是Big。舉個(gè)例子,比如說(shuō):百度每天采集的用戶行為數(shù)據(jù)有 1.5PB 以上;全國(guó)各地級(jí)市今天的蘋果價(jià)格數(shù)據(jù)有 2MB;1998 年 Google 抓取的互聯(lián)網(wǎng)頁(yè)面共有 47GB(壓縮后);一臺(tái)風(fēng)力發(fā)電機(jī)每天產(chǎn)生的振動(dòng)數(shù)據(jù)有 50GB。
“全”是全量而不是抽樣。打比方來(lái)說(shuō),1936 年《文學(xué)文摘》收集了 240 萬(wàn)份調(diào)查問(wèn)卷,預(yù)測(cè)錯(cuò)誤;新聞學(xué)教授蓋洛普只收集了 5 萬(wàn)人的意見,預(yù)測(cè)羅斯福連任正確;2012 年 Nate Silver 通過(guò)互聯(lián)網(wǎng)采集社交、新聞數(shù)據(jù),預(yù)測(cè)大選結(jié)果。
“細(xì)”是多維度。“時(shí)”就是實(shí)時(shí)收集數(shù)據(jù)、實(shí)時(shí)分析數(shù)據(jù)。
大數(shù)據(jù)思維
自“大數(shù)據(jù)”一詞被提出,就被炒得沸沸揚(yáng)揚(yáng)。幾乎所有的企業(yè)都認(rèn)為大數(shù)據(jù)是一種趨勢(shì),是一種資源,也都想把自家的業(yè)務(wù)往大數(shù)據(jù)方向靠一靠,即大數(shù)據(jù)思維。
桑文鋒舉出例子,比如,去年流行一個(gè)詞叫“然并卵”,這樣的一個(gè)詞如果用傳統(tǒng)的方式,因?yàn)樗且粋€(gè)重新構(gòu)造的詞,在輸入法是沒(méi)辦法通過(guò)拼音“ran bing luan”直接把它找出來(lái)的。然而,在大數(shù)據(jù)思維下那就不一樣了,換句話說(shuō),我們先不知道有這么一個(gè)詞匯,但是我們發(fā)現(xiàn)有許多人在輸入了這個(gè)詞匯,于是,我們可以通過(guò)統(tǒng)計(jì)發(fā)現(xiàn)最近新出現(xiàn)的一個(gè)高頻詞匯,把它加到司庫(kù)里面并更新給所有人,大家在使用的時(shí)候可以直接找到這個(gè)詞了。再比如說(shuō)百度地圖,它根據(jù)每日的路況數(shù)據(jù),完全可以告訴你哪條路不堵?半個(gè)小時(shí)以后,這條路是不是堵車。這里出現(xiàn)一個(gè)一個(gè)詞匯,就是數(shù)據(jù)驅(qū)動(dòng),也就是說(shuō)能否完全運(yùn)用新的數(shù)據(jù)。
現(xiàn)有常用方案
在桑文鋒的演講中,提到現(xiàn)有常用方案有三種,分別是第三方統(tǒng)計(jì)服務(wù),業(yè)務(wù)數(shù)據(jù)庫(kù)寫SQL以及基于日志寫統(tǒng)計(jì)腳本。而這三種方案有一定的好處的同時(shí),也都存在一些不足。
第三方統(tǒng)計(jì)服務(wù)這種方案好處在于使用起來(lái)比較簡(jiǎn)單,且服務(wù)免費(fèi)。不足的地方只要體現(xiàn)有三處:數(shù)據(jù)源:只能覆蓋前端 JS/APP SDK 記錄的數(shù)據(jù),無(wú)法覆蓋服務(wù)端和業(yè)務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)。分析能力:只能覆蓋宏觀通用分析,使用后還需要數(shù)據(jù)團(tuán)隊(duì)滿足運(yùn)營(yíng)/產(chǎn)品的各類定制化的需求;安全性:規(guī)模稍大一點(diǎn)的公司,不想把核心數(shù)據(jù)放在第三方平臺(tái)。
而業(yè)務(wù)數(shù)據(jù)庫(kù)寫SQL方案,對(duì)比業(yè)務(wù)數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)兩個(gè)概念,業(yè)務(wù)數(shù)據(jù)庫(kù)只能記錄當(dāng)前狀態(tài),而數(shù)據(jù)倉(cāng)庫(kù)卻能提供歷史記錄。故而不足的地方是計(jì)算能力有限,無(wú)法水平擴(kuò)展,且業(yè)務(wù)人員不易理解和影響業(yè)務(wù)分析邏輯。
基于日志寫統(tǒng)計(jì)腳本這種方案的好處在于與業(yè)務(wù)數(shù)據(jù)庫(kù)解耦。不足的地方表現(xiàn)為開發(fā)效率低( 2 天/個(gè),重復(fù)開發(fā))且準(zhǔn)確性無(wú)法保證。另外,技術(shù)性較強(qiáng),數(shù)據(jù)流難以管理。
理想狀態(tài)方案
那么,如何建立理想的數(shù)據(jù)分析方法呢?桑文鋒給出了一套理想狀態(tài)方案。首先是數(shù)據(jù)采集,要求全量且精細(xì),經(jīng)過(guò)數(shù)據(jù)傳輸,有了數(shù)據(jù)之后,就要對(duì)數(shù)據(jù)進(jìn)行加工,不能把原始的數(shù)據(jù)直接報(bào)告給上面的業(yè)務(wù)分析人員,它可能本身是雜亂的,需要完善的數(shù)據(jù)源。再到數(shù)據(jù)建模(要求多維度),數(shù)據(jù)模型就是對(duì)現(xiàn)實(shí)世界的一個(gè)抽象化的數(shù)據(jù)的表示。在數(shù)據(jù)分析方,特別是針對(duì)用戶行為分析方面,目前比較有效的一個(gè)模型就是多維數(shù)據(jù)模型,在線分析處理這個(gè)模型,它里面有這個(gè)關(guān)鍵的概念,一個(gè)是維度,另一個(gè)是指標(biāo),最后再到數(shù)據(jù)查詢。
來(lái)源:it168網(wǎng)站
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
3數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會(huì)丨《云MSP發(fā)展白皮書》重