【視頻&PPT】神策數(shù)據(jù)創(chuàng)始人兼CEO桑文鋒:大數(shù)據(jù)分析的四個(gè)重要環(huán)節(jié)
【數(shù)據(jù)猿導(dǎo)讀】 在“硅谷之聲——大數(shù)據(jù)技術(shù)達(dá)人中國(guó)行專場(chǎng)”上,神策數(shù)據(jù)創(chuàng)始人兼CEO桑文鋒表示,在百度工作這么多年,“要把數(shù)據(jù)的事情做好”是我非常重要的一個(gè)心得。數(shù)據(jù)源做好了,事情基本上就成功了一半。如果沒有數(shù)據(jù),后面即使有再牛的算法,也一樣做不好

來源:數(shù)據(jù)猿 作者:桑文鋒
硅谷作為當(dāng)今全球科技創(chuàng)新的前沿陣地,一直吸引著全世界人的目光,對(duì)于中國(guó)高科技人士來說也同樣具有這樣的魔力,是眾多夢(mèng)想家的理想去處。
為了讓大數(shù)據(jù)領(lǐng)域創(chuàng)業(yè)者、數(shù)據(jù)工程師等技術(shù)人才更好的了解最前沿的硅谷技術(shù)和文化,由數(shù)據(jù)猿聯(lián)合BitTiger、微軟加速器共同舉辦的“硅谷之聲——大數(shù)據(jù)技術(shù)達(dá)人中國(guó)行專場(chǎng)”在北京微軟亞太研發(fā)中心總部圓滿落幕。
-視頻版-
注:獲取演講嘉賓干貨PPT請(qǐng)關(guān)注數(shù)據(jù)猿微信公眾號(hào)【datayuancn】并回復(fù)關(guān)鍵詞“桑文峰”即可
-文字版-
以下是由數(shù)據(jù)猿精編整理發(fā)布的 神策數(shù)據(jù)創(chuàng)始人兼CEO桑文鋒 的精彩分享:
這次我的分享主要是結(jié)合我在百度工作八年,以及創(chuàng)業(yè)兩年來的經(jīng)驗(yàn)。
百度的數(shù)據(jù)規(guī)模是非常龐大的,"用數(shù)據(jù)說話"就是百度的文化之一。很多時(shí)候的決策和改變,都要依賴于數(shù)據(jù)。很多人覺得,數(shù)據(jù)規(guī)模大才需要數(shù)據(jù)分析。小公司沒有那么多數(shù)據(jù),就不需要大數(shù)據(jù)分析。我認(rèn)為這是不對(duì)的,所以這里就要解釋一個(gè)概念,什么是大數(shù)據(jù)?有一種說法是:大數(shù)據(jù)是思維。但是我認(rèn)為,要理解大數(shù)據(jù),應(yīng)該從兩個(gè)層面來看。一是物理層面;二是抽象層面。
從物理層面來看,可以歸結(jié)為四個(gè)字:大、全、細(xì)、時(shí)。
第一,大。這里指的不一定是物理上的大。舉個(gè)例子,我們收集全國(guó)各個(gè)地級(jí)市今天的蘋果價(jià)格,可能收集到的數(shù)據(jù)只有2兆,但我們用這個(gè)來做一個(gè)調(diào)動(dòng)性,這就很顯然是一個(gè)大數(shù)據(jù)的應(yīng)用了。
第二,全。全指的是多種源,全量而并非抽樣。以前做調(diào)研分析,許多時(shí)候都是抽樣,這就很容易造成偏差。樣本有一點(diǎn)問題,跟全局表現(xiàn)出來的都會(huì)有所差異。
第三,細(xì)。舉例來說,如果我們提問全國(guó)各省份大家喜歡吃什么東西?大家并不會(huì)回答"我來自河南,喜歡吃燴面"這么細(xì)致。但是我們可以基于地理維度進(jìn)行獲取更細(xì)致的信息。
第四,時(shí)。即時(shí)效性。以前一個(gè)老板可能都不知道每個(gè)季度公司的收益到底是多少。而現(xiàn)在是實(shí)時(shí)的進(jìn)行計(jì)算、反饋結(jié)果。
所以,對(duì)于許多小的創(chuàng)業(yè)公司來說,我們可以把數(shù)據(jù)收集的更細(xì)、維度更多、時(shí)效性更強(qiáng),同樣也可以進(jìn)行更多的數(shù)據(jù)分析。我認(rèn)為這些同樣也叫大數(shù)據(jù)。
從抽象層面來看,最重要的一點(diǎn)是數(shù)據(jù)驅(qū)動(dòng)的思維。這是大數(shù)據(jù)里非常關(guān)鍵的一點(diǎn)。雖然以前也有數(shù)據(jù)分析,但那個(gè)時(shí)候是采集樣本,基于樣本去分析、去做決策。現(xiàn)如今,無論是互聯(lián)網(wǎng)還是傳感器的發(fā)展,都讓我們有機(jī)會(huì)采集到更多的數(shù)據(jù),因此現(xiàn)在的數(shù)據(jù)分析和以前也是不一樣的。
大數(shù)據(jù)的第一個(gè)環(huán)節(jié)是數(shù)據(jù)采集。因?yàn)閿?shù)據(jù)規(guī)模大,當(dāng)達(dá)到一定的水平之后,采集本身就成了一個(gè)很大的問題。我們現(xiàn)在需要各種各樣的手段把這個(gè)數(shù)據(jù)記下來。每一個(gè)實(shí)際發(fā)生的信息,我們都要進(jìn)行采集。
第二個(gè)環(huán)節(jié)就是數(shù)據(jù)建模。我們要在數(shù)據(jù)的基礎(chǔ)上進(jìn)行模型的搭建。數(shù)據(jù)建模最重要的是整理數(shù)據(jù)。把數(shù)據(jù)表做出來以后,我們才能更好的去分析。
第三個(gè)環(huán)節(jié)是數(shù)據(jù)分析。我們?cè)趽碛袛?shù)據(jù)的基礎(chǔ)上去做用戶分析、用戶分群。
最后就是指標(biāo)。圍繞一個(gè)產(chǎn)品,我們?nèi)绾稳カ@取新用戶?每天增加了多少用戶?通過哪個(gè)渠道?這些問題都是我們要關(guān)心的。
接下來就重點(diǎn)給大家講講每個(gè)環(huán)節(jié)的具體操作:
環(huán)節(jié)一:數(shù)據(jù)采集
大數(shù)據(jù)體現(xiàn)的是大,但時(shí)效性也是一個(gè)基本要求?,F(xiàn)在我們進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)處理的時(shí)候,都在強(qiáng)調(diào)盡量去生成這個(gè)數(shù)據(jù)。歸結(jié)起來,如何把這個(gè)數(shù)據(jù)做好?就兩個(gè)字,一個(gè)是全、一個(gè)是細(xì)。"全"是用各種各樣的數(shù)據(jù)源,無論是前端的、后端的數(shù)據(jù),我們都要全量的采集到。"細(xì)"是強(qiáng)調(diào)多維度,無論什么樣的維度信息,我們都可以采集過來。
在百度工作這么多年,"要把數(shù)據(jù)的事情做好"是我非常重要的一個(gè)心得。數(shù)據(jù)源做好了,事情基本上就成功了一半。如果沒有數(shù)據(jù),后面即使有再牛的算法,也一樣做不好。所以,數(shù)據(jù)源是非常重要的,在這一塊要花工作去把它做好。
數(shù)據(jù)采集有三類手段:
第一類是在產(chǎn)品里通過后臺(tái)配置,去采集我們要采集的數(shù)據(jù),或者是把這個(gè)采集的數(shù)據(jù)命名成什么樣。這個(gè)方式的好處在于,不需要工程師干預(yù)太多,只需要業(yè)務(wù)人員、產(chǎn)品、運(yùn)營(yíng),自己就可以看到要分析的數(shù)據(jù)結(jié)果。這種方式有利也有弊。自動(dòng)采集手段目前還有很多局限性。許多時(shí)候,只能收集一些宏觀的數(shù)據(jù),比如說機(jī)器的版本。在采集一些復(fù)雜信息時(shí),自動(dòng)采集的方式就很難達(dá)到了。
第二類是通過代碼去收集任何想要的信息,把要采集的地方埋入代碼,記錄下來。絕大多數(shù)的數(shù)據(jù)一般都會(huì)通過后端去采集。
第三類是通過工具去采集。
這三種是常見的數(shù)據(jù)采集的方式,無非是你從中去選擇適合你的方式。
許多的公司在數(shù)據(jù)采集方面都存在非常大的問題。公司人員的流動(dòng)很有可能造成數(shù)據(jù)采集的混亂。所以要對(duì)數(shù)據(jù)采集本身進(jìn)行監(jiān)控,在哪些點(diǎn)進(jìn)行了采集,都采集了什么樣的維度,通過的有多少,沒有通過的有多少,要將這些監(jiān)控起來。
另外,需要有分析師參與到數(shù)據(jù)管理。在我自己創(chuàng)業(yè)的過程中,我發(fā)現(xiàn)許多公司缺少一個(gè)真正的數(shù)據(jù)負(fù)責(zé)人。一方面我們要用各種各樣的工具,去做好數(shù)據(jù)采集。另一方面,需要懂業(yè)務(wù)的人,真的把數(shù)據(jù)本身的采集管理起來。
環(huán)節(jié)二:數(shù)據(jù)建模
現(xiàn)在許多產(chǎn)品背后都有一個(gè)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)里很多都是跟交易相關(guān)的。在數(shù)據(jù)庫(kù)里會(huì)把我們生成的數(shù)據(jù)記下來,比如說用戶的注冊(cè)信息、交易訂單信息,這種信息都會(huì)寫到數(shù)據(jù)庫(kù)里。那么我們?cè)跀?shù)據(jù)庫(kù)里就可以解決問題,為什么要專門建一個(gè)數(shù)據(jù)平臺(tái)呢?這里面有三個(gè)問題:
1、要把數(shù)據(jù)表用于數(shù)據(jù)中心。如果把數(shù)據(jù)庫(kù)里的表交給業(yè)務(wù)員、產(chǎn)品經(jīng)理,他們很難理解,更不可能后續(xù)在機(jī)房進(jìn)行一些工作。
2、性能不行。業(yè)務(wù)數(shù)據(jù)庫(kù)這種數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)表處理一般支持的是高頻化、小批量的,而我們的數(shù)據(jù)分析跟這個(gè)模式是完全不一樣的。數(shù)據(jù)分析的頻次并不是很高,但是它的規(guī)模、吞吐量很大。在傳統(tǒng)的數(shù)據(jù)庫(kù)上去處理這個(gè)性能就會(huì)有很大的問題。
3、數(shù)據(jù)不全。業(yè)務(wù)數(shù)據(jù)庫(kù)用于做數(shù)據(jù)中心,這個(gè)數(shù)據(jù)模型本身是不行的,或者說是只能解決一部分的問題。
做好數(shù)據(jù)分析,首先在數(shù)據(jù)建模的時(shí)候要易于理解。數(shù)據(jù)模型建好以后,無論是誰都可以理解,這樣才能把數(shù)據(jù)更好的利用起來。另外還要性能好,我們?cè)诓樵兊臅r(shí)候,可以很快的得到響應(yīng)。在數(shù)據(jù)分析,特別是互聯(lián)網(wǎng)領(lǐng)域的分析過程中,最常用的模型是多維數(shù)據(jù)處理模型(OLAP),把數(shù)據(jù)拆成一個(gè)維度或指標(biāo)。當(dāng)然最好的分析方式還是建立一個(gè)好的數(shù)據(jù)模型。
環(huán)節(jié)三:數(shù)據(jù)分析
數(shù)據(jù)分析可以干什么?產(chǎn)品改進(jìn)。數(shù)據(jù)分析可以幫助我們看到問題,然后改進(jìn)。在有數(shù)據(jù)的情況下,即使一個(gè)初級(jí)的產(chǎn)品經(jīng)理,也可以把這個(gè)產(chǎn)品迭代本身做得像模像樣,因?yàn)橛袛?shù)據(jù)支撐,我知道哪些是客戶喜歡的,這都是可以用數(shù)據(jù)表現(xiàn)出來的。
環(huán)節(jié)四:運(yùn)營(yíng)監(jiān)控
運(yùn)營(yíng)監(jiān)控是互聯(lián)網(wǎng)產(chǎn)品中一個(gè)非常重要的事情?;ヂ?lián)網(wǎng)產(chǎn)品有三件最重要的的事情:
第一件事情是拉新,就是如何去獲取新用戶;
第二件事情是怎么讓這個(gè)用戶不斷的用你的產(chǎn)品;
第三件事情是變現(xiàn),我用得挺好,來了就不走了,這三點(diǎn)是非常關(guān)鍵的。
一個(gè)科學(xué)的運(yùn)營(yíng)環(huán)節(jié),應(yīng)該分析哪些數(shù)據(jù),可以從以下五個(gè)方面來看:
第一是觸達(dá),怎么讓用戶知道你;
第二是激活,要讓用戶進(jìn)行購(gòu)買行為;
第三是留存;
第四是引薦,一個(gè)用戶能推薦給其他用戶;
最后就是營(yíng)收。
互聯(lián)網(wǎng)產(chǎn)品常用的分析法:
多維分析:一個(gè)開元軟件分析之后發(fā)現(xiàn)安卓的下載率比ios低很多,結(jié)果是因?yàn)槠聊徊季謫栴},導(dǎo)致下載按鈕沒有顯示,下載量低。這就是多維分析的方式。
漏斗分析:用戶來到我們網(wǎng)站,這期間有一個(gè)轉(zhuǎn)化的過程,這些環(huán)節(jié)我們都要跟進(jìn)下來,才能知道是什么原因?qū)е铝擞脩袅魇А_@就是漏斗分析法。
用戶分群:對(duì)不同的人采取不同的策略。比如,一開始滴滴打車發(fā)13元紅包,有些人發(fā)不發(fā)紅包都會(huì)用這款軟件,而一些人則不同。這就需要區(qū)別開來,使用不同的策略。
環(huán)節(jié)五:指標(biāo)
我們到底應(yīng)該關(guān)心什么樣的指標(biāo)?這里有兩個(gè)方法:第一關(guān)鍵指標(biāo)法;第二海盜指標(biāo)法。
以上就是我分享的內(nèi)容,謝謝大家!
延伸閱讀
硅谷技術(shù)達(dá)人中國(guó)行活動(dòng)圓滿落幕!大數(shù)據(jù)時(shí)代,聽大咖講述硅谷工程師如何練成
BitTiger聯(lián)合創(chuàng)始人Michael Kehoe:硅谷互聯(lián)網(wǎng)公司的企業(yè)管理文化
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新