資深數(shù)據(jù)科學(xué)家教你如何從數(shù)據(jù)中獲得洞見(jiàn)
【數(shù)據(jù)猿導(dǎo)讀】 Salesforce高級(jí)副總裁,資深數(shù)據(jù)科學(xué)家Rama Ramakrishnan給新入門的數(shù)據(jù)科學(xué)家提供了一種新的從數(shù)據(jù)中發(fā)現(xiàn)洞見(jiàn)的方式:就像一名科學(xué)家一樣,從理論出發(fā)進(jìn)行預(yù)測(cè),檢查數(shù)據(jù),修正理論,再進(jìn)行預(yù)測(cè),如此循環(huán)。

Salesforce高級(jí)副總裁,資深數(shù)據(jù)科學(xué)家Rama Ramakrishnan給新入門的數(shù)據(jù)科學(xué)家提供了一種新的從數(shù)據(jù)中發(fā)現(xiàn)洞見(jiàn)的方式:就像一名科學(xué)家一樣,從理論出發(fā)進(jìn)行預(yù)測(cè),檢查數(shù)據(jù),修正理論,再進(jìn)行預(yù)測(cè),如此循環(huán)。
這個(gè)問(wèn)題經(jīng)常被提到。
典型的提問(wèn)者是剛?cè)腴T的數(shù)據(jù)科學(xué)家,分析師以及對(duì)數(shù)據(jù)科學(xué)很陌生的經(jīng)理。
他們的上司正經(jīng)受著壓力,得展示收集、存儲(chǔ)和組織數(shù)據(jù)的系統(tǒng)費(fèi)用的投資回報(bào)率,更別提那些花費(fèi)到數(shù)據(jù)科學(xué)家身上的錢了。
有的時(shí)候他們很幸運(yùn)。他們也許被要求解決一個(gè)非常具體而且已經(jīng)被很好地解決了的問(wèn)題(例如,預(yù)測(cè)哪些顧客傾向于取消他們的手機(jī)合同https://blog.kissmetrics.com/improve-by-predicting-churn/)。在這種情況下,有許多種方式可以解決問(wèn)題,這簡(jiǎn)直就是數(shù)據(jù)科學(xué)的天堂。
但是通常來(lái)說(shuō),他們只被簡(jiǎn)單地要求去“挖掘數(shù)據(jù),并且告訴我一些有趣的事情”。
從哪里開(kāi)始呢
這是一個(gè)很復(fù)雜的問(wèn)題,而且不存在一個(gè)完美的答案。我作為一名有經(jīng)驗(yàn)的實(shí)戰(zhàn)者,已經(jīng)發(fā)展出許多方式去做這件事。這里是其中一種我覺(jué)得非常有效的方式。
它基于兩個(gè)觀念:
1. 每家企業(yè)都可以被視作擁有許多活動(dòng)的復(fù)雜系統(tǒng)。沒(méi)有人可以100%理解它。即使是最有經(jīng)驗(yàn)的雇員,他們對(duì)企業(yè)的理解和企業(yè)真正的運(yùn)作狀況之間也仍然存在著鴻溝。而且由于企業(yè)一直都在變化,這條鴻溝會(huì)不斷變寬。
2. 任何你所擁有的有關(guān)企業(yè)的數(shù)據(jù)都描述了這個(gè)復(fù)雜系統(tǒng)的行為的某些方面。
考慮到這個(gè),你可以將“洞見(jiàn)”看作是任何可以提升你對(duì)這個(gè)系統(tǒng)的真實(shí)運(yùn)作的理解信息。它填補(bǔ)了你所認(rèn)為這個(gè)系統(tǒng)的運(yùn)作方式以及它真實(shí)的運(yùn)作方式之間的鴻溝。
或者借用安迪·葛洛夫(Andy Grove)(https://en.wikipedia.org/wiki/Andrew_Grove)的著作《格魯夫給經(jīng)理人的第一課》(High Output Management)中的類比,復(fù)雜的系統(tǒng)就像黑箱,而洞見(jiàn)就像是從黑箱的一側(cè)所開(kāi)的一扇窗,光可以透過(guò)窗照到箱子里正在發(fā)生什么。
所以對(duì)洞見(jiàn)的追尋也可以被認(rèn)為是通過(guò)分析數(shù)據(jù)來(lái)理解復(fù)雜的事物是怎么運(yùn)作的。
這正是科學(xué)家所做的事情!這個(gè)世界是不可思議地復(fù)雜,但是科學(xué)家們卻有一本已經(jīng)被嘗試和測(cè)試過(guò)的指南來(lái)逐漸提升我們對(duì)它的認(rèn)識(shí),這就是科學(xué)方法(https://en.wikipedia.org/wiki/Scientific_method)。
以下是不正式的總結(jié):
使用他們現(xiàn)在對(duì)系統(tǒng)運(yùn)轉(zhuǎn)的理解(“理論”),他們可以做出確定的預(yù)測(cè)。
然后他們檢查數(shù)據(jù)(有的時(shí)候開(kāi)展精心設(shè)計(jì)的實(shí)驗(yàn)來(lái)收集數(shù)據(jù)https://www.nasa.gov/feature/goddard/2016/nsf-s-ligo-has-detected-gravitational-waves)來(lái)確定數(shù)據(jù)是否與他們的預(yù)測(cè)相匹配。
如果并不匹配的話,他們就會(huì)深入研究到底發(fā)生了什么,并且更新他們的理解(“修正理論”)。
他們做出新的預(yù)測(cè),并且重復(fù)循環(huán)。
數(shù)據(jù)科學(xué)家和分析師可以做同樣的事情。在你開(kāi)始探索數(shù)據(jù)的時(shí)候,寫下有關(guān)你所期望從數(shù)據(jù)中所見(jiàn)的一個(gè)短的清單:主要變量的分布,重要變量間的關(guān)系,等等。這樣的清單本質(zhì)上是基于你目前對(duì)企業(yè)的理解的預(yù)測(cè)。然后分析數(shù)據(jù),畫圖,總結(jié),做任何需要做的事情來(lái)看它是否和你的期望相符。如果有事物并不匹配呢 如果有任何事物,讓你覺(jué)得“這很奇怪”或者“這不符合情理”呢
放大來(lái)看,并且嘗試?yán)斫饽愕钠髽I(yè)中哪個(gè)部分產(chǎn)生了這個(gè)奇怪的事物。這是非常重要的步驟。
你也許就會(huì)找到對(duì)企業(yè)的洞見(jiàn)并且增進(jìn)你的理解(又或者,你會(huì)發(fā)現(xiàn)在你的數(shù)據(jù)被收集或計(jì)算的過(guò)程中出錯(cuò)了http://www.exp-platform.com/Documents/TwymansLaw.pdf)。
這里是一個(gè)真實(shí)的例子。數(shù)年以前,我們正在研究一個(gè)大型B2C零售商的交易數(shù)據(jù),數(shù)據(jù)集中包含一列“交易數(shù)量”(“transaction amount”)的數(shù)據(jù)。
我們期望看到什么 我們期望大部分的數(shù)量都在平均值左右,部分?jǐn)?shù)據(jù)會(huì)更小一些,另一部分會(huì)更大一些。所以這一列數(shù)據(jù)的曲線圖看起來(lái)應(yīng)該像這樣:
但是當(dāng)我們檢查數(shù)據(jù)的時(shí)候,我們看到的是:
我們探索了讓我們覺(jué)得奇怪的,也就是“Hmm”這個(gè)部分。
最后發(fā)現(xiàn)這些交易并非是他們的典型客戶——為孩子而購(gòu)物的年輕母親——所做出的。而是由那些一年一次從國(guó)外到美國(guó)來(lái),走進(jìn)商店,購(gòu)買大量商品并且?guī)Щ刈约旱膰?guó)家,在自己的商店中銷售的客戶所做出的。他們是和我們的零售商沒(méi)有特定關(guān)系的轉(zhuǎn)銷商。
這家零售商這時(shí)候在北美之外并沒(méi)有任何實(shí)體,他們的網(wǎng)站也沒(méi)有往這些地方派送貨物。但是在他們的版圖之外有充足的需求,以至于當(dāng)?shù)氐钠髽I(yè)迅速地發(fā)展起來(lái),來(lái)填補(bǔ)這個(gè)空缺。
這個(gè)極小的發(fā)現(xiàn)導(dǎo)致了一串有趣的連鎖問(wèn)題:這些轉(zhuǎn)銷商都購(gòu)買了哪些產(chǎn)品,怎樣的促銷活動(dòng)對(duì)他們最適用,甚至是這些數(shù)據(jù)可以怎樣被用作全球擴(kuò)張的計(jì)劃。
所有的這些都來(lái)自于一個(gè)簡(jiǎn)單的曲線圖。
艾薩克·阿西莫夫(Isaac Asimov)(https://en.wikipedia.org/wiki/Isaac_Asimov)漂亮地抓住了其中的精髓:
在科學(xué)中最令人激動(dòng)的話語(yǔ),預(yù)示著新發(fā)現(xiàn)的話語(yǔ),并非“找到了!“而是”這很有趣……
——艾薩克·阿西莫夫
注意:從數(shù)據(jù)回溯到企業(yè)中最根本的原因需要時(shí)間、精力和耐心。如果你在企業(yè)中有很好的聯(lián)絡(luò)網(wǎng)可以回答你的問(wèn)題的話,你會(huì)變得更加有生產(chǎn)力。同樣地,對(duì)你來(lái)說(shuō)非常奇怪的事情,也許對(duì)他們來(lái)說(shuō)是習(xí)以為常的(因?yàn)樗麄儗?duì)于企業(yè)的理解也許比你的理解要深入),那樣,你就可以節(jié)省時(shí)間。
通常來(lái)說(shuō),你越了解企業(yè)的細(xì)微之處,你的預(yù)測(cè)就會(huì)越有針對(duì)性,并且最終能夠找到更為深入的洞見(jiàn)。所以,盡全力去深入企業(yè)的細(xì)節(jié)。找出了解企業(yè)的同事,從他們那里學(xué)習(xí),可能的話,讓他們成為你的“同謀“。
顯而易見(jiàn),擁有數(shù)據(jù)科學(xué)領(lǐng)域的知識(shí)是很有必要的,但是有關(guān)企業(yè)的知識(shí)會(huì)對(duì)你的工作質(zhì)量造成更大的影響。
除了數(shù)據(jù)科學(xué)工作以外,我發(fā)現(xiàn)“預(yù)測(cè)并檢查“的觀念模式也適用于其他類型的分析工作。
在“翻頁(yè)“之前,暫停一會(huì)兒,想一下你期望看見(jiàn)什么樣的東西。你會(huì)發(fā)現(xiàn),這會(huì)形成對(duì)照,并且你能夠更容易地在海量的數(shù)字當(dāng)中發(fā)現(xiàn)有趣的事情。
來(lái)源:數(shù)據(jù)派THU
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新