Intel研究院院長吳甘沙:大數(shù)據(jù)分析師的卓越之道(深度)
吳甘沙 | 2016-05-19 18:00
【數(shù)據(jù)猿導(dǎo)讀】 連接數(shù)據(jù)和價(jià)值之間的是知識(shí)發(fā)現(xiàn),用專業(yè)詞匯講,知識(shí)就是模型,知識(shí)發(fā)現(xiàn)就是建模和學(xué)習(xí)的過程。問題來了,大數(shù)據(jù)時(shí)代帶來怎樣的變化?

親愛的各位同仁,各位同學(xué),早上好。大數(shù)據(jù)時(shí)代數(shù)據(jù)分析師應(yīng)該做什么改變?我今天的標(biāo)題是大數(shù)據(jù)分析師的卓越之道。這個(gè)演講信息量比較大,我講的不一定對(duì),即使對(duì)的我也不一定真懂了,所以請(qǐng)大家以批判的方式去理解。
這是一個(gè)典型的數(shù)據(jù)分析的場(chǎng)景,下面是基礎(chǔ)設(shè)施,數(shù)據(jù)采集、存儲(chǔ)到處理,左邊是數(shù)據(jù)處理,右邊價(jià)值輸出。連接數(shù)據(jù)和價(jià)值之間的是知識(shí)發(fā)現(xiàn),用專業(yè)詞匯講,知識(shí)就是模型,知識(shí)發(fā)現(xiàn)就是建模和學(xué)習(xí)的過程。問題來了,大數(shù)據(jù)時(shí)代帶來怎樣的變化?首先數(shù)據(jù)變得非常大,數(shù)據(jù)是新的原材料,是資產(chǎn)、貨幣,所以大家對(duì)價(jià)值輸出的希望值也非常高。但是大數(shù)據(jù)洪流過來,我們?cè)谢A(chǔ)設(shè)施都被沖的七零八落。
所以過去十幾年事實(shí)上業(yè)界都在做大數(shù)據(jù)基礎(chǔ)設(shè)施,做大規(guī)模水平擴(kuò)展,PC級(jí)服務(wù)器的容錯(cuò),MapReduce簡化編程模型,對(duì)數(shù)據(jù)密集型應(yīng)用提高吞吐量,因此有了分布式操作性能,磁盤閃存化,接著內(nèi)存計(jì)算,內(nèi)存需要越來越大,呼喚閃存內(nèi)存化,更靈活的編程模型,最近又有了像深度學(xué)習(xí)那樣的計(jì)算密集型應(yīng)用,所有這些都需要基礎(chǔ)設(shè)施的升級(jí)。
改變思維方式
基礎(chǔ)設(shè)施升級(jí)了,知識(shí)發(fā)現(xiàn)的過程是不是能自然升級(jí)?我跟大家說天下沒有免費(fèi)的午餐。今天的主題是基礎(chǔ)設(shè)施已經(jīng)改朝換代了,我們分析師也應(yīng)該與時(shí)俱進(jìn),體現(xiàn)在三個(gè)方面:第一、思維方式要改變;第二、技術(shù)要提升;第三,分析的能力要豐富起來。
首先,說一下思維方式。改變思維方式最重要的就是改變世界觀,這個(gè)就是牛頓機(jī)械論、確定論的世界。有個(gè)所謂拉普拉斯惡魔的說法,如果在這個(gè)時(shí)刻宇宙當(dāng)中所有原子的狀態(tài)都是可確定的話,就可以推知過去任何一個(gè)時(shí)刻和未來任何一個(gè)時(shí)刻的宇宙狀態(tài)。雖然愛因斯坦發(fā)展了經(jīng)典物理,但本質(zhì)還是確定論,決定論,他的經(jīng)典說法是“上帝不擲骰子”。但是今天的世界事實(shí)上是不確定的,世界是基于概率的。大家都知道薛定諤的貓,貓?jiān)诤凶永锟赡芡瑫r(shí)是死的,也同時(shí)是活的。但是一旦打開這個(gè)盒子,它就變成確定了,要么就是真的死了,要么確實(shí)活著。所謂”好奇心害死貓“,打開盒子,有一半的概率殺死這只貓。
這就是海森堡的測(cè)不準(zhǔn)理論,你的觀測(cè)行為會(huì)改變被觀測(cè)的現(xiàn)象。很多大數(shù)據(jù)事實(shí)上也是測(cè)不準(zhǔn)的,像Google流感的預(yù)測(cè),大家可以看在2013年1月份的階段,Google預(yù)計(jì)的流感情況遠(yuǎn)高于疾控中心實(shí)際測(cè)到的數(shù)目。所以《科學(xué)》和《自然》就發(fā)話了,《自然》認(rèn)為是大數(shù)據(jù)測(cè)不準(zhǔn),《科學(xué)》說這是大數(shù)據(jù)的傲慢。我們常常說舍恩伯格的大數(shù)據(jù)三大理念,要全集不要采樣,擁抱混雜性、無需精確性,要相關(guān)性、不必有因果性。
我提醒大家,這些理念是適合吹牛用的,分析師千萬不能把這個(gè)當(dāng)作絕對(duì)真理。在這個(gè)案例來,即使Google那么牛也拿不到全量的數(shù)據(jù)??v然考慮了混雜性,Google融合了關(guān)鍵詞和疾控中心的數(shù)據(jù)來調(diào)整模型,數(shù)據(jù)還是不精確。另外,相關(guān)性對(duì)于商品推薦確實(shí)夠用了,但涉及健康的問題還是要究其原因,要有因果性。大家看這個(gè)預(yù)測(cè)的過量就導(dǎo)致了局部時(shí)間和地區(qū)內(nèi)流感疫苗準(zhǔn)備過量,而其他時(shí)間/地區(qū)形成了短缺。
所以數(shù)據(jù)的方法論需要升級(jí)。
這是一個(gè)典型的數(shù)據(jù)分析的流程,可以先由假設(shè)采集數(shù)據(jù),也可以先采集了各種數(shù)據(jù),然后從中發(fā)現(xiàn)假設(shè)。有了數(shù)據(jù)以后下一步就要做數(shù)據(jù)的準(zhǔn)備,數(shù)據(jù)準(zhǔn)備往往是最花時(shí)間的。然后分析,分析完了要考慮怎么解釋這個(gè)結(jié)果。大家知道,數(shù)據(jù)分析有兩種目的,一種是把結(jié)果給機(jī)器看,像精準(zhǔn)營銷、商品推薦等,不需很高的可解釋性。另一種是給人看,需要可解釋性,有時(shí)甚至為了可解釋性可以損失一些精確性,比如美國的FICO積分計(jì)算模型,只有五六個(gè)參數(shù),一目了然,具有可解釋性。對(duì)分析結(jié)果的另外一個(gè)處理就是驗(yàn)證,從隨機(jī)對(duì)照實(shí)驗(yàn)到現(xiàn)在的A/B測(cè)試。
到了大數(shù)據(jù)時(shí)代這個(gè)方法論要怎么改變呢,首先我們說測(cè)不準(zhǔn),所以需要加一個(gè)反饋循環(huán),我們循環(huán)反復(fù)地驗(yàn)證假設(shè)、收集數(shù)據(jù)。數(shù)據(jù)7天24小時(shí)進(jìn)來,里面有很多噪聲,有些隨機(jī)噪聲是可處理的,還有一些是系統(tǒng)噪聲,可能因?yàn)槲廴镜臄?shù)據(jù)源,就要特別的數(shù)據(jù)準(zhǔn)備階段。接著我們做數(shù)據(jù)分析需要實(shí)時(shí),交互,要快,這樣才能趕得及世界的變化,最后的解釋和驗(yàn)證同樣需要升級(jí)。所以,下面我一一來做闡述。
一、假設(shè)
首先看假設(shè)。大數(shù)據(jù)思維需要我們先有很多數(shù)據(jù),然后通過機(jī)械的方法發(fā)現(xiàn)其中的相關(guān)性,將其變成假設(shè)。但有時(shí)候相關(guān)性確實(shí)太多了,弱水三千只取一瓢飲,這里面就需要我們的直覺。直覺就是不動(dòng)腦筋、在潛意識(shí)里完成的邏輯推理。怎么訓(xùn)練直覺?就是像讀偵探小說和懸疑小說里面的推理過程。如果說這樣的推理過程只是模型,也還需要數(shù)據(jù),需要很多先驗(yàn)的知識(shí)。這個(gè)知識(shí)怎么來呢?首先就是廣泛的閱讀。第二個(gè),跨界思想的碰撞,跟很多人聊。這兩個(gè)是背景知識(shí),還有一個(gè)前景知識(shí),就是上下文的知識(shí)、融入到業(yè)務(wù)部門。我們希望把數(shù)據(jù)分析師放到業(yè)務(wù)部門,和業(yè)務(wù)人員融入到一起,這才能防止數(shù)據(jù)采集和分析脫鉤,數(shù)據(jù)分析和業(yè)務(wù)應(yīng)用的脫節(jié)。
二、數(shù)據(jù)采集
第二個(gè),數(shù)據(jù)采集,這里我非??鋸埖貜?qiáng)調(diào)“數(shù)據(jù)!數(shù)據(jù)!數(shù)據(jù)!”為什么?因?yàn)榇髷?shù)據(jù)碰到的第一個(gè)問題就是數(shù)據(jù)饑渴癥。我們有一次跟阿里聊,他們說也缺數(shù)據(jù),只有網(wǎng)上的銷售記錄,而缺乏無線的數(shù)據(jù)。所謂無線的數(shù)據(jù)就是物理世界的行為,你在網(wǎng)上買了一個(gè)東西,前面發(fā)生了什么?用戶的意圖是什么?怎么形成的?他們也沒有。所以我們強(qiáng)調(diào)全量數(shù)據(jù),而不是采樣的、片面的數(shù)據(jù)。
同時(shí)現(xiàn)在我們企業(yè)已經(jīng)從小數(shù)據(jù)到大數(shù)據(jù),從數(shù)據(jù)倉庫轉(zhuǎn)為Enterprise Data Hub或Data Lake,意味著什么?有人說傳統(tǒng)數(shù)據(jù)倉庫的缺點(diǎn)是數(shù)據(jù)結(jié)構(gòu)變化太困難,太貴了,其實(shí)更本質(zhì)的是對(duì)于數(shù)據(jù)倉庫來說,是有問題,然后根據(jù)這個(gè)問題搜集和組織數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)是確定的。從現(xiàn)在的EDH來說,需要先把各種原始數(shù)據(jù)送進(jìn)來,然后不斷的提問題,相應(yīng)地改變數(shù)據(jù)表示,這就是一種新的思維。
我們需要大量的外部數(shù)據(jù)源,從social media,到開放數(shù)據(jù),到從data broker/aggregator那兒買。處理的數(shù)據(jù)從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)到半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)是什么,交易數(shù)據(jù)。而現(xiàn)在我們企業(yè)里面經(jīng)常面對(duì)的是兩種非結(jié)構(gòu)化數(shù)據(jù)。
第一個(gè)就是日志分析,大家知道大數(shù)據(jù)第一家上市公司Splunk就是從事這一業(yè)務(wù)。
第二個(gè)就是文本數(shù)據(jù),現(xiàn)在我們經(jīng)常聽說情感分析,topic modeling,呼叫中心需要的問答系統(tǒng),甚至是最新的交互式對(duì)話系統(tǒng),都需要文本分析。
第三個(gè)是從文本到圖片再到視頻,需要計(jì)算機(jī)視覺、模式匹配、語義分析。
第四個(gè)是很多數(shù)據(jù)都是有時(shí)間和空間的標(biāo)簽,比如微博,物聯(lián)網(wǎng)數(shù)據(jù),怎么保證數(shù)據(jù)的時(shí)空一致性,怎么能夠?qū)崟r(shí)、流式地處理這些新的數(shù)據(jù)。
最后,還有很多數(shù)據(jù)是網(wǎng)絡(luò)數(shù)據(jù)和圖數(shù)據(jù),比如說社交網(wǎng)絡(luò),我們?cè)趺磥硗ㄟ^PageRank這樣的方式判斷個(gè)人的影響力,怎么來判斷網(wǎng)絡(luò)的控制中心在哪里,都需要一些新的處理方式。
是不是前面說的這些都是合理的?
比如說要n=all全量,事實(shí)上是不可能采集到數(shù)據(jù),有時(shí)候你也不必要有全量數(shù)據(jù)。
首先,是不是數(shù)據(jù)更多就越好呢?未必。我們拿中國作為一個(gè)例子,新疆、青海、西藏、內(nèi)蒙古占的面積是我們國土面積的一半,我們采集這四個(gè)地方的數(shù)據(jù),是不是比采樣更能代表中國呢?未必!
第二個(gè)是“原始數(shù)據(jù)”是不是一個(gè)矛盾修辭。因?yàn)樵紨?shù)據(jù)可能并不原始、客觀,它受到采集人文化、背景、價(jià)值取向的影響。
第三,大數(shù)據(jù)里面的噪聲很多,但是有時(shí)候在數(shù)據(jù)里面信號(hào)看上去是噪聲。比如說大數(shù)據(jù)要求傾聽每一個(gè)個(gè)體的聲音,提供個(gè)性化服務(wù),但有一些個(gè)體的聲音是非常少的,他們?cè)陂L長的尾部里面,但是你不能忽略它。
還有,采樣本身是有偏差的。有一個(gè)經(jīng)典的故事,二戰(zhàn)的時(shí)候?qū)︼w回來的戰(zhàn)機(jī)進(jìn)行分析,相應(yīng)地對(duì)要害部位加固。人們發(fā)現(xiàn)機(jī)翼上有很多彈孔,那是不是加固這個(gè)地方很重要?人們沒有想到的是那些沒能飛回來的戰(zhàn)機(jī)并沒有采樣到,因?yàn)閾糁凶摰亩級(jí)嫐Я?。因此加固座艙才是最緊要的。大數(shù)據(jù)的采樣偏差尤其體現(xiàn)在它有各種子數(shù)據(jù)集,而每一個(gè)數(shù)據(jù)集都采取不同的抽樣規(guī)范,缺乏全局的控制,這樣就有采樣偏差。
同時(shí)你要考慮數(shù)據(jù)權(quán)利的問題,這些數(shù)據(jù)是屬于誰的,有沒有隱私問題,使用許可是不是有范圍,是不是按照許可的范圍做了,我能不能審計(jì),知情,這些都是數(shù)據(jù)的權(quán)利。未來數(shù)據(jù)交易的話還要解決數(shù)據(jù)的定價(jià)問題,這是非常困難的。
當(dāng)我有了數(shù)據(jù)以后,需要生命周期的管理,大數(shù)據(jù)生命周期管理非常重要。一是provenance,英語原意是出處或者是來源,但現(xiàn)在把它譯為世系,或數(shù)據(jù)的的家族譜系,它最早是哪里來的,它又移動(dòng)到什么地方,經(jīng)過什么樣的處理,又產(chǎn)生了什么樣新的子后代。
另外,現(xiàn)在我們強(qiáng)調(diào)數(shù)據(jù)永不刪除,是不是有這個(gè)必要?我們發(fā)現(xiàn)其實(shí)很多數(shù)據(jù)沒用以后,就應(yīng)該刪除。例如,有個(gè)互聯(lián)網(wǎng)公司用用Cookie采集了鼠標(biāo)移動(dòng)蹤跡的數(shù)據(jù),來了解用戶的瀏覽行為。但是過一段時(shí)間網(wǎng)頁的格局和內(nèi)容都變化了,這些數(shù)據(jù)還有什么用呢?應(yīng)該刪除掉。所以并不是說數(shù)據(jù)永遠(yuǎn)都要保存。但是,另一方面反映了,數(shù)據(jù)來了一周之內(nèi),一個(gè)月之內(nèi)必需要分析,不然就永遠(yuǎn)不會(huì)再碰它了,失去意義了。
三、數(shù)據(jù)的準(zhǔn)備
下面講數(shù)據(jù)的準(zhǔn)備,大數(shù)據(jù)的質(zhì)量非常重要。要混雜性、不要精確性是有問題的。一個(gè)非常著名的研究機(jī)構(gòu)做了統(tǒng)計(jì),詢問大數(shù)據(jù)分析師什么是你single biggest problem,回答“數(shù)據(jù)質(zhì)量”的人數(shù)是“數(shù)據(jù)大”人數(shù)的兩倍。
面對(duì)大數(shù)據(jù),要有“有罪推定”,認(rèn)識(shí)到大數(shù)據(jù)本身就是有噪聲的,有偏差的,也是有污染的數(shù)據(jù)源。你的目標(biāo)是建立一個(gè)模型,一方面對(duì)噪聲建模,另一方面對(duì)信號(hào)建模,這個(gè)模型恰到好處得復(fù)雜,太復(fù)雜了模型會(huì)“造出”數(shù)據(jù)當(dāng)中并不存在的結(jié)構(gòu)。
一般的處理方法有兩類:一是數(shù)據(jù)清洗和數(shù)據(jù)驗(yàn)證,二是data curation數(shù)據(jù)治理,和wrangling。
前者關(guān)注的是數(shù)據(jù)是否錯(cuò)的,數(shù)據(jù)有些是丟失的或者有些數(shù)據(jù)是相互矛盾的。我通過清洗、驗(yàn)證的方式把它做出來,大數(shù)據(jù)非常大怎么做清洗呢?有沒有可能從一小部分子數(shù)據(jù)集開始做清洗,進(jìn)而推至全部?有沒有可能把整個(gè)過程自動(dòng)化,這是研究的前沿。另外一個(gè)前沿是數(shù)據(jù)的清洗能不能跟可視化結(jié)合起來,通過可視化一下子發(fā)現(xiàn)了那些不正常的地方,outliers。通過機(jī)器學(xué)習(xí)的方式來推理不正?,F(xiàn)象的原因,是哪些字段出了問題。
對(duì)data curation和wrangling,它的目的是把數(shù)據(jù)轉(zhuǎn)化為合理的表示、以便分析。我覺得現(xiàn)在最熱的研究課題是,你怎么能夠通過自動(dòng)學(xué)習(xí)的方式來發(fā)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)當(dāng)中的結(jié)構(gòu),把entities解析出來,并且對(duì)數(shù)據(jù)做必要的規(guī)整和轉(zhuǎn)換。比如你怎么能夠把哪些看似不同、實(shí)則相同的數(shù)據(jù)normalize。比如說有些的字段是IBM,有的是國際商業(yè)機(jī)器公司,有的是藍(lán)色巨人,你能不能將其歸為同一個(gè)值。
大數(shù)據(jù)的特點(diǎn)是大,稀疏,高維,異構(gòu),長尾。數(shù)據(jù)準(zhǔn)備最重要的是把大數(shù)據(jù)轉(zhuǎn)變?yōu)楹侠淼臄?shù)據(jù)表示,使得它便于分析。
數(shù)據(jù)表示首先考慮怎么能夠降低計(jì)算通訊的代價(jià)。
大家看我們大數(shù)據(jù)經(jīng)常是稀疏的,所以可以采用稀疏數(shù)據(jù)結(jié)構(gòu)。大數(shù)據(jù)太大了我們有沒有可能壓縮?大家知道我們?cè)瓉淼臄?shù)據(jù)倉庫,一個(gè)表可能有成千上萬個(gè)列,最大、最麻煩的問題就是我要給數(shù)據(jù)表增加列。而通過列存儲(chǔ)的方式可以使增加列變得非常簡單,而且計(jì)算更有局部性。
還有一種降低計(jì)算代價(jià)的方式就是近似計(jì)算,比如Bloom filter、hyperloglog,通過降低時(shí)空復(fù)雜性,雖然誤差稍微增加幾個(gè)百分點(diǎn),但是計(jì)算量和內(nèi)存占用下降幾個(gè)數(shù)量級(jí)。
下一個(gè)是怎么能夠降低統(tǒng)計(jì)的復(fù)雜性?大數(shù)據(jù)經(jīng)常是高維度數(shù)據(jù),怎么辦?通過降維和聚類等方式能夠降低它的復(fù)雜性。
另外大數(shù)據(jù)還是需要采樣的,大家知道隨機(jī)性采樣,并不代表用一個(gè)均衡的概率采樣,可以對(duì)不同的組采用不同的權(quán)重采樣。但大數(shù)據(jù)常常要非隨機(jī)采樣。因?yàn)橛行﹤€(gè)體你根本不知道在哪個(gè)組里,如果有人吸毒,ta肯定不會(huì)說;人們的技能也沒有確定的分組。你可能需要一種新的采樣的方式,比如說雪球采樣,你先從隱藏組找到一些種子,然后再慢慢的擴(kuò)大,像滾雪球那樣,這是非隨機(jī)抽樣。另外,對(duì)于信號(hào)稀疏的數(shù)據(jù)集,可以采用compressive sampling,你能壓縮得很小,但還是可以恢復(fù)原始數(shù)據(jù)。
我想請(qǐng)大家注意,數(shù)據(jù)分析師不能只考慮數(shù)據(jù)表示、模型的問題,最終還是要考慮計(jì)算是怎么實(shí)現(xiàn)的,響應(yīng)地選擇最好的表示。比如說數(shù)據(jù)并行的計(jì)算就用表或者是矩陣,如果是圖并行,我就要選擇網(wǎng)絡(luò)和圖的格式。
最后,我想請(qǐng)大家關(guān)注UIMA(Unstructured Information Management Architecture),這個(gè)框架能夠幫助你來保存各種各樣數(shù)據(jù)表示,以及跟數(shù)據(jù)分析對(duì)接。IBM的沃森在人機(jī)知識(shí)競(jìng)賽中獲勝,它就是采用了這個(gè)框架。
四、數(shù)據(jù)分析
我們?cè)倏捶治鲭A段。
數(shù)據(jù)分析師真是越來越不容易。最早只要懂?dāng)?shù)據(jù)庫就行了,數(shù)據(jù)分析就是查詢,接著要學(xué)統(tǒng)計(jì)學(xué)了,比如做參數(shù)的估計(jì)、假設(shè)的驗(yàn)證、模型評(píng)估等。接著要學(xué)機(jī)器學(xué)習(xí),所以我們說數(shù)據(jù)挖掘是這三個(gè)學(xué)科的交叉。機(jī)器學(xué)習(xí)和模式識(shí)別是從人工智能脫胎出來,隨著處理非結(jié)構(gòu)化數(shù)據(jù)的要求,這兩樣也要學(xué)了。慢慢的在數(shù)據(jù)挖掘外面又包了一層KDD,knowledge discovery和data mining?,F(xiàn)在又有最新的神經(jīng)計(jì)算,比如神經(jīng)網(wǎng)絡(luò)形式的類腦計(jì)算算法,sparse coding等。尤其重要的是,這些工具都要跟相關(guān)的計(jì)算的模型和架構(gòu)對(duì)接起來。數(shù)據(jù)分析師必須是持續(xù)學(xué)習(xí)的。
我們數(shù)據(jù)分析師還是有些裝備的,這是現(xiàn)在最流行的四種分析的語言,SAS,R,SQL,還有python。學(xué)會(huì)這些基本可以覆蓋兩類分析任務(wù),簡單的基于SQL的查詢分析,以及復(fù)雜的、往往是基于線性代數(shù)的分析計(jì)算。當(dāng)然,hard core的分析師可能還需要學(xué)習(xí)JAVA、Scala這樣的語言。這個(gè)可能還不夠,現(xiàn)在你用D3這樣的可視化庫,必須學(xué)習(xí)JAVA,所以需要來更新我們的裝備。但是有人質(zhì)疑這些裝備都是為傳統(tǒng)的數(shù)據(jù)分析師準(zhǔn)備的,大家不要擔(dān)心,因?yàn)樵谶@些語言下面都已經(jīng)有了大數(shù)據(jù)的基礎(chǔ)設(shè)施,比如SQL,各種SQL over Hadoop,另外R、SAS都可以跑在MapReduce和Spark的大數(shù)據(jù)基礎(chǔ)設(shè)施上,就連Python也與Spark能夠很好地接起來。
更方便的是現(xiàn)在所有做基礎(chǔ)設(shè)施的人都在考慮一個(gè)詞,Machine Learning Pipeliine,最早是scikit-learn里出現(xiàn)的,現(xiàn)在Spark都在往這個(gè)方向發(fā)展,把機(jī)器學(xué)習(xí)的整個(gè)流程在pipeline上一站式完成。而且現(xiàn)在更多的東西都可以放到云里做了。07/08年的時(shí)候Cloudera其實(shí)就在考慮是不是能把大數(shù)據(jù)在云里做,你看它的名字就是這個(gè)意思。但那時(shí)條件還不成熟,現(xiàn)在很多中小企業(yè)都愿意用基于云的大數(shù)據(jù)基礎(chǔ)設(shè)施了。原來on premise的大數(shù)據(jù)基礎(chǔ)設(shè)施像上面這樣,各種工具,很多都是拿動(dòng)物做吉祥物的,我們開玩笑說要開整個(gè)動(dòng)物園,太麻煩?,F(xiàn)在所有的這些模塊都部署在云里,所以這給我們帶來了很多方便。
說完了工具,再說分析模型。
統(tǒng)計(jì)學(xué)大師George Box說,所有模型都是錯(cuò)的,但是有些是有用的,關(guān)鍵是選擇什么樣的模型。
以賽亞柏林有個(gè)比喻,有一種人是刺猬,一招鮮吃遍天,還有一種是狐貍,一把鑰匙開一把鎖,以更開放的態(tài)度處理分析、選擇最合適的模型。一個(gè)技術(shù)用到極致是非常厲害的,像貝葉斯,有個(gè)很著名的分析師叫Nathan Silver,寫《信號(hào)與噪聲》那個(gè)書的,成功地預(yù)測(cè)美國大選、奧斯卡,就是把貝葉斯用得滾瓜爛熟。但是,還是需要根據(jù)問題,選擇合適的模型和方法。
模型的復(fù)雜度必須與問題匹配的。這就是所謂的奧卡姆剃刀原理,有多種模型能解釋數(shù)據(jù)的時(shí)候,就選擇最簡單的一個(gè)。
我們現(xiàn)在做數(shù)據(jù)分析碰到兩個(gè)問題:一個(gè)是過擬合,還有一個(gè)是數(shù)據(jù)量大了以后,模型沒辦法提升。所以大數(shù)據(jù)的模型必須在數(shù)據(jù)增多時(shí)獲得更大的邊際效益。
有一個(gè)很著名的科學(xué)家,叫Peter Norvig,他寫《人工智能現(xiàn)代方法》一書,好像是吳軍博士在Google的老板。他說,簡單模型加上大數(shù)據(jù),比復(fù)雜模型加小數(shù)據(jù)更好,這個(gè)對(duì)不對(duì)?這個(gè)在很多情況下是對(duì)的,但是并不完全對(duì)。他的所謂簡單模型n-gram,其實(shí)特征是非常多的,每個(gè)單詞就是一個(gè)特征,所以這個(gè)模型其實(shí)不簡單,所以大數(shù)據(jù)能夠帶來不可名狀的提升效果。
Ensemble是另一種解決單個(gè)模型與數(shù)據(jù)量不能匹配的辦法,做模型的組合。沃森電腦采用了這種方法,在很多數(shù)據(jù)競(jìng)賽中大量使用了ensemble,大家可以參考Kaggle和Netflix競(jìng)賽里的博客和討論,了解一些技巧。
一般來說線性模型適用小數(shù)據(jù),非線性模型適用大數(shù)據(jù);帶參模型適用小數(shù)據(jù),無參模型適用大數(shù)據(jù);discriminative模型適用小數(shù)據(jù),generative模型適用大數(shù)據(jù)。但是有個(gè)問題,那些非線性模型、無參模型等計(jì)算復(fù)雜度可能比較高,怎么辦呢?針對(duì)高維、稀疏的數(shù)據(jù),可以考慮混合模型:把線性和非線性,帶參和無參結(jié)合起來,分別應(yīng)用于不同的維度,這樣又能夠提升大數(shù)據(jù)的效用,又能夠解決計(jì)算量的問題。
我剛才講到長尾信號(hào)非常非常重要,我們現(xiàn)在不能忽略長尾信號(hào)。傳統(tǒng)的分析很多都是基于指數(shù)模型、指數(shù)分布假設(shè),就是割尾巴,低頻的信號(hào)都被過濾掉了。那怎么能保持長尾上的信號(hào)呢,可能需要通過分級(jí)訓(xùn)練、做模型組合、采用一些新的概率圖模型、基于神經(jīng)網(wǎng)絡(luò)的模型。
分析要快,對(duì)于交互查詢,60秒完成跟6分鐘完成難道只差幾倍?不是的,一旦延遲超過某個(gè)閾值,數(shù)據(jù)科學(xué)家會(huì)改變行為,他們失去一些創(chuàng)造力。
針對(duì)時(shí)空的數(shù)據(jù),需要流計(jì)算,數(shù)據(jù)流過的時(shí)候完成分析,甚至未必要存下來。
現(xiàn)在機(jī)器學(xué)習(xí)強(qiáng)調(diào)的在線學(xué)習(xí),增量的學(xué)習(xí),流式的學(xué)習(xí),數(shù)據(jù)一邊進(jìn)來一邊學(xué)習(xí),一邊更改模型,一邊生產(chǎn)部署。
最后當(dāng)你的數(shù)據(jù)又大,又需要快的時(shí)候,你不懂系統(tǒng)是不行的,你必須懂系統(tǒng),要考慮并行化,數(shù)據(jù)并行,模型并行,任務(wù)并行,并行要考慮一致性,如果數(shù)據(jù)直接有依賴、不能很好并行的話,考慮采用陳舊的數(shù)據(jù),雖然損失精度,但可以加大并行度,靠更多的數(shù)據(jù)把精度補(bǔ)回來,這里的副作用是收斂變慢,因此要考慮是否合算。
你必須與基礎(chǔ)設(shè)施的人合作,做系統(tǒng)調(diào)優(yōu)。前一段時(shí)間與Databricks的Reynold討論,講到現(xiàn)在分析任務(wù)優(yōu)化到極致,應(yīng)該把所有的隨機(jī)訪問都放到CPU的cache里,磁盤上只有順序訪問。又比如現(xiàn)在大數(shù)據(jù)棧都基于Java,內(nèi)存大了有g(shù)arbage collection的問題,所以要考慮怎么減少單個(gè)任務(wù)heap的大小,把不大改變的數(shù)據(jù)放到內(nèi)存文件系統(tǒng)里。
深度學(xué)習(xí)已經(jīng)進(jìn)入了數(shù)據(jù)分析師的兵器庫。它最早是語音識(shí)別DNN,到圖像理解CNN,再到向量化表示的自然語言理解,現(xiàn)在RNN、LSTM很火。下面是特化到不同的領(lǐng)域里,比如醫(yī)學(xué)的圖像分析。
以前深度學(xué)習(xí)完成的是人可以做的認(rèn)知任務(wù),下一步會(huì)進(jìn)入非認(rèn)知任務(wù),像百度用來做搜索廣告,Netflix做深度學(xué)習(xí)推薦,以后做藥物的發(fā)現(xiàn),甚至我們現(xiàn)在做機(jī)器人,都有深度學(xué)習(xí)的應(yīng)用,比如深度的reinforcement learning。
大家的福音是現(xiàn)在深度學(xué)習(xí)很多的代碼都是開源的,我們?nèi)ツ甑臅r(shí)候雖然有Caffe,但還是花了很多力氣去做各種各樣的模型,像AlexNet、VGG和GoogLeNet,今年所有這些模型全部都開源。下一步的發(fā)展趨勢(shì)是開放協(xié)作的計(jì)算機(jī)科學(xué),值得關(guān)注GitXiv,這時(shí)各種開發(fā)、協(xié)作工具集于一身,論文在arXiv上,開源代碼在GitHub,還有各種鏈接和討論,這種開放極大降低了技術(shù)的門檻,讓知識(shí)更快傳播。有了Pylearn2, Theano和Caffe,現(xiàn)在哪個(gè)分析師說不會(huì)深度學(xué)習(xí)都不好意思。
還沒有學(xué)Sparse coding的話大家可以看一下,這個(gè)是我從哈佛的孔祥重教授,HT Kung,那里拿來的。它跟深度學(xué)習(xí)有點(diǎn)沾親帶故,本質(zhì)上還是一個(gè)數(shù)據(jù)表示的問題,與特定的分類器結(jié)合,展現(xiàn)了極大的能量,這里列出了很多的應(yīng)用。
還有數(shù)據(jù)標(biāo)注的問題,這張PPT是基于吳恩達(dá)的文章,列出了幾種新的思路。大家注意橙色背景的都是標(biāo)注數(shù)據(jù),最上面是監(jiān)督學(xué)習(xí),你要分別有大象和犀牛的標(biāo)注數(shù)據(jù),才能認(rèn)大象和犀牛。接著是半監(jiān)督學(xué)習(xí),一部分標(biāo)注的大象/犀牛數(shù)據(jù)和一部分非標(biāo)注的大象/犀牛數(shù)據(jù)結(jié)合起來學(xué)習(xí)。第三章是transfer learning,就是在其他地方學(xué)到的東西,能夠在這里舉一反三,你看這里試圖利用羊和馬的標(biāo)注數(shù)據(jù)來幫助識(shí)別大象和犀牛。最后是self taught learning,比較神,一部分標(biāo)注數(shù)據(jù),加上另一部分完全不相關(guān)的數(shù)據(jù),號(hào)稱也能幫助學(xué)習(xí),但這塊最近不大說了。
在機(jī)器和工具不斷進(jìn)化的過程中,人的角色在變化,前一段時(shí)間王煜全老師提出一個(gè)概念叫human machine intelligence,就是人利用機(jī)器和工具來提升智能的能力。數(shù)據(jù)分析師要懂機(jī)器,懂工具,要跟工具更好的配合,而不是一味的此消彼長。
原來機(jī)器學(xué)習(xí)最重要的就是特征學(xué)習(xí),很多人做特征工程,但一段時(shí)間以后邊際效益就不行了?,F(xiàn)在無監(jiān)督學(xué)習(xí),深度學(xué)習(xí),可以幫助你學(xué)習(xí)特征,而且很多分析和可視化工具開始自動(dòng)化了。那么你怎么跟它工作搭配,能夠獲得最好的效率呢?exploratory anlaytics/可視化是一種方式,你一邊在利用工具獲得一些結(jié)論,一邊又據(jù)此重新提出問題,循環(huán)往復(fù),這是純機(jī)器完成不了的。
另外一個(gè)趨勢(shì)是大規(guī)模的人跟人,人跟機(jī)器協(xié)同配合。
比如算法可以外包,Kaggle上讓其他人替你完成。
你可以眾包,比如現(xiàn)在大量數(shù)據(jù)標(biāo)注都通過眾包方式完成,CrowdDB通過眾包解決數(shù)據(jù)歸一性這個(gè)DB-hard的問題。
還有協(xié)作分析,現(xiàn)在開放數(shù)據(jù),光開放還不行,還要允許在這個(gè)數(shù)據(jù)上進(jìn)行多人協(xié)作分析,所以要對(duì)數(shù)據(jù)進(jìn)行版本的管理,對(duì)多種語言序列化支持,比如DataHub。
還有現(xiàn)在所謂的人類計(jì)算,現(xiàn)在最有名的是Duolingo,這是一個(gè)大眾學(xué)習(xí)外語的平臺(tái),有趣的是,你在學(xué)語言的過程,也是對(duì)互聯(lián)網(wǎng)進(jìn)行翻譯的過程,100萬個(gè)用戶學(xué)習(xí)80個(gè)小時(shí),就將wikipedia從英文翻成了西班牙文,大家可以想象這種力量有多強(qiáng)大。
五、解釋和驗(yàn)證
最后,就是解釋和驗(yàn)證?,F(xiàn)在分析師所學(xué)要從STEM到STEAM,STEM是Science, Technology, Engineering, Mathematics, STEAM多出的這個(gè)A是art。今天的大會(huì)標(biāo)題是要懂技術(shù),也要懂藝術(shù)。
藝術(shù)不只是這種優(yōu)雅美觀的可視化,還有一個(gè)很重要的就是講故事,你有了分析結(jié)果之后怎么講出來。
比如說啤酒加尿布,它就符合了講故事的3D:戲劇性Drama、細(xì)節(jié)Details、參與這個(gè)對(duì)話的感覺Dialogue。當(dāng)然啤酒加尿布,這個(gè)案例是編出來的,但是它包含了這個(gè)story telling的精髓,所以它馬上傳播出去了,它的啟發(fā)性使得更多人愿意去投入數(shù)據(jù)分析。
魔球(電影Money ball)也是這樣,用一個(gè)精彩的、抑揚(yáng)起伏的故事講述數(shù)據(jù)分析怎么來改變棒球運(yùn)動(dòng),但是它也沒有說出來的是,其實(shí)很多分析工作是球探做的,有些非客觀的因素,像意志力,像抗壓力,在當(dāng)時(shí)的情況下由人做更合適。所以,故事要做適當(dāng)?shù)募庸?,源于生活高于生活?/p>
講故事的唯一目的就是像TED倡導(dǎo)的,發(fā)現(xiàn)一個(gè)值得傳播的idea。作為分析師,你還要清楚你的idea是不是真正值得分享。比如Target發(fā)現(xiàn)未婚少女懷孕的事情,確實(shí)是一個(gè)不錯(cuò)的數(shù)據(jù)分析案例,但是從隱私和倫理的角度有點(diǎn)cross the line了,傳播未必是好的選擇。還有像Facebook做控制情緒的實(shí)驗(yàn),還有Uber從午夜叫車的數(shù)據(jù)分析一夜情,都不是好的故事,值得分享的故事。
無論如何,我還是想強(qiáng)調(diào)好的講故事能夠使分析事半功倍。
最后,我認(rèn)為數(shù)據(jù)分析流程需要更加豐富。首先,我們希望能夠把大量的分析案例和方法文檔化,能夠做一個(gè)開放的數(shù)據(jù)庫。光開放數(shù)據(jù)還不行,要開放數(shù)據(jù)分析的方法和實(shí)踐,這樣知識(shí)能夠更快、更廣泛地傳播。
另外,我們前面講的很多是歸納推理,其實(shí)實(shí)際工作中還有演繹推理,典型的方式是仿真和模擬。根據(jù)已經(jīng)存在的模型,加以一些假設(shè)和初始數(shù)據(jù),就可以通過模擬來預(yù)測(cè)和處理沒有發(fā)生過的事情,比如災(zāi)難發(fā)生時(shí)的疏散,特定事件下的交通情況等。
這是最后的總結(jié),現(xiàn)在我們的大數(shù)據(jù)基礎(chǔ)設(shè)施已經(jīng)改朝換代了,我們的數(shù)據(jù)分析師,我們?cè)趺磥砀淖兾覀兊乃季S方式,怎么來提高我們的技術(shù),怎么來豐富我們的分析能力?這是需要我們不斷思考的問題,謝謝大家。
來源:大數(shù)據(jù)文摘
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會(huì)丨《云MSP發(fā)展白皮書》重