2016年數(shù)據(jù)科學家將扮演什么角色?
【數(shù)據(jù)猿導讀】 數(shù)據(jù)科學家已被譽為2016年美國最好的工作,但是這一崗位的定義和所要求的技能卻一直在變化。技術(shù)進步與商業(yè)需求不斷驅(qū)動數(shù)據(jù)科學崗位的演化,其所處的行業(yè)也是日新月異。在本文中,我們將更加仔細地審視2016年數(shù)據(jù)科學家將扮演的角色

Dave Holtz寫道,“數(shù)據(jù)科學家”常用作“一攬子頭銜”(blanket title)的統(tǒng)稱,描述一組截然不同的工作崗位。他將這個現(xiàn)象的原因,歸結(jié)為數(shù)據(jù)科學領(lǐng)域仍處在早期發(fā)展階段,對其定義不夠準確。如果接受數(shù)據(jù)科學是一個“跨學科領(lǐng)域”這種大而全的說法,那么數(shù)據(jù)科學家的工作就是從不同形式的大量數(shù)據(jù)中提取知識或洞察。我們已經(jīng)處在大數(shù)據(jù)時代,這是無法改變的事實。隨著數(shù)據(jù)量與日俱增,從這些數(shù)據(jù)中提取出價值的工作只會慢慢變得更加復雜和困難。
大數(shù)據(jù)經(jīng)濟背后的邏輯,正在以無法想象或預測的方式重塑我們的生活;我們做出的每一個電子操作都將產(chǎn)生數(shù)據(jù),并留下與自己生活相關(guān)的蛛絲馬跡。作為消費者經(jīng)濟的參與者,我們訪問任何網(wǎng)站或電子服務(wù)時,所產(chǎn)生的數(shù)據(jù)都會被挖掘,而數(shù)據(jù)科學家就要通過計算機科學、數(shù)據(jù)分析和復雜的商業(yè)知識,來收集、清洗、分析我們提供的數(shù)據(jù),并據(jù)此進行預測。下面的圖表列出了一名數(shù)據(jù)科學家所需要的技能集。我們可以發(fā)現(xiàn),與一般意義上的大數(shù)據(jù)開發(fā)者或商業(yè)分析師不同,這個崗位的職責要求掌握多種技能集。
圖1:數(shù)據(jù)科學家的技能集
是什么讓數(shù)據(jù)科學家不同于類似的數(shù)據(jù)崗位?
Rivera 和 Haverson認為,之前的數(shù)據(jù)專業(yè)人員關(guān)注的是數(shù)據(jù)的流動過程和解釋,而數(shù)據(jù)科學家更注重數(shù)學視角 —— 聚焦于從歷史數(shù)據(jù)和當前數(shù)據(jù)中洞察出未來的模式。如果僅從字面上理解這兩個詞,“科學”意味著通過系統(tǒng)研究獲得的知識;“數(shù)據(jù)”則是由定性化或定量化變量組成的信息集合。因此,數(shù)據(jù)科學家的字面定義應(yīng)該是:一個系統(tǒng)性地研究信息的組織與性質(zhì)的人。盡管統(tǒng)計人員和其他研究數(shù)據(jù)分析的人也扮演著重要的角色,但是Anjul Bhambari所描述的數(shù)據(jù)科學家既是分析師,又是藝術(shù)家,其角色注定是變革傳統(tǒng)數(shù)據(jù)的分析和使用方法。
數(shù)據(jù)科學家的需求不斷上升
商業(yè)社交網(wǎng)站LinkedIn的成功,很好地證明了數(shù)據(jù)科學家為商業(yè)智能所帶來的重大利好。作為一家?guī)缀跫兇庖蕾嚻?.8億名用戶相互聯(lián)系所產(chǎn)生數(shù)據(jù)的企業(yè),LinkedIn正在利用受過正規(guī)培訓、有著強烈好奇心的數(shù)據(jù)科學家們不斷探索大數(shù)據(jù)的世界。LinkedIn與Facebook、Google等其他大型知識型企業(yè)都在利用數(shù)據(jù)科學家對大量的雜亂數(shù)據(jù)進行結(jié)構(gòu)化,確定數(shù)據(jù)的價值大小,以及變量之間的系統(tǒng)性關(guān)系。
KPMG近期對企業(yè)高管的一項調(diào)查顯示,99%的受訪者認為大數(shù)據(jù)分析對于制定次年的戰(zhàn)略非常重要。預計到2020年,每天產(chǎn)生的企業(yè)數(shù)據(jù)將超過240EB,在這一時代背景下,對于掌握了從數(shù)據(jù)中提取價值洞見能力的數(shù)據(jù)科學家的需求比以往更加重要…但是,Venture Beat公司的Travis Wright在一篇文章中提到,對數(shù)據(jù)科學家的需求遠遠超過了供給,如果想跟上新型數(shù)據(jù)經(jīng)濟的步伐,僅美國的公司就需要雇傭14-19萬名數(shù)據(jù)科學家。
令人諷刺的是,關(guān)于數(shù)據(jù)科學家的平均收入的數(shù)據(jù)卻存在許多相互沖突的地方。不過,比較明顯的是平均收入與對數(shù)據(jù)科學家的高需求是正相關(guān)的。如果雇主要求員工能夠熟練使用數(shù)據(jù)挖掘算法、精通像R和Python這樣的語言、又具備處理大型數(shù)據(jù)庫(SQL或類似數(shù)據(jù)庫)的經(jīng)驗,還得開發(fā)Java應(yīng)用、處理NoSQL數(shù)據(jù)庫(引用自某個職位要求,上述要求只占十分之一)——此外,還要能夠?qū)⒁陨线@些清楚地傳達給非技術(shù)同事,那么平均12萬美元的薪資看上去也就不那么過分了。
數(shù)據(jù)科學家的角色
盡管數(shù)據(jù)科學家的角色與傳統(tǒng)意義上的數(shù)據(jù)分析崗位有重合之處,但是區(qū)別也尤其明顯。一名數(shù)據(jù)分析師或數(shù)據(jù)架構(gòu)師能夠從大規(guī)模數(shù)據(jù)集中提取信息。但是他們只掌握SQL查詢命令和對數(shù)據(jù)進行切片的分析包。借助對機器學習的深刻了解和編程開發(fā)等方面的知識,數(shù)據(jù)科學家可以隨心所欲地處理數(shù)據(jù),挖掘出更深的洞見。他們擺脫了這些程序的束縛。普通的數(shù)據(jù)分析師會觀察過去發(fā)生的事情,但是數(shù)據(jù)科學家必須具備長遠的眼光,展望未來。通過應(yīng)用先進的統(tǒng)計知識和復雜的數(shù)據(jù)建模,他們必須挖掘出數(shù)據(jù)中隱藏的模式,對未來做出預測。數(shù)據(jù)科學家所需要的技能成功的數(shù)據(jù)分析需要做到能夠清洗、集成和轉(zhuǎn)變數(shù)據(jù) —— 這些都是數(shù)據(jù)科學家必須掌握的重要技能。將科學背景與計算分析技能結(jié)合在一起之后,你就能夠“勝人一籌”。下面的圖2列出了數(shù)據(jù)科學通常關(guān)注的幾個領(lǐng)域。
圖2.數(shù)據(jù)科學關(guān)注的領(lǐng)域
不過我們還是要更細致地探討一下成為數(shù)據(jù)科學家所需要的實際技能。Mark van Rijmenam是Data Floq公司的CEO,為了能夠開發(fā)出提出正確的問題并尋找正確答案的算法,他建議數(shù)據(jù)科學家掌握以下技能:統(tǒng)計技能、數(shù)學和倫理學技能,并且具備構(gòu)建預測性模型的豐富經(jīng)驗。
來自LinkedIn的Ferris Jumah更是將所要求的技能進行了歸類,盡管數(shù)據(jù)科學家可能需要的技能和擔任的崗位角色紛繁復雜。
數(shù)據(jù)科學家必須做到:
以數(shù)學思維看待數(shù)據(jù)。學習諸如機器學習、數(shù)據(jù)挖掘、數(shù)據(jù)分析和統(tǒng)計學等技能十分重要。數(shù)據(jù)科學家需要從數(shù)學的角度對數(shù)據(jù)進行解釋和分析。
使用一門常用語言,進行數(shù)據(jù)訪問、探索和建模。掌握一門統(tǒng)計編程語言將是關(guān)鍵。R、Python或MATLAB等語言,以及類似SQL等數(shù)據(jù)庫查詢語言是最受追捧的技能。數(shù)據(jù)提取、探索和假設(shè)檢驗是數(shù)據(jù)科學實踐的核心。
具備很強的計算機科學和軟件工程背景。這需要掌握包括Java、C++或算法知識和Hadoop。這些技能將用于利用數(shù)據(jù)來設(shè)計系統(tǒng)架構(gòu)。
數(shù)據(jù)科學家使用的工具
與使用標準工具的普通程序員不同,數(shù)據(jù)科學家一般會使用各種各樣的工具,而且工具時刻在更新。這是因為數(shù)據(jù)科學領(lǐng)域正在快速發(fā)展,許多新工具還遠未成熟。盡管如此,下面我們還是精選了一些數(shù)據(jù)科學家常用的工具:
數(shù)據(jù)分析
在這方面,使用的工具其實就是數(shù)據(jù)科學家用于提取和分析數(shù)據(jù)的編程語言。一般來說是Python、R和SQL。
數(shù)據(jù)倉庫
數(shù)據(jù)科學家可以選擇自己用于提取和分析數(shù)據(jù)的數(shù)據(jù)庫。處理合理大小的數(shù)據(jù)集時,最流行的選擇是MySQL。進入大數(shù)據(jù)領(lǐng)域之后,他們通常會轉(zhuǎn)向使用Hive或Redshift。
數(shù)據(jù)可視化
數(shù)據(jù)可視化方面最常提及的工具,是D3.js和Tableau。只要是你能想象出來的數(shù)據(jù)可視化方式,數(shù)據(jù)科學家都可以利用D3.js實現(xiàn)。Tableau是目前市面上最流行的數(shù)據(jù)可視化工具,支持從數(shù)百個輸入源匯集數(shù)據(jù),并輕松地將這些數(shù)據(jù)轉(zhuǎn)換成可視圖表。
機器學習
這或許是每天新增工具最多的一個領(lǐng)域了。知名度最高、使用最廣泛的工具可能是Scikit-learn,它利用Python進行機器學習。然后當然還有Spark MLlib,這是Apache推出的針對Spark和Hadoop的機器學習庫。
來源:InfoQ
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重