躋身數(shù)據(jù)科學(xué)領(lǐng)域的五條職業(yè)規(guī)劃道路
【數(shù)據(jù)猿導(dǎo)讀】 面向數(shù)據(jù)的專業(yè)人員可能使用上面任何角色中列出的任何技術(shù),這取決于他們的具體職責(zé)。本篇文章將為讀者列出和數(shù)據(jù)科學(xué)和/或大數(shù)據(jù)職業(yè)道路相關(guān)的一些基本的概念,并且,很希望提供一點(diǎn)如何切實(shí)參與到這個(gè)復(fù)雜領(lǐng)域的建議

最近有許多人聯(lián)系我(大部分都是通過領(lǐng)英)尋求著手?jǐn)?shù)據(jù)科學(xué)和/或大數(shù)據(jù)的建議。這些人普遍對(duì)切入這個(gè)“領(lǐng)域”感興趣,并且需要些關(guān)于如何切入方面的指導(dǎo)。
然而,我懷著極大的尊重來說這個(gè)話,這些請(qǐng)求的中心含義體現(xiàn)出請(qǐng)求者對(duì)自己所要求的事情其實(shí)并不理解。是的,不論在學(xué)習(xí)什么,每個(gè)人都需要從某個(gè)地方開始。我不會(huì)再一個(gè)個(gè)去回答這些相似的問題,這篇文章會(huì)列出和數(shù)據(jù)科學(xué)和/或大數(shù)據(jù)職業(yè)道路相關(guān)的一些基本的概念,并且,很希望提供一點(diǎn)如何切實(shí)參與到這個(gè)復(fù)雜領(lǐng)域的建議。
預(yù)備閱讀
▼
在我們繼續(xù)深入之前,讀一讀這些文章。我是說真的,讀,這些,文章。
解析數(shù)據(jù)科學(xué)謎題
(http://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html)
再析數(shù)據(jù)科學(xué)謎題
(http://www.kdnuggets.com/2017/01/data-science-puzzle-revisited.html)
解析數(shù)據(jù)科學(xué)和大數(shù)據(jù)
(http://www.kdnuggets.com/2016/11/big-data-data-science-explained.html)
預(yù)測(cè)性科學(xué) VS 數(shù)據(jù)科學(xué)
(http://www.kdnuggets.com/2016/11/predictive-science-vs-data-science.html)
第一篇文章概覽數(shù)據(jù)科學(xué)中一些最主要的概念,而第二篇文章則是今年早些時(shí)候?qū)@些概念的更新。第三篇文章更深入地解析了數(shù)據(jù)科學(xué)和大數(shù)據(jù)之中的概念。最后一篇文章對(duì)比了一些其他術(shù)語,對(duì)“數(shù)據(jù)科學(xué)”這個(gè)術(shù)語的復(fù)雜性和微妙性進(jìn)行了簡(jiǎn)短的探討。
我將眾多的職業(yè)可能性拆分成五條能夠輕松掌控的道路。雖然可能有很多人強(qiáng)烈反對(duì)這種角色劃分并且因此感到恐慌,但它確實(shí)對(duì)技能和職業(yè)責(zé)任進(jìn)行了高度的分類。因此,我相信接下來的內(nèi)容能有效地幫助新來者在這個(gè)專業(yè)領(lǐng)域中所存在的令人混淆和迷惑的無數(shù)機(jī)會(huì)之中確認(rèn)方向。
數(shù)據(jù)管理專員
這本質(zhì)上是一個(gè)IT職業(yè),類似于數(shù)據(jù)庫(kù)管理員。數(shù)據(jù)管理專員被認(rèn)為和管理數(shù)據(jù)以及支持?jǐn)?shù)據(jù)管理的設(shè)施有關(guān)。這個(gè)職位和數(shù)據(jù)分析只有很少關(guān)聯(lián),也類似Python和R語言的使用也不是很必要??赡軙?huì)用到SQL語言,以及和Hadoop相關(guān)的查詢語言,比如Hive和Pig。
關(guān)鍵技術(shù)以及需要關(guān)注的技能:
Apache Hadoop和它的生態(tài)系統(tǒng)
Apache Spark和它的生態(tài)系統(tǒng)
SQL以及關(guān)系數(shù)據(jù)庫(kù)
NoSQL數(shù)據(jù)庫(kù)
延伸閱讀:
解析大數(shù)據(jù)關(guān)鍵術(shù)語
(http://www.kdnuggets.com/2016/08/big-data-key-terms-explained.html)
解析數(shù)據(jù)庫(kù)關(guān)鍵術(shù)
(http://www.kdnuggets.com/2016/07/database-key-terms-explained.html)
解析Hadoop關(guān)鍵術(shù)語
(http://www.kdnuggets.com/2016/05/hadoop-key-terms-explained.html)
解析Apache Spark關(guān)鍵術(shù)語
(http://www.kdnuggets.com/2016/06/spark-key-terms-explained.html)
解析云計(jì)算關(guān)鍵術(shù)語
(http://www.kdnuggets.com/2016/06/cloud-computing-key-terms-explained.html)
七步理解NoSQL數(shù)據(jù)庫(kù)(http://www.kdnuggets.com/2016/07/seven-steps-understanding-nosql-databases.html)
七步掌握數(shù)據(jù)科學(xué)所需的SQL
(http://www.kdnuggets.com/2016/06/seven-steps-mastering-sql-data-science.html)
數(shù)據(jù)工程師
這是一條非分析大數(shù)據(jù)職業(yè)道路。記得在剛剛的職業(yè)道路之中提到的數(shù)據(jù)設(shè)施嗎?是的,它們需要被設(shè)計(jì)和執(zhí)行,數(shù)據(jù)工程師就承擔(dān)了這部分工作。如果說數(shù)據(jù)管理專員是汽車修理師,那么數(shù)據(jù)工程師就是汽車工程師。不過不要搞錯(cuò)了,這兩個(gè)角色都對(duì)你的汽車的行駛和持續(xù)工作至關(guān)重要,對(duì)你從A點(diǎn)駕駛到B點(diǎn)同樣重要。
說句實(shí)話,數(shù)據(jù)工程師和數(shù)據(jù)管理專員所需要的技術(shù)和技能是相似的,然而,他們各自在不同的層次理解和使用同樣的概念。我不會(huì)重復(fù)之前一種職業(yè)中所提到的那些信息(所有這些信息對(duì)數(shù)據(jù)工程師都很重要),但我會(huì)專門給數(shù)據(jù)工程師補(bǔ)充延伸閱讀的清單。
延伸閱讀:
頂級(jí)NoSQL數(shù)據(jù)庫(kù)引擎
(http://www.kdnuggets.com/2016/06/top-nosql-database-engines.html)
頂級(jí)大數(shù)據(jù)處理框架
(http://www.kdnuggets.com/2016/03/top-big-data-processing-frameworks.html)
頂級(jí)Spark系統(tǒng)環(huán)境項(xiàng)
(http://www.kdnuggets.com/2016/03/top-spark-ecosystem-projects.html)
Hadoop和大數(shù)據(jù):對(duì)于前六大問題的回答
(http://www.kdnuggets.com/2016/01/hadoop-and-big-data-questions.html)
為什么數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師需要理解云中的虛擬化
(http://www.kdnuggets.com/2017/01/data-scientist-engineer-understand-virtualization-cloud.html)
商業(yè)分析師
在本文里,商業(yè)分析師指的是與數(shù)據(jù)分析和數(shù)據(jù)呈現(xiàn)緊密相關(guān)的角色。包括報(bào)告,儀表板和任何被稱為“商業(yè)智能”的東西。 這種角色通常要求與關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)以及大數(shù)據(jù)框架的交互(或查詢)。
雖然前兩種角色與設(shè)計(jì)基礎(chǔ)設(shè)施來管理數(shù)據(jù)以及實(shí)際管理數(shù)據(jù)有關(guān),但商業(yè)分析師主要關(guān)注從那些或多或少存在的數(shù)據(jù)中提取信息。 這與以下兩個(gè)角色(機(jī)器學(xué)習(xí)研究者/從業(yè)者和以數(shù)據(jù)為導(dǎo)向的專業(yè)人員)形成對(duì)比,兩者都側(cè)重于從數(shù)據(jù)或數(shù)據(jù)以外已知的一些表面信息中獲得洞察力。 因此,商業(yè)分析師需要在所呈現(xiàn)的這些角色中具有獨(dú)特的技能。
關(guān)鍵技術(shù)以及需要關(guān)注的技能:
SQL和關(guān)系型數(shù)據(jù)庫(kù)
NoSQL數(shù)據(jù)庫(kù)
經(jīng)常會(huì)用到商業(yè)報(bào)告和儀表盤封裝技術(shù)
報(bào)告從本質(zhì)來講是沒有固定模式的,快速掌握工具的使用是關(guān)鍵
數(shù)據(jù)倉(cāng)庫(kù)
延伸閱讀:
2016年人工智能的10大趨勢(shì)
(http://www.kdnuggets.com/2015/12/10-business-intelligence-trends-2016.html)
嵌入式分析:人工智能的未來
(http://www.kdnuggets.com/2016/09/embedded-analytics-future-business-intelligence.html)
自建還是購(gòu)買–分析表盤(可視化分析)
(http://www.kdnuggets.com/2016/07/build-buy-analytics-dashboards.html)
機(jī)器學(xué)習(xí)研究員/從業(yè)者
機(jī)器學(xué)習(xí)研究人員和從業(yè)者指的是那些制作和使用預(yù)測(cè)和相關(guān)工具進(jìn)行數(shù)據(jù)利用的人。 機(jī)器學(xué)習(xí)算法允許以較高的速度應(yīng)用統(tǒng)計(jì)分析,并且那些操作這些算法的人不滿足于讓數(shù)據(jù)以其當(dāng)前形式呈現(xiàn)出來。 數(shù)據(jù)詢問是機(jī)器學(xué)習(xí)愛好者的工作方式,但是具有足夠的統(tǒng)計(jì)理解才能知道何時(shí)推進(jìn)的足夠遠(yuǎn),以及什么時(shí)候提供的答案不可信。
統(tǒng)計(jì)和編程是機(jī)器學(xué)習(xí)研究者和實(shí)踐者最大的財(cái)富。
關(guān)鍵技術(shù)以及需要關(guān)注的技能:
統(tǒng)計(jì)學(xué)!
代數(shù)與演算(從業(yè)者的中級(jí)水平,研究員的高級(jí)水平)
編程技能:Python,C ++或其他一些通用語言
學(xué)習(xí)理論(從業(yè)者的中級(jí),研究員的高級(jí)水平)
理解機(jī)器學(xué)習(xí)算法的內(nèi)部工作原理(算法越多越好,理解越深越好?。?/p>
延伸閱讀:
機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)
(http://www.kdnuggets.com/2016/11/machine-learning-vs-statistics.html)
解析機(jī)器學(xué)習(xí)關(guān)鍵術(shù)語(http://www.kdnuggets.com/2016/05/machine-learning-key-terms-explained.html)
用Python7步掌握機(jī)器學(xué)習(xí)
(http://www.kdnuggets.com/2015/11/seven-steps-machine-learning-python.html)
進(jìn)入機(jī)器學(xué)習(xí)生涯之前必讀的5本書
(http://www.kdnuggets.com/2016/10/5-free-ebooks-machine-learning-career.html)
機(jī)器學(xué)習(xí)算法:簡(jiǎn)短技術(shù)概述
(https://www.linkedin.com/pulse/machine-learning-algorithms-concise-technical-overview-matthew-mayo)
機(jī)器學(xué)習(xí)工程師需要知道的10中算法
(http://www.kdnuggets.com/2016/08/10-algorithms-machine-learning-engineers.html)
算法教程綜述
(http://www.kdnuggets.com/2016/09/great-algorithm-tutorial-roundup.html)
10種數(shù)據(jù)挖掘算法
(http://www.kdnuggets.com/2015/05/top-10-data-mining-algorithms-explained.html)
數(shù)據(jù)科學(xué)的15堂數(shù)學(xué)慕課
(http://www.kdnuggets.com/2015/09/15-math-mooc-data-science.html)
數(shù)據(jù)導(dǎo)向?qū)I(yè)人員
對(duì)于可以被稱為“真正的”數(shù)據(jù)科學(xué)家,這是我可以想出的最好的描述。你知道,獨(dú)角獸。除了,沒有獨(dú)角獸,說不同的話的人都是在撒謊。
數(shù)據(jù)管理專業(yè)人員和數(shù)據(jù)工程師關(guān)注數(shù)據(jù)的基礎(chǔ)設(shè)施。商業(yè)分析人員關(guān)注從數(shù)據(jù)中提取事實(shí)。機(jī)器學(xué)習(xí)研究者和從業(yè)者關(guān)注推進(jìn)和使用相關(guān)工具,以利用數(shù)據(jù)來進(jìn)行預(yù)測(cè)和相關(guān)分析。這兩種角色都是基于算法(開發(fā)或利用或兩者兼具)。數(shù)據(jù)導(dǎo)向的專業(yè)人員主要關(guān)注數(shù)據(jù)本身以及它可以告訴的事實(shí),并不涉及執(zhí)行任務(wù)時(shí)所需要的技術(shù)或工具。
面向數(shù)據(jù)的專業(yè)人員可能使用上面任何角色中列出的任何技術(shù),這取決于他們的具體職責(zé)。這是與“數(shù)據(jù)科學(xué)”有關(guān)的最大的問題之一;該術(shù)語并沒有什么具體的實(shí)際意義,但在整體上又包括了一切。這個(gè)角色是就像是數(shù)據(jù)世界的萬金油:(可能)知道如何讓一個(gè)Hadoop生態(tài)系統(tǒng)建立和運(yùn)行;如何對(duì)存儲(chǔ)在其中的數(shù)據(jù)執(zhí)行查詢;如何抽取數(shù)據(jù),并且載入到非關(guān)系型數(shù)據(jù)庫(kù);如何獲取非關(guān)系型數(shù)據(jù)并將其提取到平面文件( flat file);如何在R或Python語言中辨別這個(gè)數(shù)據(jù);如何在進(jìn)行初步探索性描述分析后設(shè)計(jì)特征;如何選擇適當(dāng)?shù)臋C(jī)器學(xué)習(xí)算法來對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)分析;如何統(tǒng)計(jì)分析所述預(yù)測(cè)任務(wù)的結(jié)果;如何將結(jié)果可視化,以方便非技術(shù)人員使用;如何用剛剛描述的數(shù)據(jù)處理流水線的最終結(jié)果告訴管理人員一個(gè)令人信服的事實(shí)。
這只是數(shù)據(jù)科學(xué)家可能擁有的一些技能。然而,無論如何,這個(gè)角色的重點(diǎn)是數(shù)據(jù),以及從數(shù)據(jù)中可以得到什么。同時(shí),在這一個(gè)角色中,專業(yè)知識(shí)占很大的分量,這顯然不是這里可以教授的。
關(guān)鍵技術(shù)以及需要關(guān)注的技能:
統(tǒng)計(jì)學(xué)
編程語言:Python, R, SQL
數(shù)據(jù)可視化
溝通能力
延伸閱讀:
R語言學(xué)習(xí)路線:7步教你從菜鳥到專家
(http://www.kdnuggets.com/2016/03/datacamp-r-learning-path-7-steps.html)
數(shù)據(jù)科學(xué)入門:講給初學(xué)者的基本概念
(https://www.linkedin.com/pulse/data-science-primer-basic-concepts-beginners-matthew-mayo)
數(shù)據(jù)科學(xué)統(tǒng)計(jì)101
(http://www.kdnuggets.com/2016/07/data-science-statistics-101.html)
要在數(shù)據(jù)科學(xué)中做到卓越需要什么樣的統(tǒng)計(jì)話題?
(http://www.kdnuggets.com/2016/08/statistics-topics-needed-excelling-data-science.html)
數(shù)據(jù)科學(xué)家使用的頂尖算法和方法
(http://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html)
作為一篇介紹性文章,我有意地忽略了物聯(lián)網(wǎng)。原因有以下兩個(gè):第一,我不想為試圖吸取所有這些新信息的人增加困惑;第二,物聯(lián)網(wǎng)只是一個(gè)特殊的數(shù)據(jù)情況??赡苓M(jìn)行一些改進(jìn),這些角色都可以適用于物聯(lián)網(wǎng)數(shù)據(jù)。但本質(zhì)來講還是一樣的。
我希望這個(gè)介紹能夠?qū)δ切┫胍獜氖?ldquo;數(shù)據(jù)科學(xué)”或“大數(shù)據(jù)”行業(yè)但不知從哪里或者怎樣開始的人們有所幫助。 請(qǐng)記住,對(duì)于文章中所提到的任何角色。這里的介紹都不能包羅萬象。 但是,對(duì)于對(duì)數(shù)據(jù)專業(yè)了解不多的人來講,這是一個(gè)很好的起點(diǎn)。
如果你對(duì)這個(gè)話題的不同看法感興趣,可以讀一讀Zachary Lipton的Will the Real Data Scientists Please Stand Up(http://www.kdnuggets.com/2015/05/data-science-machine-learning-scientist-definition-jargon.html)?
注:本文由 數(shù)據(jù)派 投稿數(shù)據(jù)猿發(fā)布。
歡迎更多大數(shù)據(jù)企業(yè)、愛好者投稿數(shù)據(jù)猿,來稿請(qǐng)直接投遞至:tougao@datayuan.cn
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新