淺談:怎樣才能最快數(shù)據(jù)分析入門
保一雄 | 2017-09-15 10:21
【數(shù)據(jù)猿導(dǎo)讀】 理工科的學(xué)生在本科階段學(xué)習(xí)過概率論與數(shù)理統(tǒng)計,單從做數(shù)據(jù)分析的角度已經(jīng)夠用。其他方面,可以根據(jù)需要查看相關(guān)書籍,隨時進(jìn)行查漏補缺即可。個人推薦《深入淺出統(tǒng)計學(xué)》,可以讓統(tǒng)計理論的學(xué)習(xí)有趣又自然。

基本技能
就數(shù)據(jù)分析學(xué)習(xí)而言,需要的技能模塊有統(tǒng)計基礎(chǔ)+數(shù)據(jù)庫知識+編程能力。
1.統(tǒng)計基礎(chǔ)
理工科的學(xué)生在本科階段學(xué)習(xí)過概率論與數(shù)理統(tǒng)計,單從做數(shù)據(jù)分析的角度已經(jīng)夠用。其他方面,可以根據(jù)需要查看相關(guān)書籍,隨時進(jìn)行查漏補缺即可。個人推薦《深入淺出統(tǒng)計學(xué)》,可以讓統(tǒng)計理論的學(xué)習(xí)有趣又自然。
2.數(shù)據(jù)庫知識
關(guān)系型數(shù)據(jù)庫很重要。在學(xué)習(xí)數(shù)據(jù)分析的初期甚至很長一段時間,你接觸到的數(shù)據(jù)都存儲在關(guān)系型數(shù)據(jù)庫中,需要學(xué)習(xí)SQL語言進(jìn)行數(shù)據(jù)查詢。關(guān)于SQL語言,強(qiáng)力推薦《SQL必知必會》,整本書通俗易懂,是學(xué)習(xí)SQL語言的不二之選。
學(xué)習(xí)數(shù)據(jù)庫的本質(zhì)就是在學(xué)習(xí)一種與數(shù)據(jù)打交道的邏輯思維與能力。編程中的很多思想都和關(guān)系型數(shù)據(jù)庫、SQL相通,比如:SQL中對data進(jìn)行g(shù)roup by的操作,這個在Excel里類似于透視表,在Python/R中也有相應(yīng)的group function去處理數(shù)據(jù)。甚至在以后的進(jìn)階過程,你會接觸到分布式數(shù)據(jù)庫和所對應(yīng)的no-SQL語句。
3.編程能力
Excel。 透視表(Pivot Table)是做數(shù)據(jù)分析的必備技能。透視表可以幫你迅速匯總數(shù)據(jù),看到各類型數(shù)據(jù)的直觀特征就像是讓你站在更高的視角看待數(shù)據(jù)。作為進(jìn)階,Excel自帶的函數(shù)、各種插件,以及VBA也是很好的工具。
Python。當(dāng)數(shù)據(jù)量大到用Excel打開都要很久或者我們想進(jìn)步提升能力時,需要學(xué)些hardcore技能,即用編程語言做數(shù)據(jù)分析。這里主要有R和Python兩大流派。個人推薦Python,一是代碼簡單易懂,容易上手;二是學(xué)習(xí)資料多,降低學(xué)習(xí)成本。推薦《利用Python進(jìn)行數(shù)據(jù)分析》,涵蓋了利用Python做數(shù)據(jù)清洗,數(shù)據(jù)可視化及分析的技能點,可以作為一本工具書隨時查閱。
動手實踐
基本技能的學(xué)習(xí)與掌握是貫穿整個學(xué)習(xí)過程,期間還需要借助小項目完成動手實踐,以及跟領(lǐng)域內(nèi)的前輩多交流,形成學(xué)習(xí)反饋閉環(huán)。
1.選好實踐平臺
一個好的平臺社區(qū)將會起到事半功倍的效果。科賽網(wǎng)是聚集數(shù)據(jù)人才和行業(yè)問題的在線社區(qū),在上面你能找到很多開源數(shù)據(jù)集,啟動你的數(shù)據(jù)分析之旅。
同時,科賽打造的國內(nèi)首款在線數(shù)據(jù)分析協(xié)作平臺K-Lab也很強(qiáng)大。如果看到不錯的項目,可以Fork過來在K-Lab上完成自己的分析項目并在社區(qū)內(nèi)展示出來與大家共享。
像前段時間,科賽網(wǎng)發(fā)起了DATA CHAT之「尋找NBA懂球帝」的數(shù)據(jù)分析活動,提供NBA數(shù)據(jù)集,鼓勵大家用數(shù)據(jù)分析交流對NBA話題的觀點。這里分享下自己做的一個項目:「找尋史上總冠軍系列」
2.隨時查漏補缺
實踐過程中,你可能會遇到各種問題,知乎就是一個強(qiáng)大的搜索引擎,上面有很多大牛寫的數(shù)據(jù)分析文章;當(dāng)然,如果英文能力強(qiáng)的話,可以參考StackOverflow。直接搜索你在寫代碼做數(shù)據(jù)分析遇到的各種問題,總有一款答案適合你。
3.隨時復(fù)盤整理
就像是游戲里打怪升級,你需要逐個擊破知識盲區(qū),完成滾雪球式累積。比如你發(fā)現(xiàn)自己對統(tǒng)計的知識點不是很清楚,可以回過頭去看統(tǒng)計學(xué)書籍;你發(fā)現(xiàn)數(shù)據(jù)存儲在分布式系統(tǒng)里面,便開始學(xué)習(xí)no-SQL的知識;你發(fā)現(xiàn)自己對某一行業(yè)比較感興趣,可以通過數(shù)據(jù)分析進(jìn)行解讀;你發(fā)現(xiàn)自己已經(jīng)不滿足于利用現(xiàn)成數(shù)據(jù)作分析,就開始學(xué)習(xí)使用爬蟲去抓取數(shù)據(jù)作分析。
小結(jié)
學(xué)習(xí)數(shù)據(jù)分析就是搭好框架體系,不斷累積知識,不斷hack技能,不斷提升分析水平的過程。哪怕是業(yè)余時間學(xué)習(xí),假以時日,亦可成大器。
來源:36大數(shù)據(jù)
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新