一名數(shù)據(jù)挖掘工程師給新人整理的入門(mén)資料
【數(shù)據(jù)猿導(dǎo)讀】 四年前我一次聽(tīng)說(shuō)數(shù)據(jù)挖掘這個(gè)詞,三年前我學(xué)習(xí)了數(shù)據(jù)挖掘理論知識(shí),兩年前我做了幾個(gè)與數(shù)據(jù)挖掘有關(guān)的項(xiàng)目,一年前我成為一名數(shù)據(jù)挖掘工程師,今天我把數(shù)據(jù)挖掘入門(mén)資料整理了一下,希望能夠?qū)π氯擞袔椭?

四年前我一次聽(tīng)說(shuō)數(shù)據(jù)挖掘這個(gè)詞,三年前我學(xué)習(xí)了數(shù)據(jù)挖掘理論知識(shí),兩年前我做了幾個(gè)與數(shù)據(jù)挖掘有關(guān)的項(xiàng)目,一年前我成為一名數(shù)據(jù)挖掘工程師,今天我把數(shù)據(jù)挖掘入門(mén)資料整理了一下,希望能夠?qū)π氯擞袔椭?/p>
一、python
推薦粗讀《Head First Python》一書(shū),該書(shū)淺顯易懂,有C語(yǔ)言基礎(chǔ)的人只需一天就能讀完,并能夠使用python進(jìn)行簡(jiǎn)單編程。“Head First”系列的數(shù)都很適合初學(xué)者,我還讀過(guò)《Head First 設(shè)計(jì)模式》和《Head First Statistics》,感覺(jué)都不錯(cuò)。不過(guò)后兩本,我讀得比較細(xì)也比較慢,畢竟當(dāng)時(shí)是首次接觸設(shè)計(jì)模式和統(tǒng)計(jì)學(xué)相關(guān)知識(shí),書(shū)中很多東西對(duì)我而言都是全新的。而當(dāng)我讀《Head First Python》時(shí),我已經(jīng)掌握了C、C++、java等多種編程語(yǔ)言,所以再看python就覺(jué)得比較簡(jiǎn)單了。學(xué)任何一種編程語(yǔ)言,一定要?jiǎng)邮志毩?xí)。python的集成開(kāi)發(fā)環(huán)境有很多,我個(gè)人比較青睞PyCharm。
用python做數(shù)據(jù)挖掘的人一般都會(huì)用到pandas數(shù)據(jù)分析包。推薦閱讀《pandas: powerful Python data analysis toolkit》文檔,其中《10 Minutes to pandas》這一節(jié)能讓你輕松上手pandas。讀了這一節(jié)你會(huì)知道怎么用一句話(huà)得到數(shù)據(jù)的一些基本統(tǒng)計(jì)量(每一列特征的均值、標(biāo)準(zhǔn)差、最大最小值、四分位點(diǎn)等),怎么簡(jiǎn)單地實(shí)現(xiàn)多條件的過(guò)濾,怎么將兩張表按key連接,怎么將數(shù)據(jù)可視化。除了這篇文檔,我還想推薦一本書(shū)《利用Python進(jìn)行數(shù)據(jù)分析》,這本書(shū)和之前文檔的主要內(nèi)容差不多。可以書(shū)和文檔交叉看,加深印象。與文檔相比,書(shū)增加了數(shù)據(jù)應(yīng)用等內(nèi)容。與書(shū)相比,文檔增加了與R、SQL對(duì)比等內(nèi)容。即使是主題相同的章節(jié),例如繪圖,文檔和書(shū)將知識(shí)組織起來(lái)的方式以及側(cè)重點(diǎn)也有所不同。個(gè)人認(rèn)為,文檔和書(shū)都值得一看。
二、統(tǒng)計(jì)學(xué)
雖然我也粗讀過(guò)統(tǒng)計(jì)學(xué)的幾本書(shū),但從易懂性來(lái)說(shuō),都沒(méi)有學(xué)校老師給的ppt好,或者說(shuō)自己看書(shū)比較困難,但是聽(tīng)老師講課就很容易懂。所以,我建議有條件的同學(xué)能夠選修統(tǒng)計(jì)學(xué)這門(mén)課,沒(méi)條件的同學(xué)可以去網(wǎng)上找一些相關(guān)視頻,配套書(shū)籍可以選擇茆詩(shī)松的《概率論與數(shù)理統(tǒng)計(jì)》。另外,《Head First Statistics》一書(shū)可以用來(lái)預(yù)熱。
學(xué)了統(tǒng)計(jì)學(xué),你至少應(yīng)該知道基本的抽樣方法、偏差與方差的區(qū)別、怎樣進(jìn)行數(shù)據(jù)預(yù)處理、怎樣整理和顯示數(shù)據(jù)、數(shù)據(jù)分布的描述統(tǒng)計(jì)量有哪些、假設(shè)檢驗(yàn)是用來(lái)做什么的、置信區(qū)間的概念、R-squared的含義等等。你需要了解各種圖的作用和適用場(chǎng)景,常用圖包括條形圖、餅圖、直方圖、折線(xiàn)圖、箱線(xiàn)圖、散點(diǎn)圖、雷達(dá)圖等。你需要了解各種統(tǒng)計(jì)量的含義,常見(jiàn)統(tǒng)計(jì)量包括均值、方差、中位數(shù)、四分位數(shù)、加權(quán)平均數(shù)、偏態(tài)、峰態(tài)等。你需要了解一些重要的分布,比如正態(tài)分布、chi-square分布、t分布、F分布等。
三、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘
機(jī)器學(xué)習(xí)資料首推吳恩達(dá)的《斯坦福大學(xué)公開(kāi)課:機(jī)器學(xué)習(xí)課程》視頻。這20集視頻確實(shí)是好視頻,但對(duì)初學(xué)者來(lái)說(shuō)難度偏大。我有了一點(diǎn)機(jī)器學(xué)習(xí)方面的基礎(chǔ)后,再去看該視頻,還花了2.5倍的時(shí)間才基本看懂。每當(dāng)我跟不上視頻時(shí),就會(huì)暫?;蛘呋赝?,再仔細(xì)看看課件,所以看完視頻花掉的時(shí)間是視頻原時(shí)長(zhǎng)的2.5倍。另外,周志華的《機(jī)器學(xué)習(xí)》和李航的《統(tǒng)計(jì)學(xué)習(xí)方法》可以作為機(jī)器學(xué)習(xí)入門(mén)書(shū)籍,經(jīng)典教材《Pattern Recognition and Machine Learning》可以作為機(jī)器學(xué)習(xí)進(jìn)階書(shū)籍,而《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》一書(shū)能手把手地教你怎么實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型的底層算法(書(shū)中包含了大量的程序清單)。
數(shù)據(jù)挖掘方面,推薦Jiawei Han的《數(shù)據(jù)挖掘概念與技術(shù)》。該書(shū)比較容易讀懂,內(nèi)容廣泛且實(shí)用性強(qiáng),特別適合初學(xué)者。
四、其他資料和建議
除了系統(tǒng)化的學(xué)習(xí)專(zhuān)業(yè)知識(shí),我們也可以每天吸收一些碎片化的知識(shí)。例如,Quora上有不少關(guān)于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的問(wèn)答,其答案質(zhì)量普遍高于知乎,有興趣的同學(xué)可以常去Quora的機(jī)器學(xué)習(xí)相關(guān)版塊逛逛。訂閱好東西傳送門(mén)的《機(jī)器學(xué)習(xí)日?qǐng)?bào)》是一個(gè)不錯(cuò)的選擇。每天從日?qǐng)?bào)中挑選1~2篇文章讀讀,可以擴(kuò)展自己的知識(shí)面,同時(shí)養(yǎng)成天天學(xué)習(xí)的好習(xí)慣。
從Quora和《機(jī)器學(xué)習(xí)日?qǐng)?bào)》中獲取的一些知識(shí)點(diǎn):
隨機(jī)森林模型不適合用稀疏特征。
測(cè)試集必須使用與訓(xùn)練集相同的方法進(jìn)行預(yù)處理。
L1正則(特征選擇)最小樣本數(shù)目m與特征n呈log關(guān)系,m = O(log n) ;
L2正則(旋轉(zhuǎn)不變)最小樣本數(shù)目m與特征n呈線(xiàn)性關(guān)系,m = O(n) 。
標(biāo)準(zhǔn)的PCA是一種線(xiàn)性轉(zhuǎn)換技術(shù)。
呈長(zhǎng)尾分布的特征通常需要進(jìn)行對(duì)數(shù)轉(zhuǎn)換。
線(xiàn)性SVM適合小樣本。
AUC適合作為類(lèi)不平衡問(wèn)題的衡量標(biāo)準(zhǔn)。
在nested k-foldcross validation中,“外層循環(huán)”的目的是模型評(píng)估,“內(nèi)層循環(huán)”的目的是模型選擇。
在樣本數(shù)量較少的情況下,極大似然估計(jì)的效果比普通的最小二乘法差。
想干數(shù)據(jù)挖掘這一行,光有理論知識(shí)是不夠的,我們還需要積累實(shí)戰(zhàn)經(jīng)驗(yàn)。對(duì)于學(xué)生來(lái)講,可以跟著老師做項(xiàng)目,可以參加各種大數(shù)據(jù)競(jìng)賽,也可以去公司實(shí)習(xí)。如果是參加競(jìng)賽的話(huà),一般比賽結(jié)束后,前幾名的算法會(huì)公開(kāi)。我們要特別關(guān)注一下他們的算法創(chuàng)新點(diǎn),說(shuō)不定在下一個(gè)項(xiàng)目中就能用上。
阿里巴巴第一屆大數(shù)據(jù)競(jìng)賽前9名團(tuán)隊(duì)的算法創(chuàng)新點(diǎn)整理:
第九:
缺失值填充。
考慮了行為轉(zhuǎn)移特征(例如曾經(jīng)購(gòu)買(mǎi)過(guò)該品牌,近期再次發(fā)生點(diǎn)擊但尚未購(gòu)買(mǎi);近期從購(gòu)物車(chē)轉(zhuǎn)移到收藏夾)。
第八:
在LR模型中,用dummy coding的方法處理了所有的特征。
第七:
模型融合做得不錯(cuò)。分別用滑動(dòng)窗口和固定窗口建模。再用LR進(jìn)行一級(jí)模型融合,最后對(duì)第一級(jí)的預(yù)測(cè)結(jié)果進(jìn)行平均融合。
第六:
對(duì)不同的用戶(hù)-品牌類(lèi)型進(jìn)行了分類(lèi),并采取了不同的處理方法。
第五:
對(duì)正例采取上采樣方式,負(fù)例采取下采樣方式。
先用一個(gè)欠擬合的random forest初始化gbrt的殘差,再用一個(gè)樹(shù)的棵樹(shù)不是很大的gbrt來(lái)訓(xùn)練,從而能夠在相對(duì)短的時(shí)間內(nèi)得到比用較大棵樹(shù)的gbrt還要高一些的性能。
第四:
對(duì)特征進(jìn)行Laplace平滑。
第三:
對(duì)數(shù)據(jù)進(jìn)行歸一化、分箱和去噪。
第二:
去除離群點(diǎn)。
第一:
用LR濾去超過(guò)80%的樣本。
采用了神經(jīng)網(wǎng)絡(luò)算法。
來(lái)源:36大數(shù)據(jù)
刷新相關(guān)文章
我要評(píng)論
人物專(zhuān)訪(fǎng)more >
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車(chē)
-
4數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新