我們在數(shù)據(jù)挖掘中迷失了什么?
【數(shù)據(jù)猿導(dǎo)讀】 當(dāng)我們沉浸在親手構(gòu)建的模型里的時(shí)候,是否會(huì)理智地跳出來,重新審視一下,我們所忽略的會(huì)不會(huì)正是客戶所需求的呢

1.太關(guān)注訓(xùn)練
就像體育訓(xùn)練中越來越注重實(shí)戰(zhàn)訓(xùn)練,因?yàn)閱渭兊姆忾]式訓(xùn)練常常會(huì)訓(xùn)練時(shí)狀態(tài)神勇,比賽時(shí)一塌糊涂。實(shí)際上,只有樣本外數(shù)據(jù)上的模型評分結(jié)果才真正有用!
栗子:機(jī)器學(xué)習(xí)或計(jì)算機(jī)科學(xué)研究者常常試圖讓模型在已知數(shù)據(jù)上表現(xiàn)最優(yōu),這樣做的結(jié)果通常會(huì)導(dǎo)致過度擬合( overfit )。
解決方法:解決這個(gè)問題的典型方法是重抽樣。重抽樣技術(shù)包括: bootstrap、 cross-validation 、 jackknife 、 leave-one-out… 等等。
2.只依賴一項(xiàng)技術(shù)
沒有對比也就沒有所謂的好壞,辯證法的思想在此體現(xiàn)無遺。“ 當(dāng)小孩子手拿一把錘子時(shí),整個(gè)世界看起來就是一枚釘子。” 要想讓工作盡善盡美,就需要一套完整的工具箱。不要簡單地信賴你用單個(gè)方法分析的結(jié)果,至少要和傳統(tǒng)方法(比如線性回歸或線性判別分析)做個(gè)比較。
解決方法:使用一系列好的工具和方法。(每種工具或方法可能最多帶來 5%~10% 的改進(jìn))。
3. 提錯(cuò)了問題
一般在分類算法中都會(huì)給出分類精度作為衡量模型好壞的標(biāo)準(zhǔn),但在實(shí)際項(xiàng)目中我們卻幾乎不看這個(gè)指標(biāo)。為什么?因?yàn)槟遣皇俏覀冴P(guān)注的目標(biāo)。
a) 項(xiàng)目的目標(biāo):一定要鎖定正確的目標(biāo)。栗子:欺詐偵測(關(guān)注的是正例!)( Shannon 實(shí)驗(yàn)室在國際長途電話上的分析):不要試圖在一般的通話中把欺詐和非欺詐行為分類出來,重點(diǎn)應(yīng)放在如何描述正常通話的特征,然后據(jù)此發(fā)現(xiàn)異常通話行為。
b) 模型的目標(biāo):讓計(jì)算機(jī)去做你希望它做的事。大多數(shù)研究人員會(huì)沉迷于模型的收斂性來盡量降低誤差,這樣讓他們可以獲得數(shù)學(xué)上的美感。但更應(yīng)該讓計(jì)算機(jī)做的事情應(yīng)該是如何改善業(yè)務(wù),而不是僅僅側(cè)重模型計(jì)算上的精度。
4. 只靠數(shù)據(jù)來說話
如果數(shù)據(jù)+工具就可以解決問題的話,還要人做什么呢?
a)投機(jī)取巧的數(shù)據(jù):數(shù)據(jù)本身只能幫助分析人員找到什么是顯著的結(jié)果,但它并不能告訴你結(jié)果是對還是錯(cuò)。
b) 經(jīng)過設(shè)計(jì)的實(shí)驗(yàn):某些實(shí)驗(yàn)設(shè)計(jì)中摻雜了人為的成分,這樣的實(shí)驗(yàn)結(jié)果也常常不可信。
5. 拋棄了不該忽略的案例
不同的人生態(tài)度可以有同樣精彩的人生,不同的數(shù)據(jù)也可能蘊(yùn)含同樣重要的價(jià)值。異常值可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)果(比如價(jià)格中的小數(shù)點(diǎn)標(biāo)錯(cuò)了),但也可能是問題的答案(比如臭氧洞)。所以需要仔細(xì)檢查這些異常。研究中最讓激動(dòng)的話語不是“啊哈!”,而是“這就有點(diǎn)奇怪了……”數(shù)據(jù)中的不一致性有可能會(huì)是解決問題的線索,深挖下去也許可以解決一個(gè)大的業(yè)務(wù)問題。
栗子:在直郵營銷中,在對家庭地址的合并和清洗過程中發(fā)現(xiàn)的數(shù)據(jù)不一致,反而可能是新的營銷機(jī)會(huì)。
解決方法:可視化可以幫助你分析大量的假設(shè)是否成立。
6. 輕信預(yù)測
事物都是不斷發(fā)展變化的。人們常常在經(jīng)驗(yàn)不多的時(shí)候輕易得出一些結(jié)論。即便發(fā)現(xiàn)了一些反例,人們也不太愿意放棄原先的想法。
維度咒語:在低維度上的直覺,放在高維度空間中,常常是毫無意義的。
解決方法:進(jìn)化論。沒有正確的結(jié)論,只有越來越準(zhǔn)確的結(jié)論。
7. 試圖回答所有問題
“不知道”是一種有意義的模型結(jié)果。模型也許無法100%準(zhǔn)確回答問題,但至少可以幫我們估計(jì)出現(xiàn)某種結(jié)果的可能性。
來源:DataThinking
刷新相關(guān)文章
我要評論
活動(dòng)推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會(huì)丨《云MSP發(fā)展白皮書》重