剖析:數(shù)據(jù)質(zhì)量的好壞 決定數(shù)據(jù)挖掘項(xiàng)目的成敗
【數(shù)據(jù)猿導(dǎo)讀】 獲取,過(guò)濾并準(zhǔn)備正確的數(shù)據(jù)通常是一個(gè)關(guān)鍵步驟。項(xiàng)目成員可能會(huì)發(fā)現(xiàn)直接進(jìn)行數(shù)據(jù)分析要比例行的準(zhǔn)備和驗(yàn)證數(shù)據(jù)工作來(lái)的更加有趣。

David Nettleton是《商業(yè)數(shù)據(jù)挖掘:為預(yù)測(cè)分析項(xiàng)目處理,分析和建?!芬粫淖髡?,他還是一位在數(shù)據(jù)分析處理方面有豐富經(jīng)驗(yàn)的顧問(wèn)和學(xué)術(shù)研究者。
Q:您認(rèn)為,實(shí)現(xiàn)一個(gè)數(shù)據(jù)分析項(xiàng)目最具挑戰(zhàn)的方面有哪些呢
David Nettleton:這要視情況而定。隨著項(xiàng)目的推進(jìn),有些我們?cè)绢A(yù)計(jì)很容易的事情會(huì)變得異常困難,而其他我們本以為很困難的東西則會(huì)變得容易。項(xiàng)目的首要步驟就是要定義一個(gè)或多個(gè)業(yè)務(wù)目標(biāo)。這樣項(xiàng)目就會(huì)進(jìn)行的很快很順利,否則則會(huì)事倍功半。
然后,有必要通過(guò)集體討論選出最可行的目標(biāo)。接下來(lái)需要評(píng)估可行性,它與數(shù)據(jù)的可用性相關(guān)聯(lián)。獲取,過(guò)濾并準(zhǔn)備正確的數(shù)據(jù)通常是一個(gè)關(guān)鍵步驟。項(xiàng)目成員可能會(huì)發(fā)現(xiàn)直接進(jìn)行數(shù)據(jù)分析要比例行的準(zhǔn)備和驗(yàn)證數(shù)據(jù)工作來(lái)的更加有趣。
準(zhǔn)備數(shù)據(jù)是決定后期分析和挖掘階段成功與否的關(guān)鍵環(huán)節(jié)。我們可能會(huì)發(fā)現(xiàn)所需的數(shù)據(jù)變量并不存在,但我們必須要獲得這些變量。有時(shí)雖然有一些關(guān)鍵變量,但是數(shù)據(jù)是錯(cuò)誤的或是以不正確的格式存在的。另外一個(gè)有問(wèn)題的步驟就是部署。我們需要確定如何在業(yè)務(wù)流程中應(yīng)用我們的分析結(jié)果。
Q:項(xiàng)目人員如何做才能實(shí)現(xiàn)項(xiàng)目的成功 什么樣的技能才是有用的
Nettleton: 現(xiàn)在需要既了解IT又了解業(yè)務(wù)的復(fù)合型人才。項(xiàng)目還需要熟悉數(shù)據(jù)工作的人。另外,之前在此類項(xiàng)目上的經(jīng)驗(yàn)很顯然是一項(xiàng)優(yōu)勢(shì)。至于項(xiàng)目流程,最初一個(gè)營(yíng)銷或業(yè)務(wù)經(jīng)理可能會(huì)提出一個(gè)或多個(gè)業(yè)務(wù)目標(biāo)。接下來(lái),IT經(jīng)理會(huì)列出一張所需數(shù)據(jù)的初始清單來(lái)滿足每個(gè)業(yè)務(wù)目標(biāo),然后會(huì)審查公司數(shù)據(jù)庫(kù)來(lái)判斷當(dāng)前狀態(tài)數(shù)據(jù)是否可用。有了正確的數(shù)據(jù)之后,我們還需要與一個(gè)熟練使用選擇數(shù)據(jù)分析和挖掘工具的分析師協(xié)同工作。
Q:有沒有能夠分析大量數(shù)據(jù)的工具
Nettleton: 這要取決于業(yè)務(wù)目標(biāo)。一項(xiàng)關(guān)于離群值的研究顯示,比如在欺詐檢查上,可能會(huì)需要對(duì)所有可用數(shù)據(jù)進(jìn)行詳盡處理以捕捉異常。如果我們想要將客戶進(jìn)行細(xì)分,我們?yōu)榱俗龅竭@點(diǎn)需要所有的客戶么 答案是否定的,只要我們能夠從完整數(shù)據(jù)集中提取出具有代表性的抽樣即可。
大數(shù)據(jù)也意味著專業(yè)軟件,例如Hadoop,還有專業(yè)硬件,例如服務(wù)器集群。同樣,數(shù)據(jù)量可以用長(zhǎng)(記錄數(shù)量)寬(描述性變量的數(shù)量)加以衡量。我們可以有上十億的記錄和四個(gè)變量,也可以有百萬(wàn)的記錄和一百個(gè)變量。
對(duì)于每個(gè)變量,我們必須要問(wèn)的是我們?yōu)槭裁葱枰鴮?duì)于記錄的數(shù)量,我們必須要問(wèn)的是它們的覆蓋范圍。如果當(dāng)前業(yè)務(wù)的周期是兩年,那我們就沒必要處理十年前的數(shù)據(jù)。如果我們是一個(gè)處理能力有限的中小型企業(yè),那么我們就必須在處理數(shù)據(jù)的成本和從挖掘數(shù)據(jù)中所獲利益之間加以權(quán)衡。
Q:人們?cè)跀?shù)據(jù)挖掘項(xiàng)目上最常犯的錯(cuò)誤有哪些,又該如何避免呢
Nettleton: 造成數(shù)據(jù)分析項(xiàng)目出錯(cuò)的原因大概有三個(gè),分別是數(shù)據(jù)偏差,數(shù)據(jù)處理中的錯(cuò)誤和錯(cuò)誤的解釋造成的。
第一種錯(cuò)誤類型可能與不正確的抽樣或扭曲的數(shù)據(jù)有關(guān)。例如,我們想要研究年齡在18至35歲之間的女性對(duì)反吸煙的健康公益廣告的反應(yīng),但我們集中的所有數(shù)據(jù)記錄對(duì)應(yīng)的都是有過(guò)吸煙歷史的人。如果真是這樣,我們可以根據(jù)興趣變量,檢查正確分布的動(dòng)態(tài)數(shù)據(jù),稍作修正。
第二種錯(cuò)誤類型可能是由于選擇錯(cuò)誤數(shù)據(jù)或是在格式化非法數(shù)據(jù)值,標(biāo)志等過(guò)程中的錯(cuò)誤造成的。要解決這一問(wèn)題,需要熟悉數(shù)據(jù)提取和遷移的人員在處理階段,花費(fèi)更多的時(shí)間和精力,提高可用性。
第三種錯(cuò)誤類型,誤解,可能是因?yàn)樵跀?shù)據(jù)分析上缺乏經(jīng)驗(yàn)或是做了過(guò)度總結(jié)造成的。另外一個(gè)相關(guān)問(wèn)題是覆蓋率不足,例如,數(shù)據(jù)是否是僅僅用一個(gè)地區(qū)代替了整個(gè)國(guó)家。
其他的數(shù)據(jù)分析問(wèn)題包括:
任務(wù)缺乏正確數(shù)據(jù)。此問(wèn)題可能與在一開始就選擇了一個(gè)不可行的目標(biāo)有關(guān)。
分析師只依賴一項(xiàng)技術(shù)來(lái)進(jìn)行數(shù)據(jù)分析,此項(xiàng)技術(shù)可能是分析師偏愛或是最熟悉的。而花費(fèi)時(shí)間和精力學(xué)習(xí)如何使用不同的方法是非常值得的。
把輸出變量,也就是未來(lái)的分析結(jié)果,作為輸入變量來(lái)使用,不斷地提升預(yù)測(cè)精度。
來(lái)源:36大數(shù)據(jù)
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1【金猿案例展】中國(guó)銀聯(lián):以內(nèi)外聯(lián)動(dòng)的數(shù)
-
2全棧云原生產(chǎn)品戰(zhàn)略升級(jí),時(shí)速云領(lǐng)跑云原
-
3新趨勢(shì)·新未來(lái) | 2019第六屆中國(guó)嬰幼
-
4【金猿產(chǎn)品展】中原銀行智能化BI:一站式
-
5【金猿產(chǎn)品展】易觀方舟:智能用戶數(shù)據(jù)中
-
6【金猿人物展】張涵誠(chéng): 2020年大數(shù)據(jù)產(chǎn)
-
7小飯桌2019全球青年創(chuàng)業(yè)者大會(huì)圓滿舉辦,
-
8繁華之下有隱憂,零售企業(yè)如何走出增長(zhǎng)困
-
9【金猿產(chǎn)品展】羽扇決策引擎平臺(tái):運(yùn)籌帷
-
10【金猿案例展】國(guó)網(wǎng)上海市電力:智能配用