數(shù)據(jù)質(zhì)量是數(shù)據(jù)人永恒的話題
【數(shù)據(jù)猿導讀】 一個還在生在的公司,還在發(fā)展的公司,如果這家公司需要看數(shù)據(jù),那一定都或多或少存在質(zhì)量問題。 所以很多公司業(yè)務(wù)團隊如果有數(shù)據(jù)人員,都希望可以直接訪問后臺數(shù)據(jù),自己寫代碼去取

1、 數(shù)據(jù)流長導致數(shù)據(jù)質(zhì)量問題
如下圖所示:常規(guī)數(shù)據(jù)流:從業(yè)務(wù)發(fā)生->系統(tǒng)記錄->數(shù)據(jù)處理->使用,整個數(shù)據(jù)流程是非常長。所以任何一個環(huán)節(jié)如果出問題,都會對最終數(shù)據(jù)質(zhì)量有問題。
所以很多公司業(yè)務(wù)團隊如果有數(shù)據(jù)人員,都希望可以直接訪問后臺數(shù)據(jù),自己寫代碼去取。
2 、數(shù)據(jù)質(zhì)量需要持續(xù)迭代的資源投入
曾經(jīng)在上消費者行為學的時候,我記得曾經(jīng)有這樣的一個案例:
問: 你覺得做飛機,最重要的是什么?
99%的回答是:安全。但是當大家實際做出購買飛機票選擇的時候,可能安全這個因素,都沒有進入很好多人購票決策流程中,或者是根本不考慮這個因素。
問: 你問從事數(shù)據(jù)工作的人,在數(shù)據(jù)倉庫建設(shè)、數(shù)據(jù)分析、數(shù)據(jù)挖掘等過程中什么最重要?
如果有數(shù)據(jù)質(zhì)量選項,我想也許90%會選擇這個選項。就像你如果問一個要乘做飛機的人,但實際工作中,卻是沒有多少人愿意投入資源和精力持續(xù)去提升數(shù)據(jù)質(zhì)量!回答的與實際行動可能完全不一樣。
為什么呢?你們公司或者你自己有花多少時間在思考數(shù)據(jù)質(zhì)量的問題?
3 、數(shù)據(jù)質(zhì)量產(chǎn)生的問題
1、在一個會議上,來自不同部門的同事,對著同一個指標【指標名稱相同】。例如:網(wǎng)站轉(zhuǎn)化率。但各部門統(tǒng)計出來的結(jié)果不同,從趨勢來看,甚至有可能是相反的。都說自己的統(tǒng)計口徑是對的,“爭吵”了半天,開始確定各自統(tǒng)計的口徑與邏輯,然后對對方的統(tǒng)計的邏輯“討論”一番,討論好后會議時間也差不多到了,大家很不愉快結(jié)束了本次會議。
2、業(yè)務(wù)方反饋數(shù)據(jù)部門統(tǒng)計的數(shù)據(jù)不對,然后做數(shù)據(jù)同學查了半天,發(fā)現(xiàn)是原始數(shù)據(jù)記錄有問題。
3、業(yè)務(wù)部門上線了一個產(chǎn)品,感覺效果很好,來找數(shù)據(jù)部門要相關(guān)數(shù)據(jù),結(jié)果“傻眼”了,因為當初產(chǎn)品上線,沒有埋點,結(jié)果沒有辦法相關(guān)數(shù)據(jù)記錄。
4 、數(shù)據(jù)質(zhì)量問題,可能歸納為有以下幾種
1、原始數(shù)據(jù)記錄有誤;例如:用戶訪問的頁面類型是促銷頁,但數(shù)據(jù)記錄成為:搜索頁。
2、原始數(shù)據(jù)缺失;例如:像一些日志數(shù)據(jù)因為沒有埋點而沒有收集。
3、指標定義錯誤;例如:對于指標定義,業(yè)務(wù)描述錯誤。
4、統(tǒng)計指標過程中代碼寫錯;一般是指數(shù)據(jù)分析師或者數(shù)據(jù)提取人員在取數(shù)據(jù)的時候沒有把代碼寫清楚。
5、同一指標統(tǒng)計口徑不一樣;對于同一指標,不同人理解不一樣,有的網(wǎng)站轉(zhuǎn)化率是按訂單/UV;還是訂單/會話;還是會員數(shù)/UV等。
6、數(shù)據(jù)不足;在分析的時候,發(fā)現(xiàn)數(shù)據(jù)只有最近幾天的,歷史數(shù)據(jù)沒有記錄或者刪除了。
7、.......
5 、數(shù)據(jù)質(zhì)量永遠都存在
數(shù)據(jù)質(zhì)量是數(shù)據(jù)人要面對的一個永恒的課題,如果誰和你說他們公司沒有任何數(shù)據(jù)質(zhì)量的問題或者說數(shù)據(jù)質(zhì)量問題得到徹底的解決,我很負責責任的說一句,要么他不懂,要么他在“扯蛋”,要么他們公司的業(yè)務(wù)已經(jīng)“消失”。
一個還在生在的公司,還在發(fā)展的公司,如果這家公司需要看數(shù)據(jù),那一定都或多或少存在質(zhì)量問題。
對數(shù)據(jù)人來說,永遠記住一句話:“garbage in garbage out”。
來源:數(shù)據(jù)海洋
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重