大數(shù)據(jù)時(shí)代 數(shù)據(jù)感知在數(shù)據(jù)質(zhì)量管理系統(tǒng)中的應(yīng)用
【數(shù)據(jù)猿導(dǎo)讀】 關(guān)于數(shù)據(jù)質(zhì)量管理,可能與大部分人沒(méi)有太大的關(guān)系。雖然,市面上有很多的公司在進(jìn)行數(shù)據(jù)的挖掘、分析方面業(yè)務(wù)的工作,但是關(guān)于數(shù)據(jù)質(zhì)量管理方面的公司真的是屈指可數(shù)。

關(guān)于數(shù)據(jù)質(zhì)量管理,可能與大部分人沒(méi)有太大的關(guān)系。雖然,市面上有很多的公司在進(jìn)行數(shù)據(jù)的挖掘、分析方面業(yè)務(wù)的工作,但是關(guān)于數(shù)據(jù)質(zhì)量管理方面的公司真的是屈指可數(shù)。
由于本人所在的公司主要是為了解決發(fā)改委遇到的一些問(wèn)題,而開(kāi)展的1個(gè)項(xiàng)目。比如檢驗(yàn)地市注冊(cè)資金是否存在異常這么1個(gè)簡(jiǎn)單的例子。
而對(duì)于數(shù)據(jù)感知技術(shù),大部分沒(méi)有了解過(guò)。為了說(shuō)明,大數(shù)據(jù)時(shí)代下,數(shù)據(jù)感知在數(shù)據(jù)質(zhì)量管理系統(tǒng)中的應(yīng)用,這里我們需要先解決幾個(gè)問(wèn)題:
什么是數(shù)據(jù)質(zhì)量管理系統(tǒng)
什么是數(shù)據(jù)感知技術(shù)
數(shù)據(jù)感知技術(shù)的用途
下面我們分別來(lái)進(jìn)行介紹。
什么是數(shù)據(jù)質(zhì)量管理系統(tǒng)
我們知道,數(shù)據(jù)是企業(yè)數(shù)據(jù)中心的重要資產(chǎn),獲取并維護(hù)高質(zhì)量的數(shù)據(jù),對(duì)業(yè)務(wù)及運(yùn)營(yíng)至關(guān)重要。而數(shù)據(jù)量越大,有價(jià)值的信息獲取的難度就越大。如果獲取不到有用的信息,就不能很好的進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析。
但是在這個(gè)過(guò)程中,有許多因素會(huì)導(dǎo)致這些數(shù)據(jù)資產(chǎn)貶值,比如數(shù)據(jù)的冗余和重復(fù)會(huì)導(dǎo)致信息的不可識(shí)別、不可信及精確度不夠等情況的發(fā)生。
而數(shù)據(jù)質(zhì)量管理系統(tǒng)就是對(duì)數(shù)據(jù)進(jìn)行處理后能夠提供高質(zhì)量的數(shù)據(jù),最終的目的是挖掘數(shù)據(jù)價(jià)值,推動(dòng)業(yè)務(wù)發(fā)展,實(shí)現(xiàn)盈利。
而數(shù)據(jù)質(zhì)量管理系統(tǒng)主要由如下一些部分組成:
數(shù)據(jù)清洗與去重
數(shù)據(jù)可視化
數(shù)據(jù)評(píng)估
數(shù)據(jù)治理
數(shù)據(jù)挖掘
數(shù)據(jù)分析
而當(dāng)前系統(tǒng)主要采用純Python來(lái)實(shí)現(xiàn)。對(duì)于發(fā)改委動(dòng)不動(dòng)就千萬(wàn)級(jí)別的數(shù)據(jù)還是可以很好的進(jìn)行駕馭的。
什么是數(shù)據(jù)感知技術(shù)
對(duì)于感知的定義是客觀事件通過(guò)感覺(jué)器官在人腦中的直接反映。而所謂數(shù)據(jù)感知,就是通過(guò)對(duì)數(shù)據(jù)的一些特征信息來(lái)對(duì)數(shù)據(jù)進(jìn)行描述。比如,我們看到遠(yuǎn)處有1個(gè)人,長(zhǎng)頭發(fā)穿著紅色衣服高跟鞋,那么我們就可以推測(cè)那個(gè)人是女的。當(dāng)然,這個(gè)過(guò)程也可能會(huì)出現(xiàn)不準(zhǔn)確的問(wèn)題,比如那個(gè)人是個(gè)男的,就這樣打扮。
而數(shù)據(jù)感知技術(shù)可以實(shí)現(xiàn)給我們1組樣本數(shù)據(jù),我們可以知道它是哪種類型。比如,給我們?nèi)缦碌?00條記錄1組數(shù)據(jù):
13923123425
020-8876234
(0760)2347234
...
3423456
通過(guò)我們的感知技術(shù)我們可以識(shí)別它為手機(jī)號(hào)碼和電話號(hào)碼,其中手機(jī)占據(jù)的比例假設(shè)為60.82%,而電話號(hào)碼占據(jù)的比例為32.22%,而剩下還有6.96%的數(shù)據(jù)無(wú)法被識(shí)別出來(lái),因此我們可以推斷當(dāng)前數(shù)據(jù)為聯(lián)系方式為主。
需要注意的是,這100條記錄需要滿足隨機(jī)性,不然感知出來(lái)的結(jié)果可能會(huì)差強(qiáng)人意。
當(dāng)然,這是比較簡(jiǎn)單的1個(gè)例子。當(dāng)然我們還可以識(shí)別中文姓名、地址信息、企業(yè)名稱、工商注冊(cè)范圍、工商注冊(cè)資金等類型,這里就涉及到概率論及統(tǒng)計(jì)學(xué)的一些內(nèi)容了。
當(dāng)然,還會(huì)涉及到一些線性代數(shù)的內(nèi)容,比如貝葉斯網(wǎng)絡(luò)轉(zhuǎn)移矩陣的使用,會(huì)用到矩陣的相關(guān)知識(shí)。
數(shù)據(jù)感知技術(shù)的用途
一般情況下,數(shù)據(jù)質(zhì)量管理系統(tǒng)都是基于規(guī)則庫(kù)進(jìn)行開(kāi)展工作的,而對(duì)每組數(shù)據(jù)進(jìn)行規(guī)則的配置是1個(gè)繁瑣且耗時(shí)的工作,基本上沒(méi)有人愿意進(jìn)行這種工作。
而此時(shí),通過(guò)數(shù)據(jù)感知技術(shù),我們可以自動(dòng)的感知規(guī)則,并為每組數(shù)據(jù)推薦最適合的規(guī)則,從而簡(jiǎn)化人員的工作量,提高效率。
另外通過(guò)數(shù)據(jù)感知技術(shù),還可以找到數(shù)據(jù)庫(kù)其他類似的類型的數(shù)據(jù),進(jìn)行數(shù)據(jù)關(guān)聯(lián)性的關(guān)聯(lián),彌補(bǔ)一些認(rèn)知上的缺陷。
總結(jié)
實(shí)際上,數(shù)據(jù)感知只是數(shù)據(jù)質(zhì)量管理中的1個(gè)很小的環(huán)節(jié),通過(guò)這種自動(dòng)化的技術(shù),可以節(jié)省人工的成本及提高效率。
來(lái)源:36大數(shù)據(jù)
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新