想要認(rèn)識(shí)大數(shù)據(jù) 關(guān)于它的幾大要素你了解多少?
張桐 | 2017-08-15 08:20
【數(shù)據(jù)猿導(dǎo)讀】 大數(shù)據(jù)(big data)或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點(diǎn)。

1.大數(shù)據(jù)概念
大數(shù)據(jù)技術(shù)是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)。大數(shù)據(jù)(big data)或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點(diǎn)。
2.數(shù)據(jù)的構(gòu)成
大數(shù)據(jù)包括交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集
(1)海量交易數(shù)據(jù):
企業(yè)內(nèi)部的經(jīng)營交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫進(jìn)行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。
(2)海量交互數(shù)據(jù):
源于Facebook、Twitter、LinkedIn及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸Manage File Transfer協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等。可以告訴我們未來會(huì)發(fā)生什么。
3.大數(shù)據(jù)特點(diǎn)
首先要從"大"入手,"大"是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過去的海量數(shù)據(jù)有所區(qū)別,其基本特征可以用4個(gè)V來總結(jié)(Vol-ume、Variety、Value和Veloc-ity,即體量大、多樣性、價(jià)值密度低、速度快。
第一V是Variety,海量數(shù)據(jù)有不同格式,第一種是結(jié)構(gòu)化,我們常見的數(shù)據(jù),還有半結(jié)據(jù)化網(wǎng)頁數(shù)據(jù),還有非結(jié)構(gòu)化視頻音頻數(shù)據(jù)。而且這些數(shù)據(jù)化他們處理方式是比較大的。數(shù)據(jù)類型繁多,如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息,等等。
第二V就是Volume,量比較大,我們有一些用戶化每秒就要進(jìn)入很多數(shù)據(jù),很多客戶內(nèi)部都有幾批數(shù)據(jù),還有下面淘寶都是幾PB數(shù)據(jù),所以PB化將是比較常態(tài)的情況。
非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長,占總數(shù)據(jù)量的80~90%,比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍,是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍
第三V是Velocity,因?yàn)閿?shù)據(jù)化會(huì)存在時(shí)效性,需要快速處理,并得到結(jié)果出來。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
第四V是Value:大量的不相關(guān)信息,不經(jīng)過處理則價(jià)值較低,屬于價(jià)值密度底的數(shù)據(jù)。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。海量數(shù)據(jù)分析非常復(fù)雜,使得過去靠單純易于關(guān)于數(shù)據(jù)庫BI已經(jīng)不是太適合了。
總的來說,“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價(jià)值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,如圖,具有這些特點(diǎn)的數(shù)據(jù),才是大數(shù)據(jù)。
4.大數(shù)據(jù)技術(shù)
大數(shù)據(jù)主要有數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理和數(shù)據(jù)分析與挖掘技術(shù)等:
(1)數(shù)據(jù)采集:ETL工具負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
(2)數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫、NOSQL、SQL等。
(3)數(shù)據(jù)處理:自然語言處理技術(shù)。
(4)統(tǒng)計(jì)分析:假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、多元回歸分析、逐步回歸、回歸預(yù)測與殘差分析等。
(5)數(shù)據(jù)挖掘:分類 (Classification)、估計(jì)(Estimation)、預(yù)測(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)。
(7)模型預(yù)測:預(yù)測模型、機(jī)器學(xué)習(xí)、建模仿真。
(8)結(jié)果呈現(xiàn):云計(jì)算、標(biāo)簽云、關(guān)系圖等。
5.大數(shù)據(jù)處理
(1)采集
大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。比如,電商會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲(chǔ)每一筆事務(wù)數(shù)據(jù)。在大數(shù)據(jù)的采集過程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬的用戶來進(jìn)行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時(shí)達(dá)到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。
(2)導(dǎo)入/預(yù)處理
雖然采集端本身會(huì)有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫,或者分布式存儲(chǔ)集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。導(dǎo)入與預(yù)處理過程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別。
(3)統(tǒng)計(jì)/分析
統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫,或者分布式計(jì)算集群來對存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會(huì)有極大的占用。
(4)挖掘
與前面統(tǒng)計(jì)和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(Predict)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。整個(gè)大數(shù)據(jù)處理的普遍流程至少應(yīng)該滿足這四個(gè)方面的步驟,才能算得上是一個(gè)比較完整的大數(shù)據(jù)處理
6.大數(shù)據(jù)應(yīng)用與案例分析
大數(shù)據(jù)應(yīng)用的關(guān)鍵,也是其必要條件,通過用戶行為分析實(shí)現(xiàn)精準(zhǔn)營銷是大數(shù)據(jù)的典型應(yīng)用,但是大數(shù)據(jù)在各行各業(yè)特別是公共服務(wù)領(lǐng)域具有廣闊的應(yīng)用前景。
以下是關(guān)于各行各業(yè),不同的組織機(jī)構(gòu)在大數(shù)據(jù)方面的應(yīng)用的案例:
(1)大數(shù)據(jù)應(yīng)用案例:教育行業(yè)
現(xiàn)在,大數(shù)據(jù)分析已經(jīng)被應(yīng)用各個(gè)行業(yè),特別是在美國的公共教育中,如圖所示,成為教學(xué)改革的重要力量。
(2)大數(shù)據(jù)應(yīng)用案例:生活?yuàn)蕵贩矫?/p>
新華社新媒體中心抓取了新浪微 博上提及“爸爸去哪兒”45.5萬條原創(chuàng)微博,并對36.7萬獨(dú)立原發(fā)作者用戶(去除疑似水軍賬戶)、1300余萬條用戶微博及近1億的關(guān)系進(jìn)行數(shù)據(jù)分析。結(jié)果發(fā)現(xiàn):《爸爸去哪兒》成為了名副其實(shí)的“口碑王”
(3)大數(shù)據(jù)應(yīng)用案例:電子商務(wù)行業(yè)
在電子商務(wù)行業(yè),利用大數(shù)據(jù)技術(shù)可以及時(shí)了解有多少新客戶在多少天內(nèi)發(fā)生二次回購,可以很清晰地知道不同類別的客戶的回購周期是多少天,為企業(yè)實(shí)施精準(zhǔn)營銷奠定堅(jiān)實(shí)基礎(chǔ),如企業(yè)可以利用大數(shù)據(jù)產(chǎn)生的信息在適當(dāng)?shù)臅r(shí)機(jī)針對不同類別的客戶進(jìn)行促銷,為企業(yè)帶來收入和利潤。
大數(shù)據(jù)技術(shù)的運(yùn)用前景是十分光明的。當(dāng)前,我國正處在全面建成小康社會(huì)征程中,工業(yè)化、信息化、城鎮(zhèn)化、農(nóng)業(yè)現(xiàn)代化任務(wù)很重,建設(shè)下一代信息基礎(chǔ)設(shè)施,發(fā)展現(xiàn)代信息技術(shù)產(chǎn)業(yè)體系,健全信息安全保障體系,推進(jìn)信息網(wǎng)絡(luò)技術(shù)廣泛運(yùn)用,是實(shí)現(xiàn)四化同步發(fā)展的保證。大數(shù)據(jù)分析對我們深刻領(lǐng)會(huì)世情和國情,把握規(guī)律,實(shí)現(xiàn)科學(xué)發(fā)展,做出科學(xué)決策具有重要意義,我們必須重新認(rèn)識(shí)數(shù)據(jù)的重要價(jià)值。
來源:大數(shù)據(jù)觀察
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新