為什么說你的數(shù)據(jù)不是大數(shù)據(jù)?
孫瑞 | 2016-07-18 15:12
【數(shù)據(jù)猿導讀】 如果嚴格按照大數(shù)據(jù)的定義來判斷,相信大多數(shù)公司是根本不存在大數(shù)據(jù)問題的。你也許有很多數(shù)據(jù),但那并不意味著就是大數(shù)據(jù)

言必稱大數(shù)據(jù)的時代,讓我們多少有些“審美疲勞”。但如果嚴格按照大數(shù)據(jù)的定義來判斷,相信大多數(shù)公司是根本不存在大數(shù)據(jù)問題的。你也許有很多數(shù)據(jù),但那并不意味著就是大數(shù)據(jù)。數(shù)據(jù)庫即服務(wù)公司MongoHQ的@Codepope最近在博客上探討了這個問題,以及為何我們要存儲這么多的數(shù)據(jù),但無法從中獲取相應的價值。
大數(shù)據(jù)實際上是范圍極廣、數(shù)量極大的,超乎你的想象。你也許認為維基百科的數(shù)據(jù)很大,但它也只是冰山一角而已。人們往往認為“很多的”數(shù)據(jù)就是所謂的“大”,因此他們無時無刻不在與大數(shù)據(jù)打交道。這種想法是不對的,我們從很早以前就已經(jīng)有海量的數(shù)據(jù)了,那時候甚至還沒有大數(shù)據(jù)的概念。那么大數(shù)據(jù)究竟是從哪里來的呢?為什么我們需要大數(shù)據(jù)呢?
時間倒退到上世紀90年代,人們開始認識到以數(shù)位的方式存儲各種數(shù)據(jù)是非常便宜的,要比把它們保存在紙上便宜的多。而當某種事物變得足夠便宜的時候,它就成為了一種標準。將所有信息都保存起來似乎成為了人類的一種本能,以便我們能夠在未來需要的時候找到它。特別是在成本低廉的情況下,何樂而不為?
尤其是在科學領(lǐng)域,科學家們從很早以前就夢想能夠把實驗中的所有數(shù)據(jù)都妥善地保存起來。幾十年前,美國的Peter Denning就闡述了NASA在保存哈勃空間望遠鏡的數(shù)據(jù)時所面對的難題:它每天生成的數(shù)據(jù)就需要2500張光盤來存儲,這不僅對對網(wǎng)絡(luò)和存儲設(shè)備造成了極大壓力,甚至已經(jīng)超出了人類能夠理解的范圍。隨著存儲技術(shù)以及經(jīng)濟的飛速發(fā)展,現(xiàn)在想一想,要存儲2500張光盤大小的數(shù)據(jù),只需要幾百元的普通硬盤就可以實現(xiàn)。
大數(shù)據(jù)的有限價值
現(xiàn)如今,我們已經(jīng)能夠保存下每個業(yè)務(wù)流程當中的數(shù)據(jù),甚至已經(jīng)可以保存下用戶訪問頁面的數(shù)據(jù)或者觀眾觀看哪些節(jié)目的數(shù)據(jù)。物聯(lián)網(wǎng)的出現(xiàn)改變了游戲規(guī)則,為我們開啟了一扇門。然而每一條數(shù)據(jù)、每一條記錄的價值卻在下降。
可以這樣說,一條信用卡的交易記錄是相對豐富的數(shù)據(jù),它包含了人、地點、時間以及更多附加在數(shù)據(jù)上的價值,因此很自然我們想要收集這些數(shù)據(jù),用來促進銷售的循環(huán)。然而相比而言,一條用戶在網(wǎng)上的瀏覽點擊行為數(shù)據(jù)就沒有那么“值錢”了。這些數(shù)據(jù)也許包含了用戶的行為習慣信息,但單獨拿出一條記錄也許是沒有任何價值的。你只有在想要分析用戶的行為時,才會大量收集這樣的數(shù)據(jù)。
而現(xiàn)在的情況是,存儲這些數(shù)據(jù)的成本是比較低的,而且你收集越多的數(shù)據(jù),通過比對不同的趨勢,你就可能獲得更多的價值。拿觀眾觀看電視的數(shù)據(jù)來說,大量收集這些記錄,然后與節(jié)目表和廣告數(shù)據(jù)整合在一起進行分析,就能更好地理解觀眾喜歡什么樣的節(jié)目,愛看什么樣的電視劇,客戶也可以更精準地投放廣告。這時候大數(shù)據(jù)的價值就會凸顯出來,就像最近火的一塌糊涂的《紙牌屋》。
因此我們可以判斷,當應對大量的記錄時,如果每一條單獨記錄越小(數(shù)據(jù)量,關(guān)聯(lián)性),那么它是大數(shù)據(jù)的可能性就越大。而“大數(shù)據(jù)分析”所面臨的挑戰(zhàn)是,從這些信息的小小元素中提煉出意義,我們可能要把它們與上述的豐富的數(shù)據(jù)放到一起來提供上下文,識別其中隱藏著的模式。這算不上是大海撈針,更準確的說法應該是從一堆針頭中找到你所需要的那一個。
大數(shù)據(jù)與“熱”數(shù)據(jù)
還有一種常見的錯誤觀點,即你不僅擁有很多數(shù)據(jù),而且用戶訪問這些數(shù)據(jù)的頻率很高,因此就需要我們用“大數(shù)據(jù)思維”來處理這些數(shù)據(jù)。
這些數(shù)據(jù)其實不一定是大數(shù)據(jù),而是所謂的“熱數(shù)據(jù)”,它們并不適用于處理大數(shù)據(jù)的方式。熱數(shù)據(jù)是純粹的擴展性問題,你需要把系統(tǒng)的性能調(diào)整到最佳,降低系統(tǒng)的延遲同時確保它能夠被所有提出訪問需求的用戶訪問到。
大數(shù)據(jù)與它正相反,我們可以說它是“冷數(shù)據(jù)”。也就是說,大數(shù)據(jù)并不是你頻繁訪問的數(shù)據(jù),除了作為分析之用,甚至你從來不會去用到它。事實上,除了分析之外,我們可以把大數(shù)據(jù)“冷凍”起來。盡管有時候我們會把大數(shù)據(jù)與新鮮快速的記錄一起進行分析,但大數(shù)據(jù)池至少需要從概念上與活動的熱數(shù)據(jù)隔離開來。否則二者會互相造成不良的影響。將冷熱數(shù)據(jù)分開存儲是公認的最佳實踐,無論是存儲還是應用,它們都是完全不同的數(shù)據(jù)。
很不幸的是,有很多人并沒有認清這一點,他們還在將大數(shù)據(jù)處理方式應用到各種各樣的數(shù)據(jù)類型當中。最終的結(jié)果也就可想而知。
不要輕視其他數(shù)據(jù)的價值
現(xiàn)在,你需要從大數(shù)據(jù)的狂熱中退一步思考,你現(xiàn)在最重要的數(shù)據(jù)也許并不是那些大數(shù)據(jù),而是我們所說的熱數(shù)據(jù)。你也許已經(jīng)建立了大數(shù)據(jù)系統(tǒng),時刻準備從大數(shù)據(jù)金礦上挖掘潛在的價值,但一定不要忽視其他數(shù)據(jù)的價值。你還有業(yè)務(wù)數(shù)據(jù),它需要你快速、高效、一致地交付這些數(shù)據(jù),同時要解決擴展性的問題。記住,大數(shù)據(jù)的最佳實踐并不適合這些數(shù)據(jù)。你的數(shù)據(jù)也許這是一些重要的有價值的數(shù)據(jù),它們并不是大數(shù)據(jù)。
來源:TechTarget中國
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重