純干貨:數據處理之數據精簡概述(附大數據存儲單位)
秦隴紀DataSimp | 2016-03-11 14:36
【數據猿導讀】 我們即將進入大數據時代,技術上處于數據挖掘分析階段,尚未達到數據精簡階段。未來信息數據量進一步爆炸,數量和維度激增,這種事后挖掘分析處理的辦法就到了瓶頸。數據技術必須繼續(xù)前進才可以服務于人。未來的數據存儲和處理,必定是信息全生命周期加工使用前和事中,就對數據做出處理...

一、數據處理基礎知識;
數據是自然和生命的一種表示形式,記錄了人類的行為,包括工作、生活和社會發(fā)展。數據(Data)是對事實、概念或指令的一種表達形式,可由人工或自動化裝置進行處理。數據經過解釋并賦予一定的意義之后,便成為信息。數據指數字、符號、字母和各種文字的集合。數據學(Dataology)和數據科學(Data Science)是關于數據的科學或者研究數據的科學,定義為:研究探索Cyberspace中數據界(data nature)奧秘的理論、方法和技術,研究的對象是數據界中的數據。數據科學有兩個內涵:研究數據本身、科學研究的數據方法。
數據處理(data processing)是對數據的采集、存儲、檢索、加工、變換和傳輸。數據處理應用到社會生產和社會生活各領域。數據處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數據中抽取并推導出對于某些特定的人們來說是有價值、有意義的數據。數據處理是系統(tǒng)工程和自動控制的基本環(huán)節(jié)。數據處理貫穿于社會生產和社會生活的各個領域。數據處理技術的發(fā)展及其應用的廣度和深度,極大地影響著人類社會發(fā)展的進程。常用處理軟件離不開管理數據的文件、數據庫系統(tǒng)等,大數據時代則離不開分布式文件系統(tǒng)和云計算。
1、數據處理軟件:數據處理離不開軟件的支持,數據處理軟件包括:用以書寫處理程序的各種程序設計語言及其編譯程序,管理數據的文件系統(tǒng)和數據庫系統(tǒng),以及各種數據處理方法的應用軟件包。為了保證數據安全可靠,還有一整套數據安全保密的技術。
2、數據處理方式:根據處理設備的結構方式、工作方式,以及數據的時間空間分布方式的不同,數據處理有不同的方式。不同的處理方式要求不同的硬件和軟件支持。每種處理方式都有自己的特點,應當根據應用問題的實際環(huán)境選擇合適的處理方式。數據處理主要有四種分類方式①根據處理設備的結構方式區(qū)分,有聯機處理方式和脫機處理方式。②根據數據處理時間的分配方式區(qū)分,有批處理方式、分時處理方式和實時處理方式。③根據數據處理空間的分布方式區(qū)分,有集中式處理方式和分布處理方式。④根據計算機中央處理器的工作方式區(qū)分,有單道作業(yè)處理方式、多道作業(yè)處理方式和交互式處理方式。
3、數據處理技術是用計算機收集、記錄數據,經加工產生新的信息形式的技術,涉及的加工處理比一般的算術運算要廣泛得多。數據處理比數據分析含義廣,是對數據(包括數值的和非數值的)進行分析和加工的技術過程,包括對各種原始數據的分析、整理、計算、編輯等的加工和處理。隨著計算機的日益普及,在計算機應用領域中,數值計算所占比重很小,通過計算機數據處理進行信息管理已成為主要的應用。如測繪制圖管理、倉庫管理、財會管理、交通運輸管理,技術情報管理、辦公室自動化等。在地理數據方面既有大量自然環(huán)境數據(土地、水、氣候、生物等各類資源數據),也有大量社會經濟數據(人口、交通、工農業(yè)等),常要求進行綜合性數據處理。故需建立地理數據庫,系統(tǒng)地整理和存儲地理數據減少冗余,發(fā)展數據處理軟件,充分利用數據庫技術進行數據管理和處理。
數據處理系統(tǒng)已廣泛地用于各種企業(yè)和事業(yè),內容涉及薪金支付,票據收發(fā)、信貸和庫存管理、生產調度、計劃管理、銷售分析等。它能產生操作報告、金融分析報告和統(tǒng)計報告等。數據處理技術涉及到文卷系統(tǒng)、數據庫管理系統(tǒng)、分布式數據處理系統(tǒng)等方面的技術。此外,由于數據或信息大量地應用于各種各樣的企業(yè)和事業(yè)機構,工業(yè)化社會中已形成一個獨立的信息處理業(yè)。數據和信息,本身已經成為人類社會中極其寶貴的資源。信息處理業(yè)對這些資源進行整理和開發(fā),借以推動信息化社會的發(fā)展。
4、計算機數據處理的8個方面:①數據采集:采集所需的信息。②數據轉換:把信息轉換成機器能夠接收的形式。③數據分組:指定編碼,按有關信息進行有效的分組。④數據組織:整理數據或用某些方法安排數據,以便進行處理。⑤數據計算:進行各種算術和邏輯運算,以便得到進一步的信息。⑥數據存儲:將原始數據或計算的結果保存起來,供以后使用。⑦數據檢索:按用戶的要求找出有用的信息。⑧數據排序:把數據按一定要求排成次序。
5、數據處理過程:大致分為數據的準備、處理和輸出3個階段。在數據準備階段,將數據脫機輸入到穿孔卡片、穿孔紙帶、磁帶或磁盤。這個階段也可以稱為數據的錄入階段。數據錄入以后,就要由計算機對數據進行處理,為此預先要由用戶編制程序并把程序輸入到計算機中,計算機是按程序的指示和要求對數據進行處理的。所謂處理,就是指上述8個方面工作中的一個或若干個的組合。最后輸出的是各種文字和數字的表格和報表。
6、數據處理工具:根據數據處理的不同階段,有不同的專業(yè)工具來對數據進行不同階段的處理。在數據轉換部分,有專業(yè)的ETL工具來幫助完成數據的提取、轉換和加載,相應的工具有Informatica和開源的Kettle。在數據存儲和計算部分,指的數據庫和數據倉庫等工具,有Oracle,DB2,MySQL等知名廠商,列式數據庫在大數據的背景下發(fā)展也非常快。在數據可視化部分,需要對數據的計算結果進行分析和展現,有BIEE,Microstrategy,Yonghong的Z-Suite等工具。數據處理的軟件有EXCEL MATLAB Origin等等,當前流行的圖形可視化和數據分析軟件有Matlab,Mathmatica和Maple等。這些軟件功能強大,可滿足科技工作中的許多需要,但使用這些軟件需要一定的計算機編程知識和矩陣知識,并熟悉其中大量的函數和命令。而使用Origin就像使用Excel和Word那樣簡單,只需點擊鼠標,選擇菜單命令就可以完成大部分工作,獲得滿意的結果。
*大數據時代,需要可以解決大量數據、異構數據等多種問題帶來的數據處理難題,Hadoop是一個分布式系統(tǒng)基礎架構,由Apache基金會開發(fā)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運算和存儲。Hadoop實現了一個分布式文件系統(tǒng) Hadoop Distributed File System,HDFS。HDFS有著高容錯性的特點,并且設計用來部署在低廉的硬件上。而且它提供高傳輸率來訪問應用程序的數據,適合那些有著超大數據集的應用程序。
7、數據清洗:專業(yè)數據分析時,往往要有針對性的數據清洗,即把無關的數據、不重要的數據等處理掉。接著對數據進行相關分分類,進行分類劃分之后,就可以根據具體的分析需求選擇模式分析的技術,如路徑分析、興趣關聯規(guī)則、聚類等。通過模式分析,找到有用的信息,再通過聯機分析(OLAP)的驗證,結合客戶登記信息,找出有價值的市場信息,或發(fā)現潛在的市場。數據處理與數據管理
8、數據處理與數據管理的區(qū)別:數據處理是從大量的原始數據抽取出有價值的信息,即數據轉換成信息的過程。主要對所輸入的各種形式的數據進行加工整理,其過程包含對數據的收集、存儲、加工、分類、歸并、計算、排序、轉換、檢索和傳播的演變與推導全過程。數據管理是指數據的收集整理、組織、存儲、維護、檢索、傳送等操作,是數據處理業(yè)務的基本環(huán)節(jié),而且是所有數據處理過程中必有得共同部分。數據處理中,通常計算比較簡單,且數據處理業(yè)務中的加工計算因業(yè)務的不同而不同,需要根據業(yè)務的需要來編寫應用程序加以解決。而數據管理則比較復雜,由于可利用的數據呈爆炸性增長,且數據的種類繁雜,從數據管理角度而言,不僅要使用數據,而且要有效地管理數據。因此需要一個通用的、使用方便且高效的管理軟件,把數據有效地管理起來。數據處理與數據管理是相聯系的,數據管理技術的優(yōu)劣將對數據處理的效率產生直接影響。而數據庫技術就是針對該需求目標進行研究并發(fā)展和完善起來的計算機應用的一個分支。
9、大數據(外文名big data, mega data,別稱Data Mining)
研究機構Gartner定義:指可承受時間范圍內不能用常規(guī)軟件工具進行捕捉、管理和處理的數據集合,需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。
麥肯錫全球研究所定義:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數據庫軟件工具能力范圍的數據集合,具有海量的數據規(guī)模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
維克托·邁爾-舍恩伯格及肯尼斯·庫克耶2008年8月中旬編寫的《大數據時代》中提出,大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。
10、大數據常說的v4特點:大量、高速、多樣、價值,適用領域范圍:BI,工業(yè)4.0,云計算,物聯網,互聯網+,人工智能等,應用學科有:計算機(最新),信息科學,統(tǒng)計學(最早),經濟學(較早)。IBM大數據5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)Veracity(真實性)。(李清泉,李德仁.大數據GIS.湖北武漢:武漢大學出版社,2014.6:39卷第六期)
11、大數據分析基礎:1)數據挖掘算法:大數據分析的理論核心就是數據挖掘算法,各種數據挖掘的算法基于不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點,也正是因為這些被全世界統(tǒng)計學家所公認的各種統(tǒng)計方法(可以稱之為真理)才能深入數據內部,挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的算法才能更快速的處理大數據,如果一個算法得花上好幾年才能得出結論,那大數據的價值也就無從說起了。2)大數據預測性分析:大數據分析最終要的應用領域之一就是預測性分析,從大數據中挖掘出特點,通過科學的建立模型,之后便可以通過模型帶入新的數據,從而預測未來的數據。3)語義引擎:非結構化數據的多元化給數據分析帶來新的挑戰(zhàn),我們需要一套工具系統(tǒng)的去分析,提煉數據。語義引擎需要設計到有足夠的人工智能以足以從數據中主動地提取信息。4)數據質量和數據管理:大數據分析離不開數據質量和數據管理,高質量的數據和有效的數據管理,無論是在學術研究還是在商業(yè)應用領域,都能夠保證分析結果的真實和有價值。5)可視化分析:大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對于大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
12、大數據處理技術:整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理。
1)大數據處理之采集:大數據的采集是指利用多個數據庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的 數據,并且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關系型數據庫MySQL和Oracle等來存儲每一筆事務數據,除 此之外,Redis和MongoDB這樣的NoSQL數據庫也常用于數據的采集。在大數據的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數高,因為同時有可能會有成千上萬的用戶 來進行訪問和操作,比如火車票售票網站和淘寶,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數據庫才能支撐。并且如何在這些數據庫之間 進行負載均衡和分片的確是需要深入的思考和設計。
2)大數據處理之導入/預處理:雖然采集端本身會有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這 些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使 用來自Twitter的Storm來對數據進行流式計算,來滿足部分業(yè)務的實時計算需求。導入與預處理過程的特點和挑戰(zhàn)主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。
3)大數據處理之統(tǒng)計/分析:統(tǒng)計與分析主要利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。
統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數據量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。
4)大數據處理之挖掘:與前面統(tǒng)計和分析過程不同的是,數據挖掘一般沒有什么預先設定好的主題,主要是在現有數 據上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型算法有用于聚類的Kmeans、用于 統(tǒng)計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復雜,并 且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主。
二、大數據時代數據處理分支——數據精簡
數據資產成為和土地、資本、人力并駕齊驅的關鍵生產要素,而大數據在社會、經濟、科學研究等方面正以前所未有的速度,顛覆人們探索世界的方法、驅動產業(yè)間的融合與分立。信息社會里數據無處不在,多到個人無法有效存取、處理、獲取,時代需要數據精簡,希望大家重視每一個領域的數據精簡。數據精簡用一句話來說就是:數據量越來越大,必須從事后做挖掘分析,變?yōu)槭孪仁轮凶鰯祿啞?/p>
互聯網、大數據、物聯網、人工智能時代即將普及各種數字設備、智能設備、電子信息設備、車聯網、物聯網設備,人類以前所未有的速度和規(guī)模產生數據、信息和知識。信息世界數據的數量和維度越來越多,我們必須采用數據技術手段獲取所需信息,簡單的諸如:信息分類目錄、分媒體和媒介、分實效性、分受眾、做物理存放歸類等等,復雜的信息往往也是采用很復雜的數據形式在存儲和使用。計算機網絡和信息設備的快速發(fā)展,產生的海量數據存在于各類服務器、媒介、機構,使用者需要采取不同的辦法去尋找、加工數據才可以獲得所需信息,比如采用數據挖掘、數據圖形化、知識圖譜、數據升降維度、數據擬合、數據場景模等。在工業(yè)生產中,涉及從數據中提取信息的行業(yè),還在以數據挖掘分析為主要方法。
我們即將進入大數據時代,技術上處于數據挖掘分析階段,尚未達到數據精簡階段。未來信息數據量進一步爆炸,數量和維度激增,這種事后挖掘分析處理的辦法就到了瓶頸。數據技術必須繼續(xù)前進才可以服務于人。未來的數據存儲和處理,必定是信息全生命周期加工使用前和事中,就對數據做出處理,而這種處理是以數據精簡為目標導向的。國內數據精簡方面的研究和應用還沒起步,國外雖然有人在研究也是數量不多。未來是一個數據精簡的時代!
大數據時代的信息和數字產品,都有過量花哨的功能與可選項,令人無所適從。數據精簡就是把有意義的留下,沒用的直接去掉?,F實中很多實體企業(yè)因精簡產品取得舉世矚目的成功、品牌家喻戶曉,如谷歌極簡的搜索首頁、“一鍵下單”功能的電子購物網站亞馬遜、精簡外形設計和扁平化體驗的蘋果iPod、iPhone、iPad、簡約設計和外形的宜家家具。消費者愿為更簡單直接、節(jié)約時間的體驗支付更高的價格,使得成本類似的產品產出較高溢價,而非依靠壟斷、區(qū)域保護、包裝和廣告等低俗競爭手段取得收益。信息和數據領域即將發(fā)生類似情景。
信息時代的生活,各種垃圾信息、庸俗信息、有害信息、虛假信息等遍地橫流,嚴重影響高價值人類社會信息的傳遞,增加了每個人的信息負擔,浪費了不必要的時間和社會成本。各種數字設備、智能設備、電子信息設備、車聯網設備、物聯網設備普及后,產生的海量信息和數據無時無刻都在存儲、傳播,形成巨大的成本和時間空間的壓力。為了必須做數據精簡!
而達成數據精簡目標,要為數據精簡做鋪墊:數據產業(yè)數據資源和應用的現狀、行業(yè)數據應用流程和數據儲存分析現狀、信息與數據分析、數據領域專家研究領域介紹、數據標準化(結構化數據庫、非結構化的網絡及非數據文本數據)、全景數據庫的精簡技術、小數據和大數據關聯重合精簡等數據科學研究方面。只有做好數據精簡的基礎,摸清數據現狀、夯實精簡基礎,才有可能做信息和數據的精簡。
秦隴紀希望提前進入信息精簡領域研究、早日推出數據精簡產品服務,降低信息、知識和數據爆炸帶來的負面影響。大道至簡,至簡至豐。希望相關研究者和產業(yè)家,共同為數據精簡學術和科研做貢獻,使國人盡快提高人類信息管理能力。信息精簡大有可為,前景誘人!
附錄:大數據存儲單位(計算機存儲單位)
計算機存儲最小的基本單位是bit,按順序給出所有計量單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它們按照進率1024(2的十次方)來計算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
全稱:
1 Bit(比特) = Binary Digit(bit這個詞的來源)
8Bits = 1 Byte(字節(jié))
1,000 Bytes = 1 Kilobyte(千字節(jié))
1,000Kilobytes = 1 Megabyte(兆字節(jié),簡稱“兆”)
1,000 Megabytes = 1 Gigabyte(吉字節(jié),又稱“千兆”)
1,000 Gigabytes = 1Terabyte(萬億字節(jié),太字節(jié))
1,000 Terabytes = 1 Petabyte(千萬億字節(jié),拍字節(jié))
1,000 Petabytes = 1 Exabyte(百億億字節(jié),艾字節(jié))
1,000Exabytes = 1 Zettabyte(十萬億億字節(jié),澤字節(jié))
1,000 Zettabytes = 1 Yottabyte(一億億億字節(jié),堯字節(jié))
1,000 Yottabytes = 1 Brontobyte(一千億億億字節(jié))
1,000 Brontobytes = 1 Geopbyte(沒有翻譯)
注:進制單位全稱及譯音 yotta [堯]它 Y. 10^21, zetta [澤]它 Z. 10^18, exa [艾]可薩 E. 10^15, peta [拍]它 P. 10^12, tera [太]拉 T. 10^9, giga [吉]咖 G. 10^6, mega [兆] M. 10^3 “兆”為百萬級數量單位.
來源:數據精簡DataSimp
我要評論
活動推薦more >
- 2018 上海國際大數據產業(yè)高2018-12-03
- 2018上海國際計算機網絡及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術峰會2018”2018-06-14