數(shù)據(jù)架構(gòu)簡史:轉(zhuǎn)換中的范式
Keith D. Foote | 2017-08-18 10:24
【數(shù)據(jù)猿導(dǎo)讀】 據(jù)架構(gòu)是一系列決定收集哪些數(shù)據(jù),如何在數(shù)據(jù)庫系統(tǒng)中使用、處理和存儲(chǔ)數(shù)據(jù)的規(guī)則、策略以及模型。例如,數(shù)據(jù)集成是依賴于數(shù)據(jù)架構(gòu)用于集成過程中的指令。如果沒有從編程范式轉(zhuǎn)換到數(shù)據(jù)架構(gòu)范式,現(xiàn)代計(jì)算機(jī)將會(huì)變得更加笨拙遲鈍。

據(jù)架構(gòu)是一系列決定收集哪些數(shù)據(jù),如何在數(shù)據(jù)庫系統(tǒng)中使用、處理和存儲(chǔ)數(shù)據(jù)的規(guī)則、策略以及模型。例如,數(shù)據(jù)集成是依賴于數(shù)據(jù)架構(gòu)用于集成過程中的指令。如果沒有從編程范式轉(zhuǎn)換到數(shù)據(jù)架構(gòu)范式,現(xiàn)代計(jì)算機(jī)將會(huì)變得更加笨拙遲鈍。
對(duì)于早期的計(jì)算機(jī),創(chuàng)建過分簡單化的程序是為了處理特定類型的計(jì)算機(jī)問題,甚至沒有考慮過數(shù)據(jù)集成的概念,每個(gè)程序之間都是單獨(dú)分開的。二十世紀(jì)四十年代至七十年代,程序處理是最主要的問題,有關(guān)建立數(shù)據(jù)架構(gòu)的問題根本考慮得少之又少,甚至不在考慮的范圍之內(nèi)。程序員致力于讓計(jì)算機(jī)通過執(zhí)行特定的操作,以支持組織的短期目標(biāo)。只有定義為“程序需要”的數(shù)據(jù)被使用,計(jì)算機(jī)才不會(huì)被用于長期的數(shù)據(jù)存儲(chǔ),恢復(fù)數(shù)據(jù)需要能夠編寫、檢索特定信息的程序,而這相當(dāng)耗費(fèi)時(shí)間和金錢。
編程范式轉(zhuǎn)換為數(shù)據(jù)庫架構(gòu)范式
1970年,Edgar F. Codd公開發(fā)表題為“大型共享數(shù)據(jù)庫數(shù)據(jù)的關(guān)系模型”的論文,文中提到了組織起數(shù)據(jù)的相關(guān)步驟,Codd的理論基于運(yùn)用于集合論里面的數(shù)學(xué)運(yùn)算,結(jié)合了一列規(guī)則,以確保數(shù)據(jù)被存儲(chǔ)在最小冗余里。他的方法成功的創(chuàng)建了數(shù)據(jù)庫架構(gòu),簡化了計(jì)算機(jī)的效能。在Codd的理論之前,COBOL程序和大多數(shù)其他的程序都是按等級(jí)排列的,這樣的排列使得搜索有必要從總類別開始,然后再逐漸縮小搜索類別。而Codd提供的相關(guān)途徑則允許用戶更加有序、有效地利用二維表儲(chǔ)存數(shù)據(jù)。(Codd 稱之為“關(guān)系法”)
1976年,在麻省理工學(xué)院工作的Peter Chen發(fā)表題為“實(shí)體-關(guān)系模型對(duì)數(shù)據(jù)的統(tǒng)一視圖”的論文,文中介紹了實(shí)體/關(guān)系建模,也就是今天被廣泛熟知的“數(shù)據(jù)建模”。他以圖表的形式生動(dòng)形象地呈現(xiàn)了數(shù)據(jù)架構(gòu),兩年后,Oracle宣布推出首款涉及業(yè)務(wù)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)。
以計(jì)算機(jī)為工具工作的人們開始意識(shí)到數(shù)據(jù)架構(gòu)比程序架構(gòu)更加靠譜。它的穩(wěn)定性源自重新設(shè)計(jì)系統(tǒng)的中間部分,并將進(jìn)程彼此隔離(類似于程序員將程序隔離的方式),重新設(shè)計(jì)的關(guān)鍵在于添加了數(shù)據(jù)緩沖區(qū)。
緩沖區(qū)最初是一個(gè)臨時(shí)記憶儲(chǔ)存系統(tǒng),旨在從原始計(jì)算機(jī)的內(nèi)存中快速移除數(shù)據(jù),這樣計(jì)算機(jī)就不會(huì)陷入運(yùn)阻,并能繼續(xù)解決問題。 然后,數(shù)據(jù)從緩沖區(qū)傳輸?shù)酱蛴C(jī),“慢慢”打印出最新的計(jì)算結(jié)果。今天的數(shù)據(jù)緩沖區(qū)的版本是一個(gè)由設(shè)備共享的區(qū)域,或者一個(gè)程序的進(jìn)程,它們以不同的速度運(yùn)行,或者有不同的優(yōu)先級(jí)?,F(xiàn)代緩沖區(qū)允許每個(gè)進(jìn)程(或設(shè)備)在沒有沖突的情況下運(yùn)行,與緩存類似,緩沖區(qū)充當(dāng)“中間存儲(chǔ)空間”,但也有助于協(xié)調(diào)不同的活動(dòng),而不是簡單地簡化內(nèi)存訪問。
商業(yè)界很快就意識(shí)到Edgar F. Codd和Peter Chen的見解的優(yōu)勢(shì),新的數(shù)據(jù)架構(gòu)設(shè)計(jì)顯而易見的比程序結(jié)構(gòu)更快更靈活更穩(wěn)定。此外,他們的見解促使計(jì)算機(jī)編程社區(qū)發(fā)生了文化上的轉(zhuǎn)變,數(shù)據(jù)結(jié)構(gòu)現(xiàn)在被認(rèn)為是遠(yuǎn)比程序重要得多。
假設(shè):數(shù)據(jù)在范式轉(zhuǎn)換中丟失
數(shù)據(jù)架構(gòu)的進(jìn)化需要消除三個(gè)基本的假設(shè)(假設(shè)的定義:一些被認(rèn)為是理所當(dāng)然的事情;一種缺乏有力證據(jù)的猜測(cè),卻被當(dāng)作事實(shí)來看待。)
假設(shè)1:每個(gè)程序必須和其他程序隔離開來。這種隔離論導(dǎo)致了程序代碼、數(shù)據(jù)定義和數(shù)據(jù)條目的重復(fù)。Codd的關(guān)系法解決了不必要的副本麻煩,他的模型將數(shù)據(jù)庫的模架或布局從物理信息存儲(chǔ)中分離出來(成為數(shù)據(jù)庫系統(tǒng)的標(biāo)準(zhǔn))。他的關(guān)系模型指出,數(shù)據(jù)不需要存儲(chǔ)在單獨(dú)的、孤立的程序中,數(shù)據(jù)條目和程序編碼不需要不必要地復(fù)制。一個(gè)單獨(dú)的關(guān)系數(shù)據(jù)庫足以用于存儲(chǔ)所有的數(shù)據(jù),所以,一致性可能(幾乎可以)得到保證,并且也更易于查找錯(cuò)誤。
假設(shè)2:輸入和輸出是對(duì)等的,設(shè)計(jì)上應(yīng)該讓他們相匹配。目前,輸出和輸入設(shè)備的數(shù)據(jù)處理速率有很大差異,這與預(yù)想著兩者以相同速度運(yùn)行的期望是完全不同的。緩沖區(qū)的使用開啟了實(shí)現(xiàn)輸出、輸入的區(qū)別對(duì)待,Peter Chen的革新揭示了數(shù)據(jù)創(chuàng)造者和數(shù)據(jù)用戶之間的差異。數(shù)據(jù)用戶通常希望從潛藏在數(shù)據(jù)庫下的不同部分看到大量的信息以作比較,并從中提取最有用的信息。數(shù)據(jù)創(chuàng)造者,從另外一方面來說,則專注于處理數(shù)據(jù),一次一個(gè)進(jìn)程。數(shù)據(jù)創(chuàng)造者(輸入)和數(shù)據(jù)用戶(輸出)兩者的目的是截然不同的。
假設(shè)3:企業(yè)組織應(yīng)該反應(yīng)在他們的計(jì)算機(jī)程序里面。隨著緩沖區(qū)和關(guān)系數(shù)據(jù)庫的運(yùn)用,“程序”這個(gè)概念應(yīng)該會(huì)逐漸模仿公司的結(jié)構(gòu),更加靈活的數(shù)據(jù)庫取代了企業(yè)在提供有用結(jié)構(gòu)方面的角色,同時(shí)收集和處理信息?,F(xiàn)代數(shù)據(jù)模型既反映了企業(yè)的組織結(jié)構(gòu),也反映了用于實(shí)現(xiàn)目標(biāo)的工具。
SQL和數(shù)據(jù)架構(gòu)
Codd的關(guān)系法導(dǎo)致結(jié)構(gòu)化的查詢語言(SQL),在上世紀(jì)八十年代成為了標(biāo)準(zhǔn)的查詢語言。關(guān)系數(shù)據(jù)庫變得非常受歡迎,促進(jìn)了數(shù)據(jù)庫市場的發(fā)展,這反過來又導(dǎo)致了等級(jí)數(shù)據(jù)庫模型的沒落。
二十世紀(jì)九十年代早期,許多主要的計(jì)算機(jī)公司仍然專注于程序,試圖銷售昂貴而復(fù)雜的數(shù)據(jù)庫產(chǎn)品?;匾运麄兊膭t是新的、更具競爭力的企業(yè)開始發(fā)布工具和軟件(如:Oracle開發(fā)人員、PowerBuilder)用來增強(qiáng)系統(tǒng)數(shù)據(jù)架構(gòu)。二十世紀(jì)九十年代中期,互聯(lián)網(wǎng)的使用推進(jìn)了數(shù)據(jù)庫行業(yè)的顯著增長以及計(jì)算機(jī)的總體銷售情況。
數(shù)據(jù)庫架構(gòu)性的設(shè)計(jì),引領(lǐng)了數(shù)據(jù)管理的蓬勃發(fā)展。企業(yè)已經(jīng)發(fā)現(xiàn)了信息本身對(duì)公司的價(jià)值,二十世紀(jì)九十年代以后,諸如“數(shù)據(jù)管理員”、“數(shù)據(jù)庫管理員”的標(biāo)題開始出現(xiàn)。數(shù)據(jù)管理員的職責(zé)在于保證數(shù)據(jù)使用中的高質(zhì)量和完整性。
關(guān)系數(shù)據(jù)庫管理系統(tǒng)使創(chuàng)建一個(gè)呈現(xiàn)概念模式(某種類型的映射)的數(shù)據(jù)庫成為可能,然后提供數(shù)據(jù)庫的不同透視圖,這是為數(shù)據(jù)創(chuàng)建者和數(shù)據(jù)使用者設(shè)計(jì)的。另外,每個(gè)數(shù)據(jù)庫管理系統(tǒng)都可以將其物理存儲(chǔ)參數(shù)與列結(jié)構(gòu)和表分開。
NoSQL和數(shù)據(jù)架構(gòu)
NoSQL不是一個(gè)程序,它是一個(gè)數(shù)據(jù)庫管理系統(tǒng),使用的是相當(dāng)簡單的架構(gòu)。在處理大數(shù)據(jù)和不需要關(guān)系模型時(shí),它是很有用的。NoSQL數(shù)據(jù)庫系統(tǒng)在管理和存儲(chǔ)數(shù)據(jù)的方法和過程中是非常多樣化的。SQL系統(tǒng)在功能方面通常比NoSQL系統(tǒng)具有更大的靈活性,但是缺乏NoSQL系統(tǒng)的可伸縮性。但是,現(xiàn)在有許多商業(yè)軟件包可以結(jié)合“兩個(gè)世界的最佳方式”,而且更多的軟件包將會(huì)一直進(jìn)入市場。
最近,一些機(jī)構(gòu)組織在DATAVERSITY的文章和訪談中(還有許多其他的可能性)提供了一種數(shù)據(jù)架構(gòu)解決方案,利用關(guān)系數(shù)據(jù)庫中常見的工具來處理大數(shù)據(jù)。Kyvos Insights公司銷售與Hadoop存儲(chǔ)系統(tǒng)兼容的軟件,它們的“Hadoop/OLAP ”組合在不同程度上促進(jìn)了非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)的處理,使得人們可以相對(duì)輕松地對(duì)大數(shù)據(jù)進(jìn)行分析。
Hackolade公司也銷售一款軟件包,采用一種用戶友好數(shù)據(jù)模型提供了“高功能”的工具來處理NoSQL。該軟件將NoSQL融合了可視化圖形的簡明性,結(jié)合Hackolade其他工具一起使用,既減少開發(fā)時(shí)間,又提高了應(yīng)用程序的質(zhì)量。他們的軟件目前和Couchbase、DynamoDB、MongoDB 模式兼容(他們計(jì)劃未來能囊括更多NoSQL數(shù)據(jù)庫)。
RedisLabs將他們的云計(jì)算與他們的軟件包Redis Pack結(jié)合在一起,提供另一個(gè)架構(gòu)解決方案。Redis Pack和它的云計(jì)算提供了三種優(yōu)勢(shì):速度、持久性(保存您的信息),以及他們提供的數(shù)據(jù)類型的多樣性。從本質(zhì)上來說,Redis是一個(gè)“非常快”的NoSQL、鍵值數(shù)據(jù)存儲(chǔ),同時(shí)可以充當(dāng)數(shù)據(jù)庫、緩存和消息代理。
Reltio提供服務(wù)。他們已經(jīng)創(chuàng)建了一個(gè)云管理平臺(tái),并提供完成處理大數(shù)據(jù)所需的工具和服務(wù)。他們提供研究人員,將來自多個(gè)來源的大數(shù)據(jù)與主數(shù)據(jù)管理(MDM)合并在一起,并開發(fā)統(tǒng)一的目標(biāo)。Reltio的系統(tǒng)支持多種行業(yè)領(lǐng)域,包括零售、生命科學(xué)、娛樂、醫(yī)療保健和政府。
數(shù)據(jù)架構(gòu)從早期就完全改變了,并且很可能是由于一些新的趨勢(shì),例如物聯(lián)網(wǎng)、云計(jì)算、微服務(wù)、高級(jí)分析、機(jī)器學(xué)習(xí)和人工智能,以及像Blockchain這樣的新興技術(shù),將會(huì)繼續(xù)改變未來的發(fā)展方向。
來源:數(shù)據(jù)觀
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新