數(shù)據(jù)管理簡史:從人工到人工智能
DG數(shù)據(jù)治理 | 2020-06-18 14:37
【數(shù)據(jù)猿導讀】 美國第一次人口普查過后,Hollerith深知人工統(tǒng)計數(shù)據(jù)之痛,發(fā)明了分揀機、制表機和記錄機,用來記錄完整的數(shù)據(jù),可以說第一次把數(shù)據(jù)轉(zhuǎn)變成了二進制信息。一直到1910年-1960年代中期,打卡和制表機都是企業(yè)辦公的前提條件。

“從1790年美國第一次人口普查,到1946年計算機問世;從2007年iPhone第一代發(fā)布,到今日的數(shù)字孿生與人工智能,數(shù)據(jù)變得無處不在。一波又一波的標志性事件,推進著數(shù)據(jù)管理在浪潮中向前發(fā)展,從最初指尖上的負擔,到真正能為企業(yè)帶來業(yè)務(wù)價值,數(shù)據(jù)管理一直在不斷創(chuàng)新中發(fā)展。
指尖上的負擔
—(1800年以前,數(shù)據(jù)管理0.1)—
公元1790年,美利堅合眾國舉行了一次全國性人口普查,當時美國經(jīng)濟正處于迅速發(fā)展階段,人口流動十分頻繁,需要統(tǒng)計的項目繁多,如年齡、性別等,并且還要統(tǒng)計出每個社區(qū)有多少兒童和老人,有多少男性公民和女性公民等。再加上統(tǒng)計手段落后,調(diào)查員們花了7年半的時間才把數(shù)據(jù)處理完畢。也就是說,直到快進行第二次人口普查時,美國政府才能得知第一次人口普查的狀況。
調(diào)查員們終日埋在數(shù)據(jù)堆里,一天下來,也統(tǒng)計不出幾張表格的數(shù)據(jù)。這個時期數(shù)據(jù)的概念初步形成,但數(shù)據(jù)相關(guān)工作全靠手工,數(shù)據(jù)管理工作成為調(diào)查員們指尖上的沉重負擔。
圖 1 埋在數(shù)據(jù)堆里面的調(diào)查員們
卡片上的藝術(shù)
—(1800-1960年,數(shù)據(jù)管理0.2)—
美國第一次人口普查過后,Hollerith深知人工統(tǒng)計數(shù)據(jù)之痛,發(fā)明了分揀機、制表機和記錄機,用來記錄完整的數(shù)據(jù),可以說第一次把數(shù)據(jù)轉(zhuǎn)變成了二進制信息。一直到1910年-1960年代中期,打卡和制表機都是企業(yè)辦公的前提條件。1946年2月14日,第一臺計算機出世,用穿孔卡片輸入數(shù)據(jù)的方法一直沿用,數(shù)據(jù)處理也發(fā)展成為計算機的主要功能之一。
這個時期數(shù)據(jù)變成了可以存儲的計算機語言,但是計算機速度很慢,仍然需要大量的手工勞動才能運行,主要還是依靠人工處理數(shù)據(jù),數(shù)據(jù)不能長期保存,數(shù)據(jù)不能共享,數(shù)據(jù)管理工作依然難以進行。
圖 2 工作人員在操作機器
磁盤中的儲備
—(1950-1965年,數(shù)據(jù)管理0.3)—
50年代-60年代中期,主要通過文件系統(tǒng)對數(shù)據(jù)進行管理。文件系統(tǒng)是一種能夠快速檢索打卡信息的機械手段。當時適逢第二代編程語言(匯編語言)興起,程序員能使用字母表中的字母進行編程,而不是使用復雜的1和0字符串,程序初步擁有了可讀性,使程序員免于繁瑣并且容易出錯的計算,因此匯編語言成為了組織用作管理數(shù)據(jù)的早期方法。
這個時期數(shù)據(jù)主要以磁盤為存儲介質(zhì),可以初步實現(xiàn)聯(lián)機實時處理和批處理,并且數(shù)據(jù)可以長期保存,但是數(shù)據(jù)冗余多、共享性與獨立性差,仍然談不上實現(xiàn)了系統(tǒng)性的數(shù)據(jù)管理。
圖 3 用匯編語言編寫的代碼
結(jié)構(gòu)化的飛躍
—(1965-1995,數(shù)據(jù)管理0.6)—
20世紀60年代末,美國通用公司研發(fā)的第一個數(shù)據(jù)庫系統(tǒng)DBMS誕生,也標志著數(shù)據(jù)管理進入了一個新的時代。同時大容量磁盤的產(chǎn)生,讓數(shù)據(jù)能夠?qū)崿F(xiàn)大規(guī)模管理。在這個時期,一批數(shù)據(jù)庫軟件系統(tǒng)出世,數(shù)據(jù)由DBMS統(tǒng)一管理和控制,第一次實現(xiàn)了數(shù)據(jù)的結(jié)構(gòu)化,數(shù)據(jù)有了物理獨立性與邏輯獨立性,人們可以通過DBMS實現(xiàn)一致的數(shù)據(jù)處理并減少重復數(shù)據(jù)的數(shù)量。數(shù)據(jù)可以被聯(lián)機實時處理、分布處理、批處理,共享性高、冗余度低、易擴充,很大程度減少了數(shù)據(jù)管理工作人員的人工壓力,系統(tǒng)性數(shù)據(jù)管理初見端倪。
元數(shù)據(jù)的萌芽
—(1995-2000年,數(shù)據(jù)管理0.7)—
1995年3月,由OCLC(聯(lián)機計算機圖書館中心)和NCSA(美國國家超級計算應(yīng)用中心)聯(lián)合在美國的都柏林鎮(zhèn)召開的第一屆元數(shù)據(jù)研討會上,產(chǎn)生了一個精簡的元數(shù)據(jù)集——都柏林核心元素集(Dublin Core Element Set),簡稱DC。旨在用一個簡單的元數(shù)據(jù)記錄來描述種類繁多的電子信息,達到有效地描述和檢索網(wǎng)上圖書資源。
DC能較好地解決網(wǎng)絡(luò)資源的發(fā)現(xiàn)、控制和管理問題,1998年9月,因特網(wǎng)工程任務(wù)組(IETF)將其作為一個正式標準予以發(fā)布(RFC2413)。DC元數(shù)據(jù)概念的提出,為現(xiàn)代基于元數(shù)據(jù)驅(qū)動的數(shù)據(jù)管理奠定了堅實的基礎(chǔ),到此,數(shù)據(jù)管理的序幕才真正被拉開。
初步認知的建立
—(2000-2008年,數(shù)據(jù)管理0.8)—
國外學界關(guān)于“數(shù)據(jù)治理”的認識始于2004年,起因是H. Watson探討了“數(shù)據(jù)倉庫治理”在 Blue Cross 和 Blue Shield of North Carolina 兩家公司的最佳實踐,由此拉開了“數(shù)據(jù)治理”在企業(yè)管理中的大幕。同年,非營利組織DAMA協(xié)會成立,以提升數(shù)據(jù)管理行業(yè)及專業(yè)的意識和教育。
2005年之后,陸續(xù)有學者對“數(shù)據(jù)治理”展開研究,討論了數(shù)據(jù)治理環(huán)境下企業(yè)、政府、醫(yī)院的職能角色、模型、框架、因素與機制等。2008年國際標準化組織ISO又圍繞數(shù)據(jù)治理和數(shù)據(jù)管理(ISO/IEC 2008)提出差異化概念。
從這個時期開始,數(shù)據(jù)管理因其在組織內(nèi)部和外部管理數(shù)據(jù)使用上的重要性和優(yōu)勢而受到越來越多的關(guān)注,國內(nèi)外相關(guān)組織初步建立了在數(shù)據(jù)管理上的認知。
“5V”的驅(qū)動
—(2008年,數(shù)據(jù)管理0.9)—
2008年8月中旬,在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中正式提出大數(shù)據(jù)概念和大數(shù)據(jù)的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)、Veracity(真實性)。大數(shù)據(jù)和其相關(guān)概念的提出,讓數(shù)據(jù)成為公司戰(zhàn)略競爭力,驅(qū)動了各大企業(yè)在數(shù)據(jù)管理上的欲望,數(shù)據(jù)管理工作得到進一步發(fā)展。
監(jiān)管下的推進
—(2008-2016年,數(shù)據(jù)管理1.0)—
2008-2012年這段時間,國內(nèi)數(shù)據(jù)管理工作主要還是面向監(jiān)管報送系統(tǒng)的單純的數(shù)據(jù)質(zhì)量提升。以銀行為代表,為了滿足監(jiān)管報送的數(shù)據(jù)質(zhì)量要求,各大銀行都先后根據(jù)1104設(shè)計質(zhì)量檢核體系與質(zhì)量專項計劃,旨在提升報送數(shù)據(jù)質(zhì)量。
這個時期的數(shù)據(jù)管理雖然能解決和發(fā)現(xiàn)監(jiān)管上的數(shù)據(jù)質(zhì)量問題,但是由于數(shù)據(jù)管理職能在IT中是分散的,忽略了數(shù)據(jù)在更廣泛的數(shù)據(jù)環(huán)境中的關(guān)系,因此還是處于頭痛醫(yī)頭,腳痛醫(yī)腳的水平,難以從整體上提升數(shù)據(jù)質(zhì)量。隨著IT在銀行應(yīng)用的不斷深入,銀行建設(shè)了大量IT系統(tǒng)并積累了海量數(shù)據(jù),如何高效開展數(shù)據(jù)管理工作,對于公司具有重要意義。2012年7月,國際數(shù)據(jù)管理協(xié)會DAMA出版《DAMA數(shù)據(jù)管理知識體系指南》一書,一度暢銷,也進一步推進國內(nèi)數(shù)據(jù)管理走向了正軌。
系統(tǒng)中的主數(shù)據(jù)
—(2010-至今,數(shù)據(jù)管理2.0)—
隨著MIS、MRP、ERP等系統(tǒng)的產(chǎn)生,企業(yè)發(fā)現(xiàn)像客戶、產(chǎn)品、員工等這些數(shù)據(jù)總是需要在各個系統(tǒng)之間分享,最早的是外國ERP廠商推出MDM產(chǎn)品,例如Informatica、 Oracle 、IBM、SAP 、微軟都采取了自有產(chǎn)品并提供主數(shù)據(jù)管理解決方案,旨在集中管理單一版本的、完整的和可信任的主數(shù)據(jù)信息。到目前為止,還有很多企業(yè)處在這個時期,例如對于一些制造型企業(yè)來說,由于制造產(chǎn)品信息的復雜、數(shù)據(jù)量巨大、信息化程度不一,目前主數(shù)據(jù)如何管理仍是很大的挑戰(zhàn)。
倉庫中的標準
—(2012-至今,數(shù)據(jù)管理3.0)—
2008-2012年這段時間,國內(nèi)數(shù)據(jù)管理工作的重點轉(zhuǎn)向面向數(shù)據(jù)倉庫的數(shù)據(jù)標準的建立和落地。以銀行和大型企業(yè)為代表,在Inmon提出數(shù)據(jù)倉庫理論后,2010年左右,各大企業(yè)都開始了數(shù)據(jù)倉庫的建設(shè),單點解決數(shù)據(jù)質(zhì)量問題已經(jīng)不能滿足需求,需要根據(jù)數(shù)據(jù)標準規(guī)范數(shù)據(jù)倉庫上下游數(shù)據(jù),實現(xiàn)數(shù)據(jù)拉通,同時建立完善的數(shù)據(jù)管理機制,解決數(shù)據(jù)管理沒有管控流程、數(shù)據(jù)管理與業(yè)務(wù)流程結(jié)合的問題。數(shù)據(jù)管理3.0引入了數(shù)據(jù)驅(qū)動業(yè)務(wù)的原則,承認了對協(xié)作數(shù)據(jù)管理的需求,拆除了數(shù)據(jù)孤島并且將數(shù)據(jù)管理責任分散到了更多角色。
服務(wù)化與消費
—(2018-至今,數(shù)據(jù)管理4.0)—
2018年到未來2020年,數(shù)據(jù)管理的重點將放在面向數(shù)據(jù)服務(wù)化的數(shù)據(jù)消費支撐場景。以銀行、政府、公安等行業(yè)為代表,在數(shù)據(jù)質(zhì)量基本得到保障,近幾年,在元數(shù)據(jù)管理技術(shù)和平臺日益增強的背景下,大中型企業(yè)基本實現(xiàn)了自動分析數(shù)據(jù)資產(chǎn),同時能夠在二代系統(tǒng)的基礎(chǔ)上提供數(shù)據(jù)資產(chǎn)可視與數(shù)據(jù)服務(wù)化能力,數(shù)據(jù)管理由單純的內(nèi)部管理轉(zhuǎn)型為企業(yè)支撐業(yè)務(wù)數(shù)字化的必要手段。
云與人工智能
—(未來,數(shù)據(jù)管理5.0)—
一方面,隨著服務(wù)的開發(fā),許多企業(yè)開始將大部分數(shù)據(jù)存儲和處理轉(zhuǎn)移到云端。公司從傳統(tǒng)的單片架構(gòu)轉(zhuǎn)向分布式混合云架構(gòu)。云將根據(jù)需要為組織提供專用的數(shù)據(jù)管理資源,數(shù)據(jù)管理將與底層基礎(chǔ)架構(gòu)無關(guān)。它使用新協(xié)議的新形式訪問媒體邊緣和移動設(shè)備,用一種新的不斷擴展的數(shù)據(jù)結(jié)構(gòu)、容器和接口,支持數(shù)據(jù)驅(qū)動,例如自助數(shù)據(jù)準備、自助分析等。未來數(shù)據(jù)管理方面將會有新的創(chuàng)新,以滿足在這些新的混合云環(huán)境中保護和管理數(shù)據(jù)的需求。
另一方面,可以預見,在未來十年內(nèi),人工智能將幫助企業(yè)識別和分類大量存儲數(shù)據(jù),并對基本數(shù)據(jù)管理程序做出例行決策。作為數(shù)據(jù)管理的助手,人工智能將變得越來越有價值。包括處理、管理和存儲非結(jié)構(gòu)化數(shù)據(jù);去掉不相關(guān)的冗余數(shù)據(jù)、實現(xiàn)最大化數(shù)據(jù)集成、確定存儲數(shù)據(jù)的最佳位置等。
圖 4 Gartner數(shù)據(jù)與分析治理和主數(shù)據(jù)管理成熟度曲線
— 參考 —
[1]Saul Judah.Hype Cycle for Data and Analytics Governance and Master Data Management, 2019[R].America:Gartner,2019.
[2]Keith D. Foote.A Brief History of Data Management[EB/OL].https://www.dataversity.net/brief-history-data-management/,2018-03-20.
[3]Michael Hiskey.He Who Rules The Data, Rules The World: A Brief History Of Data Governance[EB/OL].https://www.forbes.com/sites/ciocentral/2017/11/16/he-who-rules-the-data-rules-the-world-a-brief-history-of-data-governance/,2017-11-16.
[4]劉桂鋒,錢錦琳,盧章平.國內(nèi)外數(shù)據(jù)治理研究進展: 內(nèi)涵、要素、模型與框架[J].圖書情報工作,2017,61(21):137-144.
[5]未知.數(shù)據(jù)處理發(fā)展的三個歷史階段[EB/OL].https://wenku.baidu.com/view/a417aa71854769eae009581b6bd97f192379bf13.html,2018-10-06.
[6]蔡春久.數(shù)據(jù)治理平臺工具前世今生[EB/OL].http://www.uml.org.cn/bigdata/201906042.asp,2019-6.
[7]清心悟道.大數(shù)據(jù)發(fā)展歷程[EB/OL].https://www.cnblogs.com/qxwd/p/5988640.html,2016-10-22.
[8]大大里.數(shù)據(jù)庫的發(fā)展歷史[EB/OL].https://baijiahao.baidu.com/s id=1591609627735692351&wfr=spider&for=pc,2018-02-06.
[9]劉宏倉.數(shù)據(jù)發(fā)展簡史[EB/OL].https://max.book118.com/html/2018/0614/172617019.shtm,2017-01-13.
來源:DG數(shù)據(jù)治理
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1阿里P8公開招聘私人生活助理事件后續(xù):當
-
2如何成為一名合格的數(shù)據(jù)架構(gòu)師?
-
3CNTC云上論壇召開,云原生成為新基建的抓
-
4里應(yīng)外合!360金融個人借貸數(shù)據(jù)每天都在
-
5數(shù)據(jù)管理簡史:從人工到人工智能
-
6貝佐斯或因亞馬遜第三方賣家數(shù)據(jù)風波被迫
-
72020大中華區(qū)艾菲獎短視頻營銷專場宣講會
-
8數(shù)據(jù)中臺領(lǐng)域重大變革:新一代阿里云數(shù)據(jù)
-
9大咖訪談(中)|提升道路交通安全,助力
-
10當數(shù)據(jù)被納入“生產(chǎn)要素”,我們離真正的