中國工程院院士徐宗本:大數(shù)據(jù)的三大挑戰(zhàn)和問題
徐宗本 | 2016-04-12 13:26
【數(shù)據(jù)猿導讀】 中國工程院院士徐宗本提到,在方法論方面,大數(shù)據(jù)帶來了三大挑戰(zhàn)。第一,是分析基礎;第二,計算的模式與計算方法需要推倒重來;第三,根本性判定需要條件

談論大數(shù)據(jù)是時代話題,擁有大數(shù)據(jù)是時代特征,解讀大數(shù)據(jù)是時代任務,應用大數(shù)據(jù)是時代機遇。這四句話概括出大數(shù)據(jù)時代。從本質(zhì)上說,數(shù)據(jù),就是指資料的信息化、數(shù)字化,大數(shù)據(jù)的復雜性體現(xiàn)在四個方面,第一,海量性;第二,實踐性;第三,異構性;第四,分布性。這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的四個特點。什么是大數(shù)據(jù)技術?嚴格地講,是沒有定義的。
目前,有關大數(shù)據(jù)搜集、整理、成熟、解讀或應用的技術,我們統(tǒng)稱為大數(shù)據(jù)。在日常生活中,大數(shù)據(jù)的價值到底在哪里?需要強調(diào)四個方面。
第一,提供社會科學的方法論,實現(xiàn)基于數(shù)據(jù)的決策,助推管理革命。這也正是目前大數(shù)據(jù)最熱的領域是在社會科學方面的原因所在。大數(shù)據(jù)改變了人們對文科、理科的認識。社會科學最大的問題在于沒有一個可普遍遵循的、可重復和被所有人接受的公共方法論,而利用大數(shù)據(jù),彌補了這個缺憾。
第二,形成科學研究的新范式,支持基于數(shù)據(jù)的科學發(fā)現(xiàn),減少對精確模型與假設的依賴,使過去不能解決的問題變得可能解決。也就是說,我們有一種方法能夠較小地依賴于模型和依賴于假設,形成了第四種科研范式。
第三,形成高新科技的新領域,推動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等行業(yè)深入發(fā)展,形成大數(shù)據(jù)產(chǎn)業(yè)。互聯(lián)網(wǎng)能實現(xiàn)如何把信息技術中的人、環(huán)境、機器,溝通在一起來處理問題,這是未來的發(fā)展。而大數(shù)據(jù),則是實現(xiàn)信息化的組成,換句話說,即實現(xiàn)機器和機器的交換、人和機器的交換,是以數(shù)據(jù)的形式來溝通、來交換的。
第四,大數(shù)據(jù)成為社會進步的新引擎,深刻改變?nèi)祟惖乃季S、生產(chǎn)和生活方式,推動社會變革和進步。
理性認識大數(shù)據(jù)
信息技術革命與經(jīng)濟社會活動的交融催生了大數(shù)據(jù)。大數(shù)據(jù)是經(jīng)濟社會、現(xiàn)實世界、管理決策的片斷記錄,蘊含著碎片化信息。隨著分析技術與計算技術的突破,解讀這些碎片化信息成為可能,這是大數(shù)據(jù)成為一項新的高新技術、一類新的科研范式、一種新的決策方式乃至一種文化的原由。大數(shù)據(jù)是指數(shù)量特別巨大、種類繁多、增長極快、價值稀疏的復雜數(shù)據(jù),簡而言之,是“大而復雜”的數(shù)據(jù)集。作為信息資產(chǎn),大數(shù)據(jù)的價值需要運用全新的處理思維和解譯技術來實現(xiàn)。
大數(shù)據(jù)具有大價值
大數(shù)據(jù)的價值主要通過大數(shù)據(jù)技術來實現(xiàn)。大數(shù)據(jù)技術是基礎性信息技術,它刻畫了新一代信息技術中機器與機器、機器與人之間信息交換的內(nèi)容特征,構成了現(xiàn)代信息技術的基本信息處理模式。因此,大數(shù)據(jù)從信息載體這一底層捕捉到了信息化的共性基礎、未來發(fā)展與普適技術。這說明,大數(shù)據(jù)熱潮的來臨是一種必然,大數(shù)據(jù)技術不會是過眼云煙。
科學理解大數(shù)據(jù)的“大”
數(shù)據(jù)的積累是一個從量變到質(zhì)變的過程。當數(shù)據(jù)積累不夠多時,沒有人能讀懂這些“碎片”背后的故事。但隨著數(shù)據(jù)的積累,特別是超過某個臨界值后,這些“碎片”整體所呈現(xiàn)的規(guī)律就會在一定程度上被顯現(xiàn)出來??梢哉J為,這一從量變到質(zhì)變的臨界值是區(qū)分數(shù)據(jù)“大”與“不大”的標準。所以,大數(shù)據(jù)的“大”是相對的,是與所關注的問題相關的。只有這樣理解,才能避免產(chǎn)生大數(shù)據(jù)能解決所有問題的誤讀。
科學理解大數(shù)據(jù)的“復雜”
由于具有海量性、快變性、異構性和分布性等復雜特性,大數(shù)據(jù)技術是一項不斷發(fā)展的技術,并非已經(jīng)成熟。這當然并不妨礙運用現(xiàn)有大數(shù)據(jù)技術從現(xiàn)實的各種大數(shù)據(jù)中獲得價值,但我們必須清楚:大數(shù)據(jù)的價值實現(xiàn)是無止境的,大數(shù)據(jù)理論、技術和產(chǎn)業(yè)將相伴而行。這是大數(shù)據(jù)發(fā)展的基本形態(tài)。
大數(shù)據(jù)帶來三大挑戰(zhàn)
數(shù)據(jù)的獲取是基本的,因此,數(shù)據(jù)的程序和處理是基本的。大數(shù)據(jù)的資源管理與規(guī)模,大數(shù)據(jù)高效和處理信息技術,大數(shù)據(jù)分析和處理統(tǒng)計學的計算技術,這三者中,大數(shù)據(jù)扮演的是不同的角色。
比如,大數(shù)據(jù)分析和大數(shù)據(jù)處理,兩者是有區(qū)別的。處理,如統(tǒng)計,查詢,排序,比例,融合,對齊等等,統(tǒng)稱為數(shù)據(jù)處理。數(shù)據(jù)處理的邏輯,是計算機嚴格的邏輯運算。但是,處理與分析的深層次是不一樣的,那么,大數(shù)據(jù)分析會涉及到哪些問題?比如,數(shù)據(jù)中間呈現(xiàn)了什么樣的發(fā)展趨勢,數(shù)據(jù)中間有什么共性結構,數(shù)據(jù)鏈如何關聯(lián)?數(shù)據(jù)有什么特定的模式,相互之間如何對應?如何分析?以及優(yōu)化與控制等等。這是大數(shù)據(jù)分析。因此,分析相對于處理來說,并不是邏輯運算,而是用人工智能的方式來處理。在數(shù)據(jù)分析技術上,我國目前的發(fā)展相當緩慢。有數(shù)據(jù)表明,目前全世界有4% 的大數(shù)據(jù),但是真正用來做分析的不到0.4%。
在方法論方面,大數(shù)據(jù)帶來了三大挑戰(zhàn)。第一,是分析基礎;第二,計算的模式與計算方法需要推倒重來;第三,根本性判定需要條件。依賴于樣本是獨立組成的假設,分析出來的結果可能是謬誤的。“基礎不牢,地動山搖”,就是這個道理。換句話說,如果大數(shù)據(jù)的分析技術不建立起來的話,很多的假設都是不成立的,大數(shù)據(jù)的危險性可想而知。
科學技術是關鍵,分析技術是處理辦法,根本性判定,這是當前最值得關注的三個問題。為此,需要建立的三大基礎:第一,統(tǒng)計學基礎;第二,計算理論的基礎;第三,模擬技術。
大數(shù)據(jù)的機遇是什么?最大的機遇是學科發(fā)展問題。什么叫學科發(fā)展機遇?以融合信息、數(shù)學、計算、數(shù)據(jù)為一體的數(shù)據(jù)科學正式形成。這對于大學人才的培養(yǎng),對于學科的設置等各方面將起到根本性作用。
來源:中國教育網(wǎng)絡
刷新相關文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重