中國科學院院士徐宗本:用好大數(shù)據(jù)必須具有大智慧
徐宗本 | 2015-12-18 17:25
【數(shù)據(jù)猿導讀】 OFweek光通訊網(wǎng)訊 12月12日,2015中關(guān)村大數(shù)據(jù)日“共享共融數(shù)創(chuàng)未來”主題峰會在北京中關(guān)村國家自主創(chuàng)新示范區(qū)會議中心舉行,在當天上午的主題峰會上,中國科學院院士徐宗本做了主題為“用好大數(shù)據(jù)必須具有大智慧”的主旨演講

OFweek光通訊網(wǎng)訊 12月12日,2015中關(guān)村大數(shù)據(jù)日“共享共融數(shù)創(chuàng)未來”主題峰會在北京中關(guān)村國家自主創(chuàng)新示范區(qū)會議中心舉行,在當天上午的主題峰會上,中國科學院院士徐宗本做了主題為“用好大數(shù)據(jù)必須具有大智慧”的主旨演講。
中國科學院院士徐宗本
以下為徐宗本發(fā)言實錄:
各位領(lǐng)導、各位同仁,剛才成果發(fā)布無疑給大家展示一件事情,大數(shù)據(jù)確實能干很多很多的事情,有另外一句話說大數(shù)據(jù)的確具有大價值,但是最近也不能不說,有很多人在說另外一句話,叫大數(shù)據(jù)也有大忽悠的一面,所以我的標題就取成了中道,中庸之道,大數(shù)據(jù)確實有大價值,但是大數(shù)據(jù)用得不好就是大忽悠,所以我的結(jié)論是用大數(shù)據(jù)是大智慧,但是要用好大數(shù)據(jù)必須具有大智慧。
從國家層面深刻認識到大數(shù)據(jù)的 價值意義所在,問題在于我們大家怎么辦?我的發(fā)言說三句話,理性認識數(shù)據(jù)、準確把握機遇和科學應對挑戰(zhàn)。我把我的中心語放在第三部分。
數(shù)據(jù)里面有太多的誤區(qū)需要澄清,否則我們就以為數(shù)據(jù)是萬能什么都能干,其實我的 結(jié)論是告訴大家,數(shù)據(jù)也并不是萬能的。大家都知道什么叫數(shù)據(jù)?數(shù)據(jù)其實就是社會活動的這些資料的數(shù)字化,用標準的科學術(shù)語上講,數(shù)據(jù)就是指具有編碼形式的信息載體,好記的話就叫資料數(shù)字化形式。
什么叫大數(shù)據(jù),就在數(shù)據(jù)前加了一個大,不是全部,大數(shù)據(jù)基本上是說是大而復雜的數(shù)據(jù),復雜是什么?復雜泛泛地說四大基本特征,第一,海量性。第二,確實是具有時變性,第三,集構(gòu)性。第四,分布性。大而復雜的數(shù)據(jù)才叫大數(shù)據(jù)。
什么叫大?一個誤區(qū)。我給大家展示一個圖,這是關(guān)于生活片斷,假定積攢了20年,再過了五年,慢慢有了樣子東西出來,這個時候只有很少數(shù)人看得出來,如果再積攢5年,大家看到,它就是個大象的輪廓,這個數(shù)據(jù)再積攢五年,不僅看到輪廓也看到上面的編碼甚至更多的細節(jié)。這件事情告訴我們,數(shù)據(jù)在積累過程中間有一個從量變到質(zhì)變的轉(zhuǎn)變過程,這個點使得數(shù)據(jù)積累達到這么一個程度,我們叫做大數(shù)據(jù)臨界點,超過臨界點意味著我們通過數(shù)據(jù)對它背后的故事能夠說出一二,大數(shù)據(jù)的臨界點。
大數(shù)據(jù)是指超過臨界點的數(shù)據(jù)叫大數(shù)據(jù),不僅僅是指存儲量太大太大的那個叫大數(shù)據(jù),那是一個誤區(qū)需要注意。所以大數(shù)據(jù)兩件事情必須記住,第一,對于決策問題而言。第二,大是個相對,我想這兩件事情給大家做一個交代。
大數(shù)據(jù)之所以有用數(shù)據(jù)積累到一定程度,集散能力提高,這件事情加在一起就變得非常有用。到底價值在哪兒?今天早上有很多 領(lǐng)導講過了,概括說主要提供社會科學的方法論、形成高新科技新領(lǐng)域,形成社會進步新引擎,每一部分都能挖掘下去,我特別同意馬校長講的一句話,提供科學的方法論,使得科學決策變到基于事實的決策,變得客觀的決策,人治、法治的概念,提供廣泛遵循,被所有人接受的方法論,這是大數(shù)據(jù)真正魅力所在。
大數(shù)據(jù)當然是很重要,另外我希望認識上,大數(shù)據(jù)到底是一個過眼煙云的技術(shù)還是一個永恒的技術(shù),剛才講了很多詞,叫物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、大數(shù)據(jù)、移動互聯(lián)網(wǎng),我們簡稱為物大云移。分析這幾個技術(shù),你會發(fā)現(xiàn),物聯(lián)網(wǎng)講人、機器環(huán)境怎么交互?;ヂ?lián)網(wǎng)云計算或者云存儲講的基礎設施,大數(shù)據(jù)講什么?大數(shù)據(jù)講的是機器和機器、機器和人發(fā)生的交互,信息處理基本形式,所以說大數(shù)據(jù)是在從信息技術(shù)的底層含義來捕捉信息化的共性基礎和未來發(fā)展趨勢。從這個意義上講,大數(shù)據(jù)技術(shù)是一個底層技術(shù),基礎性、內(nèi)蘊性、普適性可以給它助力。
第二,機遇。成果發(fā)布這么多,這一部分不必要講,我反過來說管理機遇、產(chǎn)業(yè)機遇、科學研究機遇、學科發(fā)展機遇,我在大學當然關(guān)注學科發(fā)展機遇,一會做結(jié)論。傳統(tǒng)所熟悉的統(tǒng)計學,傳統(tǒng)統(tǒng)計計算科學面臨大的改革和挑戰(zhàn)這才是大學服務于社會,大學用于培養(yǎng)真正適應于大眾創(chuàng)業(yè)、萬眾創(chuàng)新的人才第一個切入點。
我講的另外一個方面,我們到底挑戰(zhàn)在哪兒?其實半年前我在中國科學報對我一個采訪,大家記得有一篇文章寫的我的觀點,大數(shù)據(jù)產(chǎn)業(yè)需冷熱結(jié)合。這篇文章基本觀點,大家對大數(shù)據(jù)有很高的熱情,適應大數(shù)據(jù)的潮流,但是確確實實需要冷靜認識它能帶來什么。我先說說這件事情。
先說我們大數(shù)據(jù),挑戰(zhàn)在哪兒?我們首先看一看,我們對數(shù)據(jù)很熟悉的以后基礎在哪兒?我們都知道,統(tǒng)計學是作為數(shù)據(jù)分析和處理的相當微積分的概念,這個概念是個什么概念?什么叫統(tǒng)計學,首先處理的是抽樣數(shù)據(jù),既然是抽樣數(shù)據(jù),當然 都會假設,ID,意思就是說獨立同分部,大家按照公正性原則、簡便性原則等等抽樣出來的數(shù)據(jù),這是第一。
第二,我怎么來做推論呢?做推論是基于當我所說的這個事情能夠重復無限次而得到穩(wěn)定分布的結(jié)果來作為推斷依據(jù),概括一句話,什么叫統(tǒng)計學方法,傳統(tǒng)的統(tǒng)計學方法是以抽樣數(shù)據(jù)為對象,以極限分布為基礎的數(shù)據(jù)分析方法。但是注意,這種分析方法大數(shù)據(jù)時代完全顛覆不成,首先我們的數(shù)據(jù)是個自然數(shù)據(jù),不具有IID特性,第二,我這個數(shù)據(jù)既大同時又有決策結(jié)構(gòu)不夠,讓它重復一千次不可能,數(shù)據(jù)用機器學習方法、輔助學習方法得出結(jié)論,大數(shù)據(jù)是沒有成型的方法,大家不要覺得我們現(xiàn)在有那么成功案例,并不是說它完全成熟,我在那篇文章中間有一個基本觀點講,大數(shù)據(jù)和其它產(chǎn)業(yè)轉(zhuǎn)化不一樣,是理論、技術(shù),產(chǎn)業(yè)伴生的產(chǎn)業(yè)形態(tài),產(chǎn)業(yè)形態(tài)是完整性的產(chǎn)業(yè)形態(tài),不同于其它的產(chǎn)業(yè)形態(tài)。
帶來什么后果?前些年大家看了很多書,這些書傳遞了一些是事而非的概念,我從嚴格意義上講。比如說既然樣本很大,樣本就等于母體,樣本是離散世界,母體是指從離散事件歸于哪一個總類是母體,既然數(shù)據(jù)這么之大,相多的人認為不需要考慮母體,樣本本身等于母體,對嗎?孩子再多沒有父母可能嗎,這是第一個認識。
第二,查詢推斷,現(xiàn)在看病要依賴醫(yī)生水平,十年之后如果醫(yī)療數(shù)字化什么都做完了,未來看病模式是當你病人來了之后,護士帶你查查血脂,查血壓,測完之后,計算機看我有沒有一樣的情況,這叫查詢處理問題,請問用查詢就可以代替推理嗎?查詢基礎在哪兒?我們都知道查詢就相當于高等學校連續(xù)函數(shù),X接近于X0,Y等于Y0,離散世界給你再多,你能知道后面連續(xù)。
還有大數(shù)據(jù)不需要理論了,對嗎?注意,這很多很多的認識,我從科學意義上跟大家說,請大家關(guān)注這些問題都有相當多的誤導成分,有它的對的一面但是也有誤導的成分。
咱不講哲學,認識論,講講技術(shù)本身。技術(shù)上能破壞我們什么東西嗎?我們真的大數(shù)據(jù)技術(shù)成熟了嗎?告訴大家,非也,差得很遠,挑戰(zhàn)在哪兒?真正挑戰(zhàn)三個方面,第一,分析基礎破壞。第二,計算技術(shù)必須重新革新,無論是存儲到語言到計算方法都必須重新來過。第三,真理性難以判定,到底大數(shù)據(jù)做出來的結(jié)論對或不對誰來做上帝,我認為這是我們面臨最大的科學挑戰(zhàn)。
舉一個例子讓大家看清楚這個概念。大家看看,我們前些年做報告會講這么一個例子,谷歌利用社交媒體大數(shù)據(jù)發(fā)明了流感預測軟件,很神,但是大家請看08年發(fā)表了的文章,這個城市測了108州,100州都在做流感,為什么會錯?這就是忽悠人的一面??茖W文章的標題是對于谷歌流行軟件的拷問,副標題大數(shù)據(jù)分析的陷阱,大家都可以看出什么問題。
我們再把它分析一下,當一個產(chǎn)品能不能出廠,比如說一個藥能不能出廠,一個產(chǎn)品合格不合格,科學假設能不能被接受,在那之前要做一件事情,假設檢驗。假設檢驗什么意思?事先設置一個閾值,實驗做了以后有沒有超過閾值,請問這個閾值從哪來,統(tǒng)計學叫P檢驗或者Z值,Z值從哪來?就是這個事件出現(xiàn)無窮次,穩(wěn)步中間的一條線。
這件事情什么意思?數(shù)學上來說基于什么東西,基于叫做大數(shù)定力的東西,基于極限定理。當樣本是無窮它一定區(qū)域式分布,這件事情大數(shù)據(jù)不對,不成立,為什么?基于獨立同分部,我給大家展示一個例子,基礎不牢地動山搖,怪不得別人說大數(shù)據(jù)用不好就會成大忽悠。
我們面臨三個基本挑戰(zhàn),分析基礎必須重新建立,主要三個基礎,統(tǒng)計學基礎。第二個基礎計算理論基礎,第三個基礎邏輯基礎。剛才說查詢,這是第一個挑戰(zhàn)。第二個挑戰(zhàn),計算模式,簡單講這么一個分布特征的流數(shù)據(jù)特征用什么加固處理,用什么平臺,用什么程序語言用什么樣的計算方法,這就是最大挑戰(zhàn)。
真?zhèn)涡耘卸?。我可以詳細講每個方面的問題。我們大家很熟悉建模中間的XYZ基本變量相關(guān),大數(shù)據(jù)是不相關(guān)的等等。比如說內(nèi)生性等等,我不詳細講技術(shù)。
總的一句話,大數(shù)據(jù)面臨挑戰(zhàn)最重要的挑戰(zhàn)重構(gòu)大數(shù)據(jù)分析和統(tǒng)計學。
第二,分析處理的新型計算模式和高效計算方法。
第三,方法論依據(jù),老說科學發(fā)現(xiàn),真?zhèn)涡栽趺磁卸ǎ磺宄?/p>
這些事情,應該說這幾年都得到了廣泛的研究,尤其是大公司集中一批人做研究,哪些是我認為值得可以說一說,我認為這幾條是可以說的。
壓縮感知為代表所謂高維數(shù)據(jù)處理是成功的。神經(jīng)網(wǎng)絡為基礎的深度學習,深度學習依賴數(shù)據(jù)量,換句話說像音頻數(shù)據(jù)無疑是非常成功。
排序?qū)W習等等互聯(lián)網(wǎng)應用是成功的,這么多成功是展示成果主要原因,說實話,這件事必須冷靜必須知道是怎么回事。
高維數(shù)據(jù)的稀疏信息處理,用了20臺計算機,告訴你2分鐘算完,用了20臺計算機,18個體系,當然對這個軟件,美林集成他們軟件之中
非結(jié)構(gòu)化數(shù)據(jù),我做了一件事情,集合人的感知原理做事也是非常有意思。
我們國家做戰(zhàn)略一定關(guān)注這幾件事情,分析基礎、處理方法、真?zhèn)闻卸ā?/p>
大數(shù)據(jù)挑戰(zhàn)到底在哪兒?我在這么一個大會上傳遞一個科學家的心聲,希望大家減少盲從。其實對新技術(shù)的盲從往往是一種必然,但是只要做到清醒可以減少盲從就會化被動為主動發(fā)揮更大的效益。
盲從是什么呢?我們有幾個概念,第一基礎設施等不等于大數(shù)據(jù),我經(jīng)常跟領(lǐng)導講這個東西。我們都知道,大數(shù)據(jù)這個產(chǎn)業(yè)是什么東西?是以數(shù)據(jù)為資產(chǎn),以現(xiàn)代信息技術(shù)作為基礎設施,以數(shù)據(jù)挖掘、數(shù)據(jù)分析為創(chuàng)新要素的活動才叫大數(shù)據(jù)產(chǎn)業(yè)。
剛才說認為云計算,用大的計算機你看就是大數(shù)據(jù),告訴大家,其實大數(shù)據(jù)大部分是大家看不著的,不是這個東西,這是倉庫存了數(shù)據(jù),是重要方面,是基礎設施,就像我們建了高速路,高速路本身建起來不能產(chǎn)生GDP,要產(chǎn)生物流、人流,我認為這是一個觀念必須搞清楚,基礎設施不等于大數(shù)據(jù)。
處理不等于分析,什么叫處理?我們想做一個簡單統(tǒng)計,做一個查詢,想做一個排序及做一個比對做一個融合對齊、配準等等,這叫做數(shù)據(jù)處理或者大數(shù)據(jù)處理,它的特征是什么?用計算機的標準邏輯一步過的處理方式又叫大數(shù)據(jù)處理。又單列是分析,看看中間有沒有趨勢,數(shù)據(jù)中間有沒有共性結(jié)構(gòu),有沒有關(guān)聯(lián)數(shù)據(jù)關(guān)鍵要素在哪兒?這些問題叫分析。
分析和處理不是一回事,為了加深理解,我舉一個例子。在我們講堂里面找誰個最高的問題叫處理,但是我要找這個教室里面誰和我們田總關(guān)系最好叫分析,這不是一個類型的問題,我為什么區(qū)分這個概念,大家總覺得我們大數(shù)據(jù)技術(shù)很成熟了,不是,我們的成功在于部分處理技術(shù)的成功。你們現(xiàn)有的例子對于分析而言基本都是傳統(tǒng)方法所集,新的方法并沒有出現(xiàn)。
信息化不等于大數(shù)據(jù),今天我不講這個,我認為不必糾結(jié),真正讓數(shù)據(jù)發(fā)揮價值是全社會引起關(guān)注的事情。
我的基本結(jié)論,號召國家抓宏觀決策引導,抓行業(yè)示范重點工程,抓人才隊伍、抓大數(shù)據(jù)生態(tài)建設這是我對國家整體建設。理性認識數(shù)據(jù),正確把握數(shù)據(jù)、科學應對數(shù)據(jù),謝謝大家!
來源:微頭條
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重