中國工程院院士鄔賀銓:大數(shù)據(jù)是博大精深的
鄔賀銓 | 2016-05-25 13:50
【數(shù)據(jù)猿導(dǎo)讀】 在數(shù)博會“第一屆大數(shù)據(jù)科學(xué)與工程國際會議上,中國工程院院士鄔賀銓發(fā)表了以《大數(shù)據(jù)之博大精深》為主題的演講。他說,大數(shù)據(jù)不僅是數(shù)據(jù)的量的龐大,而且是多維度與代表性,但大數(shù)據(jù)不能以大蓋全,大數(shù)據(jù)是已發(fā)生事件規(guī)律的總結(jié)

5月25日,中國工程院院士鄔賀銓在數(shù)博會“第一屆大數(shù)據(jù)科學(xué)與工程國際會議(2016)——大數(shù)據(jù)科學(xué)認(rèn)識與理解”論壇上發(fā)表《大數(shù)據(jù)之博大精深》為主題的演講。他說,大數(shù)據(jù)不僅是數(shù)據(jù)的量的龐大,而且是多維度與代表性,但大數(shù)據(jù)不能以大蓋全,大數(shù)據(jù)是已發(fā)生事件規(guī)律的總結(jié),同時(shí),大數(shù)據(jù)追求數(shù)據(jù)精準(zhǔn),而且強(qiáng)調(diào)規(guī)律,大數(shù)據(jù)的“深”又在于大數(shù)據(jù)的分析不僅需要大量的數(shù)據(jù)而且需要建立模型。
鄔賀銓說,大數(shù)據(jù)具有多個(gè)來源,其中包括社會空間數(shù)據(jù)、物理空間數(shù)據(jù)、信息空間數(shù)據(jù)三個(gè)方面。分局分類可以分為國家安全數(shù)據(jù)、商業(yè)秘密數(shù)據(jù)、個(gè)人隱私數(shù)據(jù),但其中只有部分?jǐn)?shù)據(jù)是開放的。從結(jié)構(gòu)上來看,大數(shù)據(jù)可分成結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化,其中,非結(jié)構(gòu)化,是不能用表格來表示的數(shù)據(jù)。
鄔賀銓說,大數(shù)據(jù)具有增長性、長期性、顆粒性、移動性、多維性、語義性、隱私性等特點(diǎn),以醫(yī)療大數(shù)據(jù)為例,中國一個(gè)千萬人口的城市50年所累計(jì)的醫(yī)療數(shù)據(jù)量就會達(dá)到10PB級。每天都會有大量的數(shù)據(jù)導(dǎo)入?yún)^(qū)域醫(yī)療數(shù)據(jù)中心,其中,門急診患者的數(shù)據(jù)保存不得少于15年,疏遠(yuǎn)數(shù)據(jù)保存30年,影像數(shù)據(jù)無限期保存。這些數(shù)據(jù)通常需要帶有時(shí)間、位置、環(huán)境和含著病史及家族史等信息,即數(shù)據(jù)的移動性,而這些醫(yī)療數(shù)據(jù)把患者、醫(yī)生、醫(yī)療機(jī)構(gòu)在不同層次上關(guān)聯(lián),體現(xiàn)了它的多維性,存儲需要加入語義標(biāo)簽,對影像的理解需要有更專業(yè)經(jīng)驗(yàn),即語義性,而這些醫(yī)療數(shù)據(jù)涉及患者隱私,即大數(shù)據(jù)的隱私性。
鄔賀銓說,大數(shù)據(jù)的量是非常的大的,2020年人類的數(shù)據(jù)量可能會到40ZB,裝到光盤上,重量可以裝幾十艘現(xiàn)在美國的“尼克茲航母”。比如說,政務(wù)大數(shù)據(jù),一個(gè)8M攝象頭每小時(shí)產(chǎn)生3.6GB,很多城市的攝象頭多達(dá)幾十萬個(gè),一個(gè)月的數(shù)據(jù)量達(dá)到數(shù)百PB,若需保存3個(gè)月則存儲量達(dá)到EB量級。比如北京公交,公交一卡通每天4千萬人次,地鐵1千萬人次,北京交通中心每天數(shù)據(jù)增量30GB,存儲量20TB。比如法院系統(tǒng)大數(shù)據(jù),一個(gè)8M攝象頭每小時(shí)產(chǎn)生3.6GB,很多城市的攝象頭多達(dá)幾十萬個(gè),一個(gè)月的數(shù)據(jù)量達(dá)到數(shù)百PB,若需保存3個(gè)月則存儲量達(dá)到EB量級。
同時(shí),鄔賀銓說,大數(shù)據(jù)只有大于一定量時(shí)才有用,但大數(shù)據(jù)不僅是數(shù)據(jù)大,而且是多維度與具有代表性。麥肯錫曾評價(jià)大數(shù)據(jù)價(jià)值堪比石油,但礦產(chǎn)資源因兒科再生通常會隨時(shí)間而增值,信息資產(chǎn)隨著互聯(lián)網(wǎng)發(fā)展會越來越多但折舊很快。大數(shù)據(jù)不能以大蓋全,大數(shù)據(jù)是已發(fā)生事件規(guī)律的總結(jié),能否用于預(yù)測取決于后續(xù)事件的發(fā)展有無新的重大因素影響。比如,谷歌公司,根據(jù)美國阿特蘭大中部地區(qū)2008年春夏之交有關(guān)流感的搜索詞頻率異常長生而成功判斷機(jī)降爆發(fā)流感,但流感疫情的前兆與有關(guān)流感搜索詞突發(fā)的相關(guān)性的逆命題并不成立,導(dǎo)致谷歌對2012年底美國流感的預(yù)測結(jié)果比實(shí)際情況過分夸大。這不是大數(shù)據(jù)的失效,如果谷歌內(nèi)容能更多關(guān)注和收集搜索引擎之外的大數(shù)據(jù)就更好。
提到大數(shù)據(jù)的“精”,鄔賀銓說,通常指的是大數(shù)據(jù)追求數(shù)據(jù)精準(zhǔn)但強(qiáng)調(diào)規(guī)律,這應(yīng)理解為對于一個(gè)人大數(shù)據(jù)集而言,我們很難要求所有數(shù)據(jù)都精準(zhǔn),都只需要大多數(shù)數(shù)據(jù)有代表性,這并不妨礙數(shù)據(jù)集合得到較為準(zhǔn)確的結(jié)果。比如,谷歌的無人駕駛汽車牌照,利用傳感器、雷達(dá)、導(dǎo)航系統(tǒng)、數(shù)據(jù)地圖、實(shí)時(shí)街景數(shù)據(jù)和大數(shù)據(jù)分析等技術(shù)支撐無人駕駛車,這個(gè)精度要求面積,它通過大數(shù)據(jù)進(jìn)行掃街掃出來的地圖,比百度地圖精確度高得多,這要求非常精密。
鄔賀銓還說,大數(shù)據(jù)可以提高分析精度。最近十年,語音識別錯(cuò)誤率和機(jī)器翻譯的準(zhǔn)確性都成倍改進(jìn),其中20%的貢獻(xiàn)來自方法的改進(jìn),80%則在于數(shù)據(jù)量的提升。傳統(tǒng)用OCR辦法識別文字的成功率到98%后就很難再提升,通過大量收集已知文字的照片和圖片等用于比照,識別成功率提高到99.9%。
而對于大數(shù)據(jù)之“深”,鄔賀銓認(rèn)為,這指的是大數(shù)據(jù)的分析不僅需要大量的數(shù)據(jù)而且需要建立模型。
來源:貴陽網(wǎng)
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重