清華大學林漳希:大數(shù)據(jù)的價值核心是重構(gòu)大數(shù)據(jù)
林漳希 | 2016-07-15 11:45
【數(shù)據(jù)猿導讀】 清華大學計算機工程碩士,美國德克薩斯理工大學教授林漳希在首屆中國大數(shù)據(jù)應用大會做了主題演講——《新興中的數(shù)據(jù)科學與工程》。林漳希表示,大數(shù)據(jù)重構(gòu)是大數(shù)據(jù)的價值核心

首屆中國大數(shù)據(jù)應用大會7月14—15日在四川成都世紀城國際會議中心舉行, 本屆大會主題是“大數(shù)據(jù)與智能時代”。由塔塔數(shù)據(jù)承辦、全景網(wǎng)獨家媒體支持的經(jīng)濟數(shù)據(jù)論壇今天下午開幕,清華大學計算機工程碩士,美國德克薩斯理工大學教授林漳希在論壇上做了主題演講——《新興中的數(shù)據(jù)科學與工程》。
林漳希表示,大數(shù)據(jù)重構(gòu)是大數(shù)據(jù)的價值核心,大數(shù)據(jù)最重要還是體現(xiàn)在價值上,如何把數(shù)據(jù)轉(zhuǎn)化為信息,信息轉(zhuǎn)化為知識,知識轉(zhuǎn)化為見識,見識轉(zhuǎn)化為決策,這非常重要。
林漳希還說,大數(shù)據(jù)問題要解決的核心是人才培養(yǎng),我們需要數(shù)據(jù)戰(zhàn)略家,需要數(shù)據(jù)科學家,還需要數(shù)據(jù)工程師。
清華大學計算機工程碩士,美國德克薩斯理工大學教授林漳希
以下為發(fā)言文字實錄:
謝謝大家,謝謝塔塔數(shù)據(jù)給我這個機會在這里和大家一塊交流我的體會。我今天講四個方面,第一點重新認識大數(shù)據(jù),我特別強調(diào)數(shù)據(jù)科學和數(shù)據(jù)工程,我更多從一些具體的案例分析來談,最后就是重構(gòu)大數(shù)據(jù)的價值。
從去年來看大數(shù)據(jù)的技術得到很大普及,大數(shù)據(jù)分析工具我們也知道,在數(shù)據(jù)空間范疇里,幾個數(shù)據(jù)大佬也在進行不同的合作,比如去年京東和永輝超市的合作,阿里巴巴和蘇寧易購的合作,很多地方都在跑馬圈地,可以看到各種各樣的組織、機構(gòu)成立,他們號稱這塊是我要做的事情,但是怎么樣在這塊刨出地以后種出莊稼來是很大的挑戰(zhàn),從貴安大數(shù)據(jù)做大數(shù)據(jù)交易到現(xiàn)在,大家試圖在數(shù)據(jù)方面能夠走出一條新路。
到今年現(xiàn)在面臨一個現(xiàn)實的大問題,我們開發(fā)了那么多技術,有那么多好算法,囤積了那么多數(shù)據(jù),那么我們怎么獲得數(shù)據(jù)資源?我曾經(jīng)和螞蟻金服的CTO聊過,我們?nèi)绻芾^續(xù)獲取更多價值,那么數(shù)據(jù)的存儲和囤積是有用的,你有數(shù)據(jù)不等于你有了一切,因為數(shù)據(jù)是在不斷變化的,你如果不生成新數(shù)據(jù)老數(shù)據(jù)價值在慢慢減低,獲取大數(shù)據(jù)價值核心是在中間五個部分,大數(shù)據(jù)探索,安全和風險預警,數(shù)據(jù)倉庫能力增強,運維和運營分析,360度全方位客戶分析。在這里面要強調(diào)數(shù)據(jù)科學和數(shù)據(jù)工程作用,數(shù)據(jù)科學實際上不算新鮮的東西,很多大學都有數(shù)據(jù)科學研究院,硅谷很多公司都成立了數(shù)據(jù)的科學部門。
怎么把數(shù)據(jù)轉(zhuǎn)化為信息,信息轉(zhuǎn)化為知識,知識轉(zhuǎn)化為見識,見識轉(zhuǎn)化為決策這非常重要,我講一個例子,北京1039交通臺樣板數(shù)據(jù),這數(shù)據(jù)非常小,通過這看看這個數(shù)據(jù)給了我們什么東西。北京市給一萬個出租車司機一人發(fā)一個手機,上面有GPS信息,最主要的信息就是汽車所在地方和時間,這兩個信息非常簡單,但是可以看出非常多的東西出來。這是在某一時刻汽車位置圖,在這個位置圖上,如果在下一個時刻汽車移動多少,距離÷時間就是速度,由此可以看到車行速度,汽車分布和密集度,同時對車活動范疇也可以看得比較清楚。
由此在這個基礎上可以作出很多導航的結(jié)果,還有如何優(yōu)化公共交通,還有車輛異常行為也可以監(jiān)控,另外對社會安全動態(tài)也可以進行動態(tài)監(jiān)測,車輛保險等等,還有電子商務,廣告等等都可以跟進。如果落實到每一個車,再細到誰在開車,再細到車輛的狀況,把這些放到一塊里面的價值非常大,所以交通大數(shù)據(jù)一直是國內(nèi)關注的問題,但是問題是除了現(xiàn)在用的百度地圖,高德地圖之外,這些數(shù)據(jù)到底起什么作用呢?清華同方在成都有分公司,就是在做車聯(lián)網(wǎng)和保險上的關聯(lián),上海通聯(lián)數(shù)據(jù)也在做這方面的工作,但是情況不得而知。
IBM上海研究院幾年前做了一個項目,肯尼亞M—Pesa是世界上最大的移動銀行系統(tǒng),當他們開始做這個項目的時候要求把這個數(shù)據(jù)做信用評估,因為肯尼亞人經(jīng)常要貸款,一般貸款不超過一百美元,怎么評估他們的信用呢?當他們拿到這個數(shù)據(jù)遇到一個很大的問題,因為他們用的大量都是非智能手機,沒有地理位置,只有和哪一個基站相連的信息,他們花了三年時間把這個問題破解了,搞出一個不錯的模型,愿意在中國有關部門和單位進行提供。宜信在這方面做了大量工作,宜人貸去年上市背景和它們的大數(shù)據(jù)非常相關,其中一塊是和手機地理位置信息相關。
現(xiàn)在我們講的大數(shù)據(jù)和維克多在2012年那本書里面講的大數(shù)據(jù)已經(jīng)發(fā)生了潛移默化的變化,有的時候我們講的是數(shù)據(jù),有的時候是講的整個技術體系,有的時候講的是信息技術,只不過進了大數(shù)據(jù)的圈子。現(xiàn)在我們也在置疑大數(shù)據(jù),置疑的觀點是大數(shù)據(jù)時代不是因果關系而是相互關系,這個話本身就有問題,還有大數(shù)據(jù)不是隨機樣本而是全體數(shù)據(jù),實際上在有限的時間里是不可能窮盡事物全部,不可能用所有的數(shù)據(jù)進行分析。
大數(shù)據(jù)時代不是精確性,而是混雜性,這句話也是有問題的,今天我們講的是對的,明天我們會在這個基礎上進行反思,升華。
數(shù)據(jù)科學可以做什么呢?可以做數(shù)據(jù)質(zhì)量診斷和問題處理,數(shù)據(jù)資源整合和價值發(fā)現(xiàn),數(shù)據(jù)建模和模型性能評估,數(shù)據(jù)降維,商業(yè)價值實現(xiàn)。
數(shù)據(jù)工程相對提得比較少,現(xiàn)在我們發(fā)現(xiàn)數(shù)據(jù)工程越來越重要,這是美國積累多年的數(shù)據(jù)框架和方法論,上面分了很多細節(jié)的問題,在底下的兩層是和數(shù)據(jù)工程密切相關的。目前中國只有一個學校有數(shù)據(jù)科學工程碩士點,也就是清華大學,其他學校我還沒有看到。
數(shù)據(jù)湖的概念,大學里有多少學校在講數(shù)據(jù)湖呢?這個概念剛剛提出兩三年時間,而現(xiàn)在已經(jīng)很廣泛的使用了。我們有業(yè)務數(shù)據(jù)庫,通過ODS處理以后進入到加載數(shù)據(jù)倉庫,完了以后各個部門有數(shù)據(jù)集市,這些部門還分外部數(shù)據(jù),比如市場營銷部,比如銀行市場營銷部除了銀行的數(shù)據(jù)之外還會搜集其他的行業(yè)數(shù)據(jù),這些數(shù)據(jù)不會在業(yè)務數(shù)據(jù)庫里面,所以形成了本部門很混雜的數(shù)據(jù)群。在這個問題上我們面臨的問題就是你要解決大數(shù)據(jù)的問題,你要有一個存儲大數(shù)據(jù)的架構(gòu),你要先把數(shù)據(jù)體系設計好,設計完了以后才有可能把數(shù)據(jù)采集到存起來,才有可能在上面提煉到東西。
所以數(shù)據(jù)工程的內(nèi)容挺多,對于業(yè)務工作了解和基本技能要求非常高,基本技能有數(shù)據(jù)邏輯思維,數(shù)據(jù)查錯能力,計算機數(shù)據(jù)處理能力,統(tǒng)計分析和采樣技術。在數(shù)據(jù)處理上我們都有共同體會,而這種體會是大學里從來沒有學過的,現(xiàn)在大學還是沒有教這個東西,我們說游泳要有水性,做數(shù)據(jù)要有數(shù)據(jù)性,在這方面人才怎么培養(yǎng)是一個問題。
接下來就是大數(shù)據(jù)價值體系重構(gòu)問題,我們知道大數(shù)據(jù)非常有價值,價值是最重要的,我們搞了半天大數(shù)據(jù)最重要要體現(xiàn)到價值上。
這是各個行業(yè)數(shù)據(jù)科學家的比例,對數(shù)據(jù)科學家的需求在不斷的上升,未來五年需要50名有素質(zhì)的數(shù)據(jù)科學家,缺口高達19萬,還需要150萬名了解數(shù)據(jù)的高管和人員。作為一個企業(yè),我們可以問問你們的企業(yè)能夠勝任這些任務嗎?就是說你們的大數(shù)據(jù)團隊能夠勝任這些任務嗎?你的科學家和工程師,還有你的系統(tǒng)技術人員能支撐你的關鍵技術嗎?對于一家公司來講是否有能力制定數(shù)據(jù)發(fā)展戰(zhàn)略和制定企業(yè)的數(shù)據(jù)治理方案,是不是有能力把數(shù)據(jù)整合以后,而且能把整合后的資源轉(zhuǎn)化為你的生產(chǎn)力,使你的業(yè)務能力大大提高,這是一個很重要的問題,我現(xiàn)在問很多公司老總,不管在北京、上海、成都、福建都是一個共同的問題我們?nèi)比?北京也缺人,包括阿里巴巴也缺人,騰訊也缺人,得到都缺人。所以在缺人的情況下我們必須要有人做資本家,知識的資本家,我們在教育方面一定要提升,這是非常重要的問題,最終大數(shù)據(jù)的問題要解決的核心地方我個人認為是在人才培養(yǎng),我們需要數(shù)據(jù)戰(zhàn)略家,需要數(shù)據(jù)科學家,還需要數(shù)據(jù)工程師。
人才分四個梯次,這四個梯次可以用類似創(chuàng)新工廠形式來實現(xiàn),由高校提供基本人才,組織面向產(chǎn)業(yè)化的研究院,由創(chuàng)新實驗室成功項目可以進入新創(chuàng)企業(yè),在高地上指智庫上的人,在沙灘上的人就是愿意下海,他們對產(chǎn)業(yè)東西很了解同時和智庫有聯(lián)系,給公司提供服務咨詢的就是剛下水,跳下去游泳的就在產(chǎn)業(yè)化里面做。如果把這四個梯次都形成一個體系應該是非常好的,我們應該有這么一個體系結(jié)構(gòu),塔塔數(shù)據(jù)應該是大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟的地方是塔塔數(shù)據(jù)的位置,核心部分我們要有數(shù)據(jù)科學工程研究機構(gòu),它們不是純粹的研究機構(gòu),是面向產(chǎn)業(yè)化的研究機構(gòu),就有點像清華數(shù)據(jù)科學研究院這類性質(zhì)的,直接和企業(yè)掛鉤,同時背靠大學,同時要和其他資源對接起來。
這就是我要談的東西,謝謝大家。
來源:全景網(wǎng)
刷新相關文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重