清華大學數據科學研究院院長俞士綸:異構讓大數據將實現更多價值
【數據猿導讀】 5月25日,清華大學數據科學研究院院長俞士綸在數博會上發(fā)表了《對異構數據源的思考》的演講。俞士綸說,現在是大數據時代,一個重要的事情是我們要怎么融合不同的數據

5月25日,美國伊利諾伊大學芝加哥分校特聘主任教授、清華大學數據科學研究院院長俞士綸在數博會“第一屆大數據科學與工程國際會議——大數據科學認識與理解”論壇上發(fā)表《對異構數據源的思考》的演講。他說,大數據時代,數據可以改變很多細節(jié),我們要做的是找到有意義的數據,并融合不同的數據,將數據運用在實際的事情上。
俞士綸將數據庫比作藥品,將數據比作藥品的內部結構。我們通過研究藥的內部結構來預測這個藥的治療效果,但一個藥的內部結構只是一些有限的資訊,而如果我們制作兩個化學藥品都有相同的效果,那可以把這兩個內部結構的資訊合到一起將會得到更好的結果。這就像如果我們把來自不同的領域的數據庫和數據聯在一起,我們將可利用數據可以做出更好的預測。
俞士綸說,與這個比喻相似的是,豆瓣利用人們對于一個電影的喜愛程度,綜合這部電影和這個人以往看過電影的主演、導演、電影類型、人物性格等多種電影資訊就可以進行預測,抓住人與人之間的聯系,做出預測。但這種數據預測的效果又是因人而異的,有些人社交關系比較重要,但有些人卻沒有什么朋友,所以數據的預測要通過不同的路徑,再進行預測,就會減少誤差。
俞士綸說,當這種方法應用在治療上,一個人進行老年癡呆癥的檢查時,醫(yī)生不僅可以綜合他掃描的CT,還可以對他做的抽血檢查和以往病史等文字、圖片及影像材料進行綜合,將會得到更好的結果,這也是數據融合的例子。
俞士綸說,異構數據可能是一張圖和與之相關一段圖解,這是兩個不同的方式來表達一件事。當我們從圖和文字找到相似的地方時,我們通過圖就可以找到相關的文字描述,通過文字描述,就可以找到相關的圖片。如果將兩者聯系在一起,結果能更為準確。
俞士綸說,現在是大數據時代,一個重要的事情是我們要怎么融合不同的數據。比如氣象預測,光做預測是是根本賺不了錢的,但如果應用在具體的貨物運輸、農業(yè)等具體領域,天氣這些數據將可以改變很多細節(jié),提供更多便利,成為真正有價值的數據。所以,我們首先要了解到什么是有意義的數據,然后如何把這些數據合在一起去提供更好的服務。
來源:數據觀
我要評論
活動推薦more >
- 2018 上海國際大數據產業(yè)高2018-12-03
- 2018上海國際計算機網絡及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術峰會2018”2018-06-14