阿里大數(shù)據(jù)科學(xué)家金榕:機器人的糧食是數(shù)據(jù)
金榕 | 2016-07-27 11:14
【數(shù)據(jù)猿導(dǎo)讀】 我們正處于一個激動人心的時代,在這個時代能夠利用非常大的數(shù)據(jù),能夠利用巨大的計算能力,讓那些十年前、二十年前研發(fā)出來的算法,能夠真正發(fā)揮巨大的價值

近日,阿里巴巴大數(shù)據(jù)科學(xué)家金榕教授做了主題為《機器人的糧食是數(shù)據(jù)》的演講。金榕教授目前在阿里巴巴搜索團隊負(fù)責(zé)大數(shù)據(jù)及人工智能相關(guān)研究,擁有美國卡內(nèi)基梅隆大學(xué)博士學(xué)位,曾任美國密歇根州立大學(xué)終身教授,長期致力于統(tǒng)計機器學(xué)習(xí)研究。金榕教授曾擔(dān)任NIPS、SIGIR等頂級國際會議領(lǐng)域主席,KDD、AAAI、IJCAI等頂級會議高級程序委員會委員,獲得過美國國家科學(xué)基金會NSF Career Award。
以下為演講實錄:
大家下午好,我的名字叫金榕??赡艽蠹叶贾?,大部分阿里的員工都有花名,是吧?但是金榕是我的真名不是花名。我是2014年加入阿里的,我原先是在美國密歇根州工作了十幾年,實際上我在阿里做的工作主要是數(shù)據(jù)、智能、機器學(xué)習(xí)的事情。我們主要的產(chǎn)品是在淘寶上的個性化搜索和個性化推薦,大家如果對淘寶推薦和搜索產(chǎn)品有任何建議,歡迎跟我聯(lián)系。
今天我想說的話題,是數(shù)據(jù)和智能之間的關(guān)系。我們先看一個例子,就是汽車自動駕駛這件事情,現(xiàn)在自動駕駛已經(jīng)被炒得非常熱了,從Google最早開始推出智能駕駛的車,實際上在內(nèi)華達州已經(jīng)有了制造,到很多車廠都已經(jīng)開始做自動駕駛這件事情。可能很少人知道,這件事情也是一個非常老的話題,1994年的美國的卡內(nèi)基梅隆大學(xué)有一個項目-Alvin Project,目的就是要做一個自動駕駛的車, 1994年已經(jīng)很成功的把一個車從東海岸開到西海岸,基本上是自動駕駛的,以每小時120公里的速度開。對我來講,一個很有意思的問題,我想大家也會問,這樣一個20年前就已經(jīng)比較成型的技術(shù),為什么到現(xiàn)在真正的商業(yè)化才開始呢?對吧?當(dāng)然這個除了商業(yè)化的原因以外,實際上一個非常重要的原因是什么?就是數(shù)據(jù)的問題。
早期在做自動駕駛的時候,實際上收集的數(shù)據(jù)是非常少的,基本上只有幾十個小時的駕駛數(shù)據(jù),對復(fù)雜路況的處理能力比現(xiàn)在低很多,從安全性上講是不夠的。這就造成了為什么這樣一個技術(shù)在20年前已經(jīng)相當(dāng)成熟了,但是到今天大家才真正給它商業(yè)化、規(guī)模化,其中一個很大的原因是由于Google或者說其他的車廠有非常大的能力收集幾十萬小時的駕駛信息,而且有非常大的處理數(shù)據(jù)能力,能夠把所有的信息抽出來,能讓車在非常復(fù)雜的情況下有一個很好的處理能力。從這個意義上來講,大的數(shù)據(jù)真的是很重要的。
另外一個是AlphaGo,大家現(xiàn)在都知道Google做一個能夠下圍棋的機器人,可以自動去讀棋譜能夠跟頂尖的圍棋選手下,而且一直保持非常好的勝率。但是同樣,大家也知道下棋這件事情不是今天才發(fā)生,很早年前IBM的Deep Blue(深藍)是非常成功的例子,他制作了一套系統(tǒng)能夠跟國際最好的象棋大師做對弈。我也想提一下,所有Google在AlphaGo里面做的系統(tǒng),包括深度學(xué)習(xí)、強化學(xué)習(xí)這件事情,實際上在20年前就已經(jīng)被人在游戲上應(yīng)用了。在1996年的時候,我估計現(xiàn)場有些同學(xué)可能都還沒出生,那時候有一個系統(tǒng)叫TD(λ)的算法,有幾位科學(xué)家把這個算法應(yīng)用在一個在美國挺流行的游戲上,很快成為了世界冠軍。
這里頭最神奇的地方,跟AlphaGo比起來的話,AlphaGo還需要讀人類棋手的棋譜,從中吸取經(jīng)驗成長成為世界頂級的選手,但是對于我剛才說的TD(λ)的算法來講,當(dāng)時就是做了兩個不同版本的算法,這兩個版本自己跟自己下了150萬盤,就成了世界冠軍。某種意義上講,真的是自學(xué)成才的算法。
那么說回來,為什么說這樣一套AlphaGo的系統(tǒng)大部分的核心技術(shù)點,實際上在20年前都已經(jīng)很成熟,為什么到今天大家才把它的面紗揭開來呢?關(guān)鍵還是數(shù)據(jù)的問題,20年前我們的計算機不足以處理這么多的數(shù)據(jù),現(xiàn)在我們有了GPU可以非常有效的處理這些數(shù)據(jù)。
可能還有一個比較重要的點,大家日常都會接觸到語音識別技術(shù)。實際上語音識別技術(shù)在這幾年有一個非常突飛猛進的發(fā)展,比如智能手機就已經(jīng)開始普遍應(yīng)用語音交互。實際上語音識別技術(shù),是在六十年代開始的,有很多技術(shù)的東西其實很早的時候都有人嘗試做,但是最近兩年獲得成功,還是歸結(jié)于現(xiàn)在我們的數(shù)據(jù)處理能力和計算能力,使得它完全能夠變成更加智能化的工具。
數(shù)據(jù)有一個非常厲害的能力就是挖掘價值。我想舉個例子,這個例子就是花唄,大家可能都知道花唄的背后實際上是你的信用分,這個信用分基于你整個以前的行為,這些行為會告訴系統(tǒng)說你這個人有多大的可能還錢或者說有多大的還付能力,花唄是非常復(fù)雜的一個系統(tǒng)。把你整個所有的交易行為都形成數(shù)據(jù),然后來算這個人能借給他多少錢,償還能力如何。這個跟美國以前的信用體系有非常大的差別,完全是從數(shù)據(jù)上挖掘出你的行為,來測量你的信用有多好。
另外一方面,花唄在做信用測量的時候,另外一個很有意思的事情在客服上。很多顧客會打電話到支付寶,問為什么我的花唄分比較低?怎樣能夠把我的花唄分?jǐn)?shù)提高?這個實際上就需要這些學(xué)習(xí)智能的機器人,能夠從這個模型里面提取出有用的信息,告訴這個人怎么能夠做一些努力、做一些改變,能夠把他的花唄分最有效的生長起來。
下面我想說一個非常有意思的技術(shù),因為我意識到好像在國內(nèi)最主要的技術(shù)是深度學(xué)習(xí)這樣的技術(shù),對吧?實際上在過去的十年間,我認(rèn)為在統(tǒng)計數(shù)學(xué)產(chǎn)生了一個非常有力量的技術(shù),它的中文名是壓縮感知。這個技術(shù)是非常有趣的技術(shù),就是可以重現(xiàn)歷史。大家設(shè)想這樣一個情況,你有一個非常非常老的、破損的已經(jīng)不行了的照片,就像左邊這個照片一樣。你肯定有一個心愿,這個心愿是說有沒有一個機器可以把很破損的照片恢復(fù)的沒有瑕疵,這是大家的心愿。自從有了這么一個非常厲害的技術(shù)叫做壓縮感知,它實際上是可以把破損的照片,把它重現(xiàn)成很完美完整的照片。這是非常頂尖的幾個科學(xué)家在最近幾年做的杰出的工作帶來的成果。
有了這個技術(shù),大家會想是不是相機因為有了這個技術(shù)可以做一些改變?我不知道在座的同學(xué)知不知道,為什么我們手上拿的數(shù)字相機會這么便宜,有人知道為什么數(shù)碼相機會這么便宜嗎?其中一個非常重要的原因,我估計很少人清楚,就是數(shù)碼相機的感光材料是用硅,因為很巧,人的感光區(qū)間和硅的感光區(qū)間是差不多的,所以說硅可以成為非常好的傳感器來形成圖像。但硅做不到但是紅外的感光區(qū),而紅外感光材料非常昂貴,所有紅外或紫外相機通常都很昂貴。你要想拿到一個非常非常高清的照片是非常昂貴的。
所以現(xiàn)在有很多公司在做一件事情,就是說我可不可以用一個非常簡陋的相機來拍,但是用壓縮感知技術(shù)把它重現(xiàn)成非常好看的照片來。美國的萊斯大學(xué)正在做一個驚天動地的事情 - 單光子相機,就是把相機逼到極限,能不能只測量一個光子就可以把整個圖片完完整整的呈現(xiàn)在你的面前,這件事如果能做到,就會非常厲害。我個人覺得壓縮感知這樣的技術(shù),應(yīng)該會在以后的一些時間內(nèi)會成為一個非常非常重要的技術(shù)。
我說了這么多,有一件事情我都沒有提到,就是什么是智能,對吧?智能我想這個定義是每個人都有不同的含義,一個簡單的定義從機器學(xué)習(xí)或者是人工智能角度來看,所謂的智能是什么呢?所謂的智能就是一個決策函數(shù),這個決策函數(shù)它會有一個輸入,比如說一個照片會給出一個決策。比如說它告訴你照片的人是什么,現(xiàn)在幾乎所有的機器學(xué)習(xí)、所有的人工智能的方法,不管是AlphaGo,不管是語音識別、不管是自動駕駛幾乎都是用這個方法為基礎(chǔ)的。這個智能是我們經(jīng)常說的人工智能,實際上它跟人的智能還是有一個很大的差別,最大的差別就在于他們對數(shù)據(jù)的依賴。
大家都可以看到,小孩在學(xué)習(xí)各種技能的時候不需要教他幾千遍、幾萬遍,通常來講一個學(xué)習(xí)的過程最多幾十遍。所以人的學(xué)習(xí)可以依賴于相當(dāng)少的樣本就能學(xué)到這個知識、這個技能。但是反過來說,機器智能這種基于決策函數(shù)的學(xué)習(xí)方式,都需要一個巨大的數(shù)據(jù)支持,這就是為什么我們說的只有有了巨大的數(shù)據(jù),人工智能才會普遍運用起來。機器實際上是要學(xué)習(xí)一個函數(shù)的,而所有的數(shù)據(jù)理論都告訴你,要學(xué)好一個函數(shù),這個數(shù)據(jù)量一定是非常非常大的,這有很多所謂的不可能定義。他告訴你說,如果數(shù)據(jù)低于一定的程度,這樣的函數(shù)是不可能被學(xué)習(xí)下來的。
我總結(jié)一下,我們正處于一個激動人心的時代,在這個時代能夠利用非常大的數(shù)據(jù),能夠利用巨大的計算能力,讓那些十年前、二十年前研發(fā)出來的算法,能夠真正發(fā)揮巨大的價值。像大家看到的自動駕駛、AlphaGo等,但同時也要認(rèn)識到現(xiàn)在這樣一個基于函數(shù)技術(shù)的機器學(xué)習(xí)或者說是人工智能的方法,也有一個巨大的局限性。所有以函數(shù)技術(shù)作為基礎(chǔ)的學(xué)習(xí),一定是對樣本的數(shù)量有很大的依賴。到底我們應(yīng)該怎么去看待人在學(xué)習(xí)過程中的能力?為什么說人只要需要幾個樣本就能把一個技能學(xué)好,為什么機器學(xué)不好?從這個角度來講,我認(rèn)為現(xiàn)在的數(shù)據(jù)巨大成功同時也是給在座每一位年輕人有一個巨大的機會,這個機會也就是到底人是怎么學(xué)習(xí)的。
來源:阿里技術(shù)矩陣
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重