大數(shù)據(jù)的依賴(lài):Alpha Go其實(shí)是個(gè)“笨小孩”
新華每日電訊 | 2016-06-17 10:11
【數(shù)據(jù)猿導(dǎo)讀】 香港科技大學(xué)計(jì)算機(jī)科學(xué)及工程學(xué)系講座教授兼系主任楊強(qiáng)說(shuō),說(shuō)起人工智能,很多人可能對(duì)基于大數(shù)據(jù)的人工智能很熟悉,但其實(shí)還有基于小樣本的嘗試和遷移,這也是人工智能的一種路徑

當(dāng)你用手機(jī)訂餐、購(gòu)物、打車(chē),享受著移動(dòng)互聯(lián)網(wǎng)帶來(lái)的各種便利時(shí),您的這些生活數(shù)據(jù),正為“人工智能”貢獻(xiàn)著力量。
香港科技大學(xué)計(jì)算機(jī)科學(xué)及工程學(xué)系講座教授兼系主任楊強(qiáng)說(shuō),說(shuō)起人工智能,很多人可能對(duì)基于大數(shù)據(jù)的人工智能很熟悉,但其實(shí)還有基于小樣本的嘗試和遷移,這也是人工智能的一種路徑。
楊強(qiáng)指出,擁有大數(shù)據(jù)的人畢竟是少數(shù),這樣發(fā)展下去,擁有數(shù)據(jù)越多的人,就能做出越好的人工智能產(chǎn)品,反過(guò)來(lái),因?yàn)槟芴峁└颖憬莸姆?wù),這些人又能吸引更多的用戶(hù)貢獻(xiàn)數(shù)據(jù)。如此循環(huán),就會(huì)形成一些“數(shù)據(jù)寡頭”,進(jìn)而成為“人工智能寡頭”。
“這會(huì)帶來(lái)復(fù)雜的社會(huì)問(wèn)題。從技術(shù)上來(lái)講,小樣本的遷移學(xué)習(xí)提供了一個(gè)緩解問(wèn)題的方案,可以讓初創(chuàng)公司在數(shù)據(jù)較少的領(lǐng)域也能提供人工智能的創(chuàng)新服務(wù)。”楊強(qiáng)說(shuō)。
大數(shù)據(jù)的依賴(lài):Alpha Go其實(shí)是個(gè)“笨小孩”
和天才的人類(lèi)棋手相比,戰(zhàn)勝李世石的AlphaGo其實(shí)是個(gè)“笨小孩”,它觀摩和訓(xùn)練的棋局?jǐn)?shù)以千萬(wàn)計(jì),勝在了“勤能補(bǔ)拙”。
AlphaGo結(jié)合了深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和蒙特卡洛樹(shù)搜索這三種算法,其中最主要的原理是深度學(xué)習(xí)。所謂深度學(xué)習(xí),即搭建多層的人工神經(jīng)網(wǎng)絡(luò),通過(guò)輸入大數(shù)據(jù)來(lái)訓(xùn)練它的方法。圍棋的大數(shù)據(jù)約從2000年開(kāi)始積累,人們上網(wǎng)對(duì)弈的無(wú)數(shù)棋局逐漸匯聚成了人工智能的“啟蒙教材”。
事實(shí)上,目前各種風(fēng)頭正勁的人工智能應(yīng)用,都離不開(kāi)基于大數(shù)據(jù)的深度學(xué)習(xí)。不過(guò),楊強(qiáng)指出,數(shù)據(jù)需求量太大正是目前人工智能的一個(gè)顯著缺點(diǎn)。因?yàn)樯疃葘W(xué)習(xí)必須具備大數(shù)據(jù),而經(jīng)過(guò)學(xué)習(xí)訓(xùn)練后的知識(shí)又很難遷移到新的領(lǐng)域,這也導(dǎo)致了計(jì)算機(jī)學(xué)習(xí)效率不高。
深度學(xué)習(xí)還要求一個(gè)數(shù)據(jù)要對(duì)應(yīng)一個(gè)標(biāo)注,即告訴計(jì)算機(jī)一張圖片或一段語(yǔ)音是什么意思,標(biāo)注量的多少?zèng)Q定了人工智能的優(yōu)劣。“在語(yǔ)音領(lǐng)域,你能標(biāo)注1萬(wàn)小時(shí),而我能標(biāo)注7萬(wàn)小時(shí),我就比你強(qiáng)。獲得這種標(biāo)注,雖然技術(shù)含量不高,但需要投入大量的人力和時(shí)間,因此很昂貴,像谷歌、百度這些大公司都是花很多錢(qián)讓別的公司為他們標(biāo)注數(shù)據(jù)。”楊強(qiáng)說(shuō)。
擁有越多數(shù)據(jù),就擁有越多資本,而投入越多資本,又會(huì)獲得越多標(biāo)注的數(shù)據(jù)。“到時(shí),所有的人工智能創(chuàng)新將全都集中在幾家大公司手里。做不做新的技術(shù),做什么樣的新技術(shù),全由這幾家公司說(shuō)了算。”楊強(qiáng)說(shuō)。
小樣本的嘗試:不必在每個(gè)領(lǐng)域都依賴(lài)大數(shù)據(jù)從頭學(xué)起
2005年,楊強(qiáng)提出了遷移學(xué)習(xí)的概念,目標(biāo)是讓計(jì)算機(jī)把大數(shù)據(jù)領(lǐng)域習(xí)得的知識(shí)和方法遷移到數(shù)據(jù)不那么多的領(lǐng)域,這樣,計(jì)算機(jī)也可以“舉一反三”“觸類(lèi)旁通”,而不必在每個(gè)領(lǐng)域都依賴(lài)大數(shù)據(jù)從頭學(xué)起。
在此之前,美國(guó)的科學(xué)家一直在嘗試類(lèi)似“案例學(xué)習(xí)”的理論,然而發(fā)展了20多年,卻很難從實(shí)驗(yàn)室進(jìn)入工業(yè)領(lǐng)域。
2005年,微軟在其舉辦的世界數(shù)據(jù)挖掘大賽中出了一道關(guān)于搜索的題,當(dāng)時(shí)搜索正是研究界最熱的話題。“我們?nèi)①惲耍昧诉w移學(xué)習(xí)的方法,把機(jī)器在別的垂直領(lǐng)域的學(xué)習(xí)經(jīng)驗(yàn)遷移過(guò)來(lái),完成了比賽作品,結(jié)果奪得了三項(xiàng)大獎(jiǎng)的世界第一。”楊強(qiáng)回憶說(shuō)。
“我們?cè)诤D戏N植了3000株基因各不相同的小米,然后把小米的基因、生長(zhǎng)的外部環(huán)境以及收獲時(shí)的表型數(shù)據(jù),比如顆粒飽滿度、葉子寬度等,建立一個(gè)對(duì)應(yīng)的統(tǒng)計(jì)關(guān)系,并用機(jī)器學(xué)習(xí)的方法找出攜帶哪些基因的樣本生長(zhǎng)得比較好。那么,下一次,到別的地方,我們希望用更少的作物、更短的時(shí)間就找出最佳的樣本。”
“與互聯(lián)網(wǎng)短時(shí)間內(nèi)動(dòng)輒上千萬(wàn)上億的數(shù)據(jù)量相比,遷移學(xué)習(xí)非常適合這個(gè)案例,因?yàn)樵诓煌牡胤剑绻傁袢龊访嬉粯臃N植幾千、幾萬(wàn)個(gè)樣本,而且等作物成熟才能集齊數(shù)據(jù),就耗時(shí)太長(zhǎng)、花費(fèi)太大了。”楊強(qiáng)說(shuō),未來(lái)遷移學(xué)習(xí)還可以應(yīng)用在金融、醫(yī)療、客服等多個(gè)領(lǐng)域。
遷移的難點(diǎn):沒(méi)有形成一個(gè)理論模型
那么,如何做到知識(shí)遷移呢?據(jù)楊強(qiáng)介紹,首先,針對(duì)一個(gè)新領(lǐng)域,科學(xué)家要建立一個(gè)本體,本體包含概念以及這些概念之間的關(guān)系,比如瓶子和水杯關(guān)系比較近,瓶子和汽車(chē)關(guān)系比較遠(yuǎn),諸如此類(lèi),把本體輸入計(jì)算機(jī)作為原始知識(shí)庫(kù)。然后,再對(duì)比訓(xùn)練好的源領(lǐng)域和只有本體的新領(lǐng)域,找到兩個(gè)知識(shí)庫(kù)的相似之處,將源領(lǐng)域知識(shí)庫(kù)里沒(méi)用的部分去掉、有用的部分保留,就可以把一個(gè)很大的模型遷移到新的領(lǐng)域了。
楊強(qiáng)指出,遷移學(xué)習(xí)用在相近的領(lǐng)域,效果比較明顯。比如,國(guó)際象棋和中國(guó)象棋就比較相近,有部分棋子相同、走法相近,計(jì)算機(jī)學(xué)會(huì)了國(guó)際象棋,運(yùn)用遷移學(xué)習(xí)的方法,只用觀摩較少的棋局,就可以學(xué)會(huì)中國(guó)象棋。但是,象棋和圍棋就相隔較遠(yuǎn),不適宜用遷移學(xué)習(xí)的方法。
楊強(qiáng)的學(xué)生也在研究?jī)蓚€(gè)較遠(yuǎn)領(lǐng)域之間的遷移嘗試,原理就好像摸著石頭過(guò)河,兩個(gè)石塊之間距離太遠(yuǎn),一步跨不過(guò)去,就在中間再鋪墊一些石塊,多跨幾步就過(guò)去了。“其實(shí),人也是這樣,不可能學(xué)什么都一蹴而就。”楊強(qiáng)說(shuō)。
不過(guò),遷移學(xué)習(xí)目前也面臨很多困難,比如,衡量?jī)蓚€(gè)領(lǐng)域遠(yuǎn)近的標(biāo)準(zhǔn)還沒(méi)有完善;也沒(méi)有形成一個(gè)理論模型,告訴大家在運(yùn)用這項(xiàng)技術(shù)時(shí)到底去除哪部分、遷移哪部分,現(xiàn)在只能一個(gè)項(xiàng)目一個(gè)項(xiàng)目地去研究,通用性較差。對(duì)此,一些篤信深度學(xué)習(xí)的業(yè)內(nèi)人士認(rèn)為,遷移學(xué)習(xí)并不是當(dāng)前熱點(diǎn),也未必能引領(lǐng)人工智能未來(lái)的發(fā)展。
“耐心一點(diǎn),事在人為,誰(shuí)敢說(shuō)遷移學(xué)習(xí)不能給人工智能帶來(lái)美好的明天?”楊強(qiáng)說(shuō)。
來(lái)源:新華每日電訊
刷新相關(guān)文章
我要評(píng)論
人物專(zhuān)訪more >
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車(chē)
-
3數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會(huì)丨《云MSP發(fā)展白皮書(shū)》重