一味追求大數(shù)據(jù)是機(jī)器學(xué)習(xí)的誤區(qū)?
【數(shù)據(jù)猿導(dǎo)讀】 像谷歌這樣的大型計算公司通過將海量的標(biāo)簽訓(xùn)練數(shù)據(jù)集結(jié)到一起,已經(jīng)有能力打造強(qiáng)大的語音和圖像識別軟件。但是,如果軟件的性能要更加接近人類快速學(xué)習(xí)新技能,以及適應(yīng)不斷變化的環(huán)境的能力,那么需要更少數(shù)據(jù)量的算法就必不可少

引言:人工智能創(chuàng)業(yè)公司Geometric Intelligence 說,跟時下人工智能領(lǐng)域一系列投資背后的算法相比,他們的學(xué)習(xí)算法能更快地掌握新技能。
去年,微軟和谷歌的圖像識別算法都已表現(xiàn)出可通過學(xué)習(xí)打敗人類的能力。他們各自搭建了自己的軟件,進(jìn)行了標(biāo)準(zhǔn)測試,讓軟件識別1000張各式各樣的物體的圖片,結(jié)果超過了平均的人類得分。
但是,為了讓軟件足夠強(qiáng)大能夠?qū)谷祟?,這兩個公司的軟件都對120萬張帶標(biāo)簽的圖片進(jìn)行了仔細(xì)觀察。而對一個孩子來說,只用一張樣例圖片,就能夠識別一種新的物體。
周一,創(chuàng)業(yè)公司 Geometric Intelligence 說,他們研發(fā)了一個可以更快學(xué)習(xí)的機(jī)器學(xué)習(xí)軟件。該公司的 CEO Gary Marcus 在《MIT 科技評論》主辦的 EmTechDigital 大會上曾說,如果要學(xué)習(xí)一項新的視覺任務(wù),他們的 XProp 軟件所需要的樣品圖片數(shù)量與現(xiàn)在機(jī)器學(xué)習(xí)軟件的主流形式——即深度學(xué)習(xí)相比要少得多。
Gary Marcus
Marcus 沒有披露 XProp 的工作細(xì)節(jié),但他展示了一張將 XProp 和某個深度學(xué)習(xí)程序在一項測試中的表現(xiàn)做對比的表格,該測試的內(nèi)容是軟件學(xué)習(xí)怎樣識別手寫體數(shù)字。
表格顯示,訓(xùn)練數(shù)據(jù)越多,兩個系統(tǒng)性能就會越精確。但是在相同數(shù)量訓(xùn)練樣例的情況下, XProp 的性能表現(xiàn)得更好。
比如,XProp 學(xué)習(xí)過每個數(shù)字的大約150張手寫圖片后,識別新的數(shù)字圖片,錯誤率只有約 2%。而對深度學(xué)習(xí)算法來說,為達(dá)到同樣性能,則每個數(shù)字需要學(xué)習(xí)約 700 張樣圖。
這并不代表 XProp 一定有實(shí)際用處。識別手寫體數(shù)字差不多屬于已解決的問題了。可用來訓(xùn)練的數(shù)據(jù)很多,而用深度學(xué)習(xí)軟件得出的最好結(jié)果錯誤率已經(jīng)達(dá)到了 0.2%。Marcus 展示的數(shù)字顯示,隨著訓(xùn)練數(shù)據(jù)的增多,XProp 相比于深度學(xué)習(xí)軟件的優(yōu)勢就會下降。
但是 Marcus 說,在谷歌街景項目收集的門牌號碼照片的數(shù)據(jù)庫中,XProp 的識別結(jié)果與上面那個實(shí)驗(yàn)相似,其他的圖像識別測試中也是如此,這表明,該公司的技術(shù)可能具有廣泛的可用性。
大多數(shù)機(jī)器學(xué)習(xí)研究人員都認(rèn)為會出現(xiàn)一些能夠通過學(xué)習(xí)更少的數(shù)據(jù)運(yùn)作起來的新技術(shù)。
Marcus 說:深度學(xué)習(xí)非常需要數(shù)據(jù)——而我們的學(xué)習(xí)速度則更快,我們的軟件有時可以將所需數(shù)據(jù)量減少一半,有時甚至更多。
Marcus 是紐約大學(xué)的心理學(xué)教授,曾用幾十年時間研究兒童的學(xué)習(xí)方式。他目前最困惑的一個問題是,語音及圖像識別等由深度學(xué)習(xí)支撐的領(lǐng)域進(jìn)展是否一定會幫助理解語言等更有挑戰(zhàn)性的領(lǐng)域的進(jìn)步呢?
谷歌這樣的大型計算公司通過將海量的標(biāo)簽訓(xùn)練數(shù)據(jù)集結(jié)到一起,已經(jīng)有能力打造強(qiáng)大的語音和圖像識別軟件。Marcus 不否認(rèn)這類科技將會帶來成功的產(chǎn)品。但是,他相信,如果軟件的性能要更加接近人類快速學(xué)習(xí)新技能,以及適應(yīng)不斷變化的環(huán)境的能力,那么需要更少數(shù)據(jù)量的算法就必不可少。
我們處在大數(shù)據(jù)的時代,而且很多人覺得只要投入更多數(shù)據(jù)就能解決問題,Marcus 對 EmTech 的觀眾說,但是面對有些問題的時候,并沒有那么多數(shù)據(jù)可以提供。
他說,語言就是其中之一。人們的言語有無限種可能,將所有含義的語句歸納出來訓(xùn)練軟件是不可能實(shí)現(xiàn)的。Marcus 還提到了無人駕駛汽車的例子,機(jī)器學(xué)習(xí)算法需要大量數(shù)據(jù),在無人駕駛汽車中,這可能無法解決所有問題。
他說,如果一輛汽車必須一遍遍地體驗(yàn)環(huán)境才能掌握技能,那么用每種可能的交通和天氣情況訓(xùn)練車輛,可能耗時太長。
來源:機(jī)器之心
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重