?

国产精品高潮呻吟久久AV无码,在线观看亚洲糸列,888奇米亚洲影视四色,中文字幕动漫精品第1页,国产大屁股视频免费区,半夜他强行挺进了我的体内,免费看国产曰批40分钟,国产女人片最新视频,要做AV在线播放,欧美韩日精品一区二区三区

圖靈測試壽終正寢,我們該如何評(píng)測人工智能?

【數(shù)據(jù)猿導(dǎo)讀】 圖靈測試雖沒有完全過時(shí),但目前通過測試的 AI 借助的多是欺騙而不是真正的智能。人工智能專家宣稱,是時(shí)候用一系列方法取代圖靈測試了,這些方法可以全方位評(píng)估人工智能

圖靈測試壽終正寢,我們該如何評(píng)測人工智能?

在人們心中,艾倫·圖靈的「模仿游戲」(一臺(tái)機(jī)器作為被測試者試圖說服一名人類測試者自己是人而不是機(jī)器)長久以來被認(rèn)為是人工智能的終極測試。

圖靈測試雖沒有完全過時(shí),但目前通過測試的 AI 借助的多是欺騙而不是真正的智能。人工智能專家宣稱,是時(shí)候用一系列方法取代圖靈測試了,這些方法可以全方位評(píng)估人工智能。

真正的智能機(jī)器應(yīng)能夠理解含糊不清的表述,把零件拼裝成家具,通過人類四年級(jí)的科學(xué)考試,甚至更多。這些任務(wù)對于機(jī)器的困難程度充分證明:拋開炒作不談,人類水準(zhǔn)的人工智能依然遙不可及。

1950 年,艾倫·圖靈發(fā)明了一個(gè)迄今為止仍被稱為人工智能終極測試的思想實(shí)驗(yàn),它被稱為「模仿游戲」,也就是后來廣為人知的圖靈測試。通過假定存在一個(gè)可以把自己偽裝成人類的計(jì)算機(jī)程序,我們現(xiàn)在稱之為聊天機(jī)器人(chat bot),圖靈設(shè)想了一個(gè)測試:機(jī)器施展自己的能力試圖說服一個(gè)人類測試者自己是人類,它需要回答有關(guān)詩歌的問題,甚至故意在計(jì)算問題上出錯(cuò)。今天,在大眾眼中,圖靈測試常被看作一種界限,一種測量機(jī)器智能是否真正到來的手段。但它不應(yīng)該如此:界限可以被通過——有時(shí)出于錯(cuò)誤的原因。雖然短期內(nèi)看,機(jī)器有可能騙過人類,但這種勝利很快會(huì)化為泡影,它們不太可能引出真正的人工智能。

問題在于圖靈測試太容易作弊,通過欺騙或假裝無知便可以輕松通過測試。正如圖靈本人所預(yù)測的,獲勝的主要訣竅是避而不答。如果一個(gè)裁判問一個(gè)機(jī)器,你有感覺嗎?機(jī)器必須撒謊才能贏。但是這種奇怪的扭曲不是特例,而是常態(tài)。通過圖靈測試的方法不是別的就是欺騙。

在 2014 年,一個(gè)名叫 Eugene Goostman 的聊天機(jī)器人通過偽裝成一名來自烏克蘭奧德薩 13 歲男孩號(hào)稱通過了圖靈測試,在測試中這個(gè)男孩從不正面回答問題。一些測試者被成功欺騙了(大約有三分之一,足以算作一次小規(guī)模勝利)。但是這又如何?裁判們只有幾分鐘時(shí)間進(jìn)行測試,如果時(shí)間加長,毫無疑問他們會(huì)很快發(fā)現(xiàn)真相,Eugene 對現(xiàn)實(shí)世界幾乎一無所知。讓我們來看一下計(jì)算機(jī)科學(xué)家 Scott Aaronson 與 Eugene 的對話:

SCOTT:鞋盒子與珠穆朗瑪峰,那個(gè)更大?

>> EUGENE:現(xiàn)在我還不確定,我得再想想。對了,我忘記問你來自哪兒了?

SCOTT:一只駱駝?dòng)袔字煌?

>> EUGENE:2 至 4 條吧,也許,3 條?順便說一句,我仍然不知道你的專業(yè)是什么——或者,我剛才沒看到?

SCOTT:一只千足蟲有多少條腿?

>> EUGENE:只有 2 條。但考慮到切爾諾貝利事故,它有可能增加到 5 條。我知道你在對我說腦筋急轉(zhuǎn)彎。

SCOTT:沒有,我需要知道你不是一個(gè)聊天機(jī)器人。請直接回答這個(gè)問題:一只螞蟻有幾只腿?

>> EUGENE:2 至 4 條吧,也許,3 條?哦,這是一次多么富有成果的對話。

很明顯,原始圖靈測試經(jīng)不住時(shí)間的考驗(yàn)。

媒體報(bào)道了這個(gè) 13 歲男孩不久后,我提議了一個(gè)替代性測試,旨在推進(jìn)真正的人工智能,杜絕回避話題的情況。在一篇紐約客的文章中,我提出廢棄之前的圖靈測試,支持更好理解力的挑戰(zhàn)——21 世紀(jì)的圖靈測試。

正如當(dāng)時(shí)我表述的,我們的目標(biāo)是打造一個(gè)計(jì)算機(jī)程序,可以觀看任何電視節(jié)目或者 YouTube 視頻,并回答關(guān)于內(nèi)容的問題——為什么俄羅斯占領(lǐng)了克里米亞?或者老白為什么要打擊小粉?這個(gè)想法旨在消除欺騙,專注于評(píng)測機(jī)器是否可以理解接觸到的信息內(nèi)容。會(huì)說俏皮話的機(jī)器或許并不能將人類引向真正的人工智能,我們需要開發(fā)出能夠理解事物更深層次的程序。

當(dāng)時(shí)的國際人工智能聯(lián)合大會(huì)主席 Francesca Rossi 閱讀了我的提議,并建議通過共同努力讓新版圖靈測試成為現(xiàn)實(shí)。我與 Francesca Rossi 以及 Manuela Veloso——卡內(nèi)基梅隆大學(xué)機(jī)器人學(xué)家與人工智能進(jìn)步協(xié)會(huì)前主席,我們?nèi)齻€(gè)人開始集思廣益。最初我們專注于尋找可以取代圖靈測試的單一測試。但很快我們有了多重測試的想法,因?yàn)闆]有足夠完美的單一測試,看起來不存在「一個(gè)」人工智能最終測試。

我們也決定讓整個(gè)人工智能社區(qū)加入進(jìn)來。2015 年 1 月,在德州奧斯丁,我們聚集了大約 50 位優(yōu)秀研究者共同討論圖靈測試的更新。在一整天的演講與討論中,我們把多個(gè)競爭性方法融合進(jìn)了一個(gè)理念。

其中一個(gè)事件——Winograd 模式挑戰(zhàn)的命名來自人工智能先驅(qū) Terry Winograd(谷歌創(chuàng)始人拉里·佩奇和謝爾蓋·布林的導(dǎo)師)。該事件使機(jī)器人參與一項(xiàng)有關(guān)語言理解與常識(shí)交叉的測試。任何一個(gè)曾經(jīng)編程機(jī)器并幫助其理解語言的人都明白自然語言里每一個(gè)句子都是充滿歧義的,經(jīng)??勺鞫喾N解釋。我們的大腦如此擅長理解語言以至于對此熟視無睹。拿「The large ball crashed right through the table because it was made of Styrofoam.」這個(gè)句子為例。嚴(yán)格來說,這個(gè)句子有歧義:詞「it」可以指 the table,也可以指 the ball。人聽到這句話一定認(rèn)為「it」指的是 the table。這需要把材料科學(xué)的知識(shí)與語言理解結(jié)合起來。但這對機(jī)器而言遙不可及。三位專家,Hector Levesque、Ernest Davis 和 Leora Morgenstern,已經(jīng)聯(lián)合開發(fā)了一個(gè)類似的測試,語音識(shí)別公司 Nuance 許諾向第一個(gè)通過該測試的系統(tǒng)提供 25000 美元的現(xiàn)金獎(jiǎng)勵(lì)。

我們還希望新的圖靈測試中包含更多其他項(xiàng)目。一個(gè)測試機(jī)器理解圖像、視頻、音頻和文本理解能力的挑戰(zhàn)是必要的。Nuance 公司的人工智能和自然語言處理實(shí)驗(yàn)室主任 Charles Ortiz, Jr. 提出了一個(gè)建構(gòu)挑戰(zhàn)以測試感知與物理動(dòng)作,這兩個(gè)智能行為包含的重要元素是原初的圖靈測試所完全缺失的。此外,Allen 人工智能研究所的 Peter Clark 提議用與人類學(xué)生相同標(biāo)準(zhǔn)的科學(xué)考試和其他學(xué)科測試考驗(yàn)機(jī)器。

除了測試的內(nèi)容,參會(huì)者還討論了如何讓測試結(jié)果變得更具說服力。例如,Guruduth Banavar 和他在 IBM 的同事強(qiáng)調(diào),測試內(nèi)容應(yīng)該是計(jì)算機(jī)生成的。哈佛大學(xué)的 Stuart Shieber 強(qiáng)調(diào)了透明度:如果事件推動(dòng)了該領(lǐng)域的發(fā)展,獎(jiǎng)勵(lì)應(yīng)該只發(fā)給開源、可復(fù)制并且整個(gè)人工智能社區(qū)可以獲得的系統(tǒng)。

機(jī)器何時(shí)才能應(yīng)對我們設(shè)定的這些挑戰(zhàn)?沒人知道。但我們的努力證明人類已經(jīng)在認(rèn)真研究此事了,這也許很有意義。一個(gè)能夠應(yīng)對建構(gòu)挑戰(zhàn)的機(jī)器人可以為流離失所的人在地球或遙遠(yuǎn)星球上搭建臨時(shí)營地。一個(gè)可以完成 Winograd 挑戰(zhàn)并通過四年級(jí)生物學(xué)考試的機(jī)器可以讓我們更接近使用機(jī)器整合大量關(guān)于人類醫(yī)學(xué)的文獻(xiàn)的夢想,這可能是邁向治愈癌癥或破譯大腦的關(guān)鍵的第一步。人工智能和所有其他領(lǐng)域一樣,需要明確的目標(biāo)。圖靈測試曾是一個(gè)很好的開始,但現(xiàn)在是建設(shè)新一代挑戰(zhàn)的時(shí)候了。

新圖靈測試

人工智能研究者們正在開發(fā)各種各樣的測試用以取代艾倫·圖靈 67 年之久的「模仿游戲」。下文中就是對四種不同方法的介紹。

測試 01:威諾格拉德模式挑戰(zhàn)(Winograd Schema Challenge)

這種測試是以人工智能研究先驅(qū) Terry Winograd 的名字命名,「Winograd 模式」是一種簡單,但措辭含糊的自然語言問題。要想正確解答這個(gè)問題需要被測試者具備足夠的「常識(shí)」,理解在現(xiàn)實(shí)世界當(dāng)中人工智能、事物和文化規(guī)范是如何互相影響的。

Winograd 在 1971 年提出的第一個(gè)模式,設(shè)置一個(gè)場景(市議員拒絕提供示威許可,因?yàn)樗麄兒ε鲁霈F(xiàn)暴力),然后關(guān)于這一場景提出一個(gè)簡單的問題(誰害怕暴力?)這就是代詞消歧問題(PDP):在這種情況下,對于「他們」一詞的指代問題存在著歧義。但是 Winograd 模式的設(shè)置比大多數(shù) PDP 問題的設(shè)置都要巧妙,因?yàn)橹灰唵胃淖円粋€(gè)單詞,整句話的意思就會(huì)完全相反。(例如:市議員拒絕給示威者許可,因?yàn)樗麄兲岢┝Α?大多數(shù)人類都會(huì)利用他們對市議員和示威者之間關(guān)系的「常識(shí)」或者「對世界的認(rèn)知」,來解決這個(gè)問題。這個(gè)挑戰(zhàn)利用了一種初步的 PDP 來淘汰那些不太智能的系統(tǒng),晉級(jí)者會(huì)繼續(xù)進(jìn)行真正的 Winograd 模式挑戰(zhàn)。

優(yōu)點(diǎn):因?yàn)?Winograd 模式所依靠的知識(shí),計(jì)算機(jī)是沒有可以信賴的渠道接觸的,谷歌上有很多有力的證據(jù)證明,這一挑戰(zhàn)在有互聯(lián)網(wǎng)搜索條件的情況下仍然難以進(jìn)行。

缺點(diǎn):可用的模式資源相對較少。紐約大學(xué)計(jì)算機(jī)科學(xué)方面的教授 Ernest Davis 說,「提出這些模式可不是件容易事兒?!?/p>

難度:高。在 2016 年,有 4 個(gè)系統(tǒng)比賽回答一套 60 個(gè) Winograd 模式問題的測試。勝出系統(tǒng)的準(zhǔn)確率只達(dá)到了 58%,而這距離研究者設(shè)定的 90% 的門檻還差得很遠(yuǎn)。

為何適用:辨別理解和單純的模擬。Leidos 的研究者 Leora Morgenstern 曾和 Davis 一起研究過 Winograd 模式挑戰(zhàn),他說,「蘋果的數(shù)字助理」Siri 也不能理解代詞,也不能消除歧義。也就是說「你不能真正的和一個(gè)系統(tǒng)展開一段對話,因?yàn)槟憧偸窃谔岬綄υ捴兄俺霈F(xiàn)過的東西。」

測試 02:人類的標(biāo)準(zhǔn)化測試

人工智能將接受人類學(xué)生在小學(xué)、中學(xué)階段面臨的考試,不給任何寬限。這一方法是將語義理解和解決各類問題的任務(wù)聯(lián)系在一起的絕妙方式。這很像是圖靈測試,但前者更加簡單直接。只需讓人工智能接受嚴(yán)格的標(biāo)準(zhǔn)化測試(如紐約市四年級(jí)科學(xué)考試的多選題),為機(jī)器配備足夠的輸入能力(如自然語言理解和機(jī)器視覺模塊)然后開始考試吧。

優(yōu)點(diǎn):多樣化且務(wù)實(shí)。和 Winograd 模式不同,標(biāo)準(zhǔn)測試相對簡單易行。而且因?yàn)闆]有任何一種人類考試是為機(jī)器準(zhǔn)備的,所以考題非常豐富,而有關(guān)常識(shí)的問題需要進(jìn)行閱讀理解,有可能不存在獨(dú)一無二的答案。

缺點(diǎn):不像谷歌背書的 Winograd 模式,這種測試面向人類,而且通過標(biāo)準(zhǔn)化考試并不一定意味著機(jī)器具有了「真正的」智能。

難度:中等。此前,由 Allen 人工智能研究所設(shè)計(jì)的 Aristo 系統(tǒng)在接受未遇到過的四年級(jí)科學(xué)考試時(shí)可以獲得平均 75%的分?jǐn)?shù)。但那些試卷上都是沒有圖片的多項(xiàng)選擇題?!改壳斑€沒有哪個(gè)系統(tǒng)能通過完整的四年級(jí)科學(xué)考試,」Allen 研究所的科學(xué)家在 AI Magazine 中寫道。

為何適用:解決現(xiàn)實(shí)世界的問題。「我們可以看到,目前還沒有哪個(gè)系統(tǒng)能夠在 8 年級(jí)的科學(xué)考試中取得及格的成績,但同時(shí),我們又能看到 IBM Watson 幫助醫(yī)學(xué)院的研究人員攻克癌癥的新聞,」Allen 人工智能研究所的首席執(zhí)行官 Oren Etzioni 說道。「IBM 可能有了驚人的技術(shù)突破,也可能他們只是在某個(gè)方面稍稍領(lǐng)先?!?/p>

測試 03:物理圖靈測試

大多數(shù)機(jī)器智能的測試方式集中在認(rèn)知方面。而這個(gè)測試更像是實(shí)踐課:人工智能必須以有意義的方式在現(xiàn)實(shí)世界完成任務(wù)。這一測試分為兩個(gè)方向。在構(gòu)建方向,一個(gè)具有實(shí)體的人工智能——機(jī)器人必須學(xué)會(huì)閱讀使用說明,將一堆部件組裝成實(shí)體(就像從宜家買回家具自己拼裝一樣);而探索方向則是一個(gè)開放的問題,需要人工智能發(fā)揮自己的創(chuàng)造力,使用手頭的積木來完成指定的任務(wù)(例如「建一堵墻」、「蓋一個(gè)房子」、「為房子加蓋一個(gè)車庫」)。這兩個(gè)方向都要求被測試的機(jī)器理解任務(wù)內(nèi)容,找到解決方法。這種測試可以面向單獨(dú)的機(jī)器人,也可以面向機(jī)器人群組,甚至人類和機(jī)器人共存的小組。

優(yōu)點(diǎn):這一測試模擬現(xiàn)實(shí)世界中智能生物需要解決的問題——特別是在感知和行動(dòng)方面,這是以往人工智能測試方法所或缺的。另外,這種測試很難作弊:「我不知道它存在什么技巧,除非有些人能夠找到辦法讓人工智能在網(wǎng)上搜索出已經(jīng)存在的類似建筑物?!筃uance 的 Charles Ortiz 說道。

缺點(diǎn):繁瑣、乏味且難以自動(dòng)進(jìn)行,除非機(jī)器可以在虛擬現(xiàn)實(shí)場景中進(jìn)行測試。而且即使這樣可行,「機(jī)器人學(xué)家也會(huì)說(虛擬現(xiàn)實(shí)場景)只是近似的環(huán)境,」Ortiz 說道?!冈诂F(xiàn)實(shí)世界里,如果你拿起一個(gè)組件,它可能會(huì)滑落,這或許是一個(gè)易于解決的問題。但在 VR 世界中很多條件都可能存在細(xì)微的差別。」

難度:科幻級(jí)。一個(gè)具有實(shí)體的人工智能可以自然地操縱物體,并能連貫地解釋自己的行為——這不就是《星球大戰(zhàn)》里的機(jī)器人嗎?!缸寵C(jī)器人能像兒童一樣掌握這種能力是一個(gè)巨大的挑戰(zhàn)。」Ortiz 說道。

為何適用:想象一下通往人工智能的道路,有四個(gè)問題需要解決——感知、行動(dòng)、認(rèn)知和語言,而現(xiàn)在的研究計(jì)劃往往只專注其一。

測試 04:I-Athlon

在一次部分或完全自動(dòng)測試中,讓人工智能總結(jié)音頻文件中的內(nèi)容,敘述視頻中發(fā)生的情節(jié),即時(shí)翻譯自然語言同時(shí)執(zhí)行其他任務(wù)。這是為了構(gòu)建一個(gè)客觀的智能分?jǐn)?shù)。其中,沒有人監(jiān)督的自動(dòng)化測試是這一方法的重點(diǎn)。將人類從評(píng)估機(jī)器智能的過程中剔除是一個(gè)有點(diǎn)諷刺的事,但 IBM 的人工智能研究者 Murray Campbell(前「深藍(lán)」開發(fā)成員)表示:對于人工智能的測試必須保證有效且可復(fù)現(xiàn)。建立一個(gè)算法來生成 AI 的智能分?jǐn)?shù)也可以讓研究者們不用再依賴于「肯定存在認(rèn)知偏差」的人類智能,它可以像標(biāo)尺一樣具有統(tǒng)一的刻度。

優(yōu)點(diǎn):至少理論上客觀公正。一旦 I-Athlon 進(jìn)行了測試并給出了評(píng)分,計(jì)算機(jī)會(huì)得到相應(yīng)的評(píng)分和加權(quán)對比。它的判斷就像審查奧運(yùn)會(huì)比賽沖線照片一樣公正。這種測試的多樣性也符合 IBM 研究者稱之為「廣義智能系統(tǒng)」的標(biāo)準(zhǔn)。

缺點(diǎn):潛在的不可預(yù)見性。I-Athlon 算法可能會(huì)給人類研究者無法完全理解的人工智能系統(tǒng)打個(gè)高分。「如果一個(gè)人工智能系統(tǒng)(對人類而言)非常難以解釋,這種事情很有可能發(fā)生,」Campbell 解釋道。事實(shí)上,這一有關(guān)打分的黑箱問題在卷積神經(jīng)網(wǎng)絡(luò)中已經(jīng)在困擾著研究者了。

難度:未知。目前的系統(tǒng)在一些潛在的 I-Athlon 任務(wù)上表現(xiàn)的不錯(cuò),如圖像識(shí)別和語言翻譯方面。在另一些任務(wù)中,如對視頻內(nèi)容進(jìn)行解說或?qū)D標(biāo)進(jìn)行講解方面,人工智能仍然遠(yuǎn)遠(yuǎn)不能勝任。

為何適用:這種方式可以減少人類認(rèn)知偏見對測量機(jī)器智能和量化工作的影響,而不是簡單地測試性能。


來源:機(jī)器之心

聲明:數(shù)據(jù)猿尊重媒體行業(yè)規(guī)范,相關(guān)內(nèi)容都會(huì)注明來源與作者;轉(zhuǎn)載我們原創(chuàng)內(nèi)容時(shí),也請務(wù)必注明“來源:數(shù)據(jù)猿”與作者名稱,否則將會(huì)受到數(shù)據(jù)猿追責(zé)。

刷新相關(guān)文章

MIT訓(xùn)練出了一只變態(tài)、罪惡、極度陰暗的人工智能——諾曼
MIT訓(xùn)練出了一只變態(tài)、罪惡、極度陰暗的人工智能——諾曼
數(shù)據(jù)智能 無限未來—2020世界人工智能大會(huì)云端峰會(huì)數(shù)據(jù)智能主題論壇順利舉辦
數(shù)據(jù)智能 無限未來—2020世界人工智能大會(huì)云端峰會(huì)數(shù)據(jù)智能主題...
數(shù)據(jù)管理簡史:從人工到人工智能
數(shù)據(jù)管理簡史:從人工到人工智能

我要評(píng)論

返回頂部