谷歌搜索這么智能?終于可以視頻搜索了
李靜怡 | 2017-03-21 14:38
【數(shù)據(jù)猿導(dǎo)讀】 只有擁有 AI 能力的企業(yè)才能在不遠(yuǎn)的未來(lái)獲得巨大收益

搜索是最先一批被人工智能深刻改變的行業(yè),這不僅僅是因?yàn)樗阉鞴荆ü雀琛俣?、微軟)跑在了AI革命的前面。本文從搜索結(jié)果、視頻搜索和精準(zhǔn)營(yíng)銷(xiāo)/SEO這三方面,為你展現(xiàn)被機(jī)器學(xué)習(xí)和深度學(xué)習(xí)改變的搜索行業(yè)。只有擁有AI能力的企業(yè)才能在不遠(yuǎn)的未來(lái)獲得巨大收益。
谷歌搜索已經(jīng)能直接告訴你答案
試試向谷歌的搜索App詢(xún)問(wèn):“地球上飛得最快的鳥(niǎo)是什么鳥(niǎo)?”,它會(huì)回答你:“游隼”。根據(jù)YouTube,游隼的最快速度達(dá)到389公里/小時(shí)。
回答正確,但這個(gè)答案不是從谷歌內(nèi)部的主要數(shù)據(jù)庫(kù)中來(lái)的。當(dāng)你問(wèn)它上述問(wèn)題時(shí),谷歌的搜索引擎會(huì)精確定位到一個(gè)YouTube視頻,這個(gè)視頻是介紹地球上飛得最快的5種鳥(niǎo)類(lèi)的,搜索引擎隨后從視頻中提取出需要的信息來(lái)回答你的問(wèn)題,并且不會(huì)提到其他4種鳥(niǎo)類(lèi)。
如果你問(wèn):“光明節(jié)有多少天?”或者“Totem持續(xù)多長(zhǎng)時(shí)間?”,谷歌搜索引擎會(huì)知道這里的Totem是指太陽(yáng)馬戲團(tuán)的演出,回答你它持續(xù)兩個(gè)半小時(shí),包括30分鐘的休息時(shí)間。
谷歌搜索App能做到像這樣回答問(wèn)題是利用了深度神經(jīng)網(wǎng)絡(luò)。深度神經(jīng)網(wǎng)絡(luò)作為人工智能的一種形式,不僅改進(jìn)了谷歌搜索引擎,甚至讓整個(gè)谷歌公司,以及Facebook、微軟等其他互聯(lián)網(wǎng)巨頭改頭換面。深度神經(jīng)網(wǎng)絡(luò)是一種模式識(shí)別系統(tǒng),能夠通過(guò)分析大量數(shù)據(jù)學(xué)習(xí)執(zhí)行特定的任務(wù)。在谷歌搜索App的例子中,深度神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)了從互聯(lián)網(wǎng)上的相關(guān)網(wǎng)頁(yè)中獲取長(zhǎng)句子或段落,然后從中提取出有關(guān)問(wèn)題答案的信息。
谷歌搜索桌面版最近應(yīng)用了這些“句子壓縮算法”(sentencecompressionalgorithms)。這些算法處理的任務(wù)對(duì)人類(lèi)來(lái)說(shuō)非常簡(jiǎn)單,但一直以來(lái)對(duì)機(jī)器來(lái)說(shuō)是相當(dāng)困難的,即自然語(yǔ)言處理任務(wù)。句子壓縮算法顯示了深度學(xué)習(xí)對(duì)自然語(yǔ)言理解的促進(jìn)作用,以及理解并回應(yīng)人類(lèi)語(yǔ)言的能力。谷歌搜索部門(mén)的產(chǎn)品經(jīng)理DavidOrr就谷歌的句子壓縮研究說(shuō):“你需要使用神經(jīng)網(wǎng)絡(luò),起碼這是我們發(fā)現(xiàn)的唯一的方法,我們使用了我們擁有的所有最先進(jìn)的技術(shù)。”
視頻搜索終成現(xiàn)實(shí)
谷歌大腦在3月8日的谷歌CloudNext17云技術(shù)大會(huì)上推出VideoIntelligenceAPI。這個(gè)API能夠識(shí)別視頻中的對(duì)象,并能夠?qū)崟r(shí)地搜索它們。
新的VideoIntelligenceAPI讓開(kāi)發(fā)者構(gòu)建可以從視頻中提取對(duì)象應(yīng)用程序。在此之前,這類(lèi)提取還只能通過(guò)圖像而不是視頻,但這個(gè)新的API實(shí)現(xiàn)了從視頻中提取對(duì)象。該API能對(duì)視頻進(jìn)行全片分析,提煉全片的故事脈絡(luò),記錄一共發(fā)生多少個(gè)場(chǎng)景,每個(gè)場(chǎng)景的清潔。這有助于對(duì)視頻進(jìn)行更精確的標(biāo)簽分類(lèi)。
谷歌視頻智能API實(shí)現(xiàn)了從視頻中提取對(duì)象
開(kāi)發(fā)者能夠利用該API構(gòu)建有創(chuàng)意的應(yīng)用程序,讓用戶(hù)能夠搜索任何與他們正在觀看的視頻內(nèi)容相關(guān)的信息。這給“觀看節(jié)目”這個(gè)詞帶來(lái)的全新的意義——當(dāng)你能夠找到你想看的節(jié)目任何方面的更深入的信息的話(huà),“觀看節(jié)目”可能就不止于觀看了。
這對(duì)于科學(xué)研究也有重大意義。數(shù)據(jù)分析和圖像處理方面的專(zhuān)家MathiasOrtner說(shuō):“測(cè)試顯示,谷歌云機(jī)器學(xué)習(xí)能夠幫助提高我們分析衛(wèi)星圖像的準(zhǔn)確性和速度,它解決了這個(gè)已有幾十年歷史的問(wèn)題。”
左:識(shí)別衛(wèi)星圖像中雪和云的區(qū)別非常困難。右:使用云機(jī)器學(xué)習(xí),能夠自動(dòng)檢測(cè)并識(shí)別到右上方的是云(紅色部分)
除了能夠從視頻中提取元數(shù)據(jù),VideoIntelligenceAPI還允許用戶(hù)標(biāo)記視頻中的場(chǎng)景變化。這些視頻接著被存儲(chǔ)在谷歌的云存儲(chǔ)平臺(tái)上。視頻分析此前是讓研究人員十分痛苦的事情,但有了機(jī)器學(xué)習(xí)的能力,谷歌的這項(xiàng)新服務(wù)能夠讓從視頻中提取數(shù)據(jù)就像處理靜態(tài)圖像一樣簡(jiǎn)單。谷歌也在推進(jìn)其使用TensorFlow框架的云機(jī)器學(xué)習(xí)引擎,以允許創(chuàng)造自定義的學(xué)習(xí)模型。
改變數(shù)字營(yíng)銷(xiāo),SEO將變得極端技術(shù)化
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)也在改變數(shù)字營(yíng)銷(xiāo)的面貌。在這股潮流當(dāng)中,谷歌無(wú)疑處于領(lǐng)頭羊的地位。再一次地,谷歌使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。谷歌曾經(jīng)公開(kāi)宣布,使用機(jī)器學(xué)習(xí)的RankBrain是其搜索引擎網(wǎng)站排名算法的第三大要素。
谷歌在2015年推出了RankBrain,RankBrain并不是算法的一部分,它的作用是了解哪種算法組合最適用于當(dāng)前類(lèi)型的搜索結(jié)果。這也意味著,對(duì)于每個(gè)搜索結(jié)果,谷歌都使用了完全不同的算法混合方式。確切地說(shuō),RankBrain在詞的水平上進(jìn)行操作,為每個(gè)搜索結(jié)果都進(jìn)行算法的個(gè)性定制。
RankBrain用于幫助處理搜索結(jié)果,特別是那些不常見(jiàn)的、復(fù)雜的多字查詢(xún)。例如,包含單詞“without”或“not”的否定搜索查詢(xún)并不常見(jiàn),RankBrain就能幫助這些搜索詞的查詢(xún)。
RankBrain還可以“看出”那些似乎沒(méi)有什么關(guān)聯(lián)的搜索之間的模式,從而了解這些搜索之間有什么相似的地方。然后,RankBrain還能將這些搜索與它認(rèn)為搜索者正在尋找的結(jié)果相關(guān)聯(lián)。谷歌有一個(gè)循環(huán)流程,讓RankBrain離線(xiàn)學(xué)習(xí)材料,然后測(cè)試它,然后在線(xiàn)使用新的版本。這種循環(huán)不斷重復(fù),RankBrain變得越來(lái)越聰明,可以更好地處理這些不尋常的搜索查詢(xún)。
RankBrain這個(gè)新型深度學(xué)習(xí)系統(tǒng)還可以學(xué)習(xí)分辨“好”網(wǎng)站長(zhǎng)什么樣,“壞”網(wǎng)站長(zhǎng)什么樣。不同的垂直領(lǐng)域具有不同的客戶(hù)關(guān)系管理方式、不同的模板和數(shù)據(jù)結(jié)構(gòu)類(lèi)型。谷歌為每一個(gè)搜索結(jié)果賦予不同的算法權(quán)重,因此每個(gè)垂直領(lǐng)域都有不同的“好”網(wǎng)站和“壞”網(wǎng)站實(shí)例。
當(dāng)RankBrain運(yùn)行時(shí),它會(huì)學(xué)習(xí)每種垂直環(huán)境中的正確“設(shè)定”是什么樣的。你或許已經(jīng)猜到,這些正確設(shè)定是什么完全取決于該設(shè)定所處于的垂直領(lǐng)域是什么樣的。例如,在醫(yī)療產(chǎn)業(yè)中,谷歌知道像WebMD.com這樣的網(wǎng)站聲譽(yù)良好,并會(huì)把這樣的網(wǎng)站放在其搜索索引的頂部位置。而任何結(jié)構(gòu)上與WebMD網(wǎng)站相似的網(wǎng)站,也會(huì)被歸類(lèi)到“好”網(wǎng)站的類(lèi)別中。類(lèi)似的,那些與已知的醫(yī)療領(lǐng)域垃圾網(wǎng)站結(jié)構(gòu)相似的網(wǎng)站則會(huì)被歸為“壞”網(wǎng)站的類(lèi)別。
對(duì)于那些包含了許多不同類(lèi)別的網(wǎng)站,比如How-To型網(wǎng)站,為了避免深度學(xué)習(xí)方法崩潰,谷歌可能會(huì)使用看起來(lái)隨機(jī)的數(shù)據(jù)——當(dāng)然,這只是一種可能。它可能從眾多類(lèi)別中選擇這個(gè)類(lèi)別,也可能選擇另一個(gè)類(lèi)別。對(duì)于像Wikipedia這樣的著名網(wǎng)站來(lái)說(shuō),谷歌可能完全不采取任何分類(lèi)過(guò)程,這也是為了確保深度學(xué)習(xí)過(guò)程不會(huì)打擾用戶(hù)既有的搜索體驗(yàn)(因?yàn)榫S基這樣的大網(wǎng)站不太可能產(chǎn)生壞網(wǎng)頁(yè))。
谷歌設(shè)計(jì)RankBrain的目的是讓人沒(méi)有辦法再“鉆空子”。沒(méi)有了黑帽戰(zhàn)略來(lái)?yè)鬜ankBrain,谷歌就能以此強(qiáng)制讓網(wǎng)站所有者提升他們網(wǎng)站的用戶(hù)友好度。用戶(hù)看到的結(jié)果就是,對(duì)垃圾郵件網(wǎng)站的打擊力度更大了。此外,更智能的搜索引擎能夠了解哪些網(wǎng)站將在設(shè)備上正常顯示,并將這些結(jié)果傳遞到相應(yīng)的屏幕尺寸上面。也就是說(shuō),你還能看到更好的設(shè)備集成和基于所使用的設(shè)備類(lèi)型得到更好的搜索結(jié)果。
SEO領(lǐng)域?qū)⒗^續(xù)變得極端技術(shù)化。分析和大數(shù)據(jù)是今日的王道,那些對(duì)這些方法尚不熟悉的SEO必須盡快趕上,而那些已經(jīng)擁有這些能力的SEO有希望未來(lái)獲得巨大收益。
深度學(xué)習(xí)的“金數(shù)據(jù)”和“銀數(shù)據(jù)”,商業(yè)模式迭代創(chuàng)新的殺手锏
盡管機(jī)器學(xué)習(xí)和深度學(xué)習(xí)讓谷歌在搜索的各種方面都變得更加智能,但是,仍然存在難以跨越的障礙。
為了讓谷歌搜索自動(dòng)給出答案,谷歌組織了一個(gè)由大量語(yǔ)言學(xué)博士組成團(tuán)隊(duì),它把這支團(tuán)隊(duì)稱(chēng)為“Pygmalion”,使用這些語(yǔ)言學(xué)家人工篩選的數(shù)據(jù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。實(shí)際上,谷歌的機(jī)器通過(guò)觀察人類(lèi)的做法來(lái)學(xué)習(xí)如何從長(zhǎng)段落中提取相關(guān)答案,這個(gè)過(guò)程需要重復(fù)多遍,相當(dāng)漫長(zhǎng)。這些艱苦的努力表明了深度學(xué)習(xí)的能力和局限性。為了訓(xùn)練像這樣的人工智能系統(tǒng),需要大量的、由專(zhuān)業(yè)人士篩選過(guò)的數(shù)據(jù)。這些數(shù)據(jù)不容易得到,也不便宜,而且對(duì)這種數(shù)據(jù)的需求不會(huì)很快消失。
谷歌的這支語(yǔ)言學(xué)博士團(tuán)隊(duì)不僅做句子壓縮的示范,而且要標(biāo)記詞類(lèi)以幫助神經(jīng)網(wǎng)絡(luò)理解人類(lèi)語(yǔ)言。Pygmalion團(tuán)隊(duì)包括了來(lái)自全球各地的約100名語(yǔ)言學(xué)博士,這支團(tuán)隊(duì)處理過(guò)的數(shù)據(jù)也被稱(chēng)為“金數(shù)據(jù)”(GoldData)。相比之下,新聞報(bào)道等沒(méi)有處理過(guò)的數(shù)據(jù)則被稱(chēng)為“銀數(shù)據(jù)”(SilverData)。銀數(shù)據(jù)當(dāng)然是有用處的,因?yàn)槠鋽?shù)量非常大。但金數(shù)據(jù)是必不可少的。當(dāng)前谷歌Pygmalion團(tuán)隊(duì)使用的語(yǔ)言有20至30種。Pygmalion團(tuán)隊(duì)的負(fù)責(zé)人LinneHa也表示,這支團(tuán)隊(duì)還將繼續(xù)擴(kuò)大。
我們知道,使用無(wú)監(jiān)督學(xué)習(xí),機(jī)器可以從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí),谷歌、Facebook等公司也已經(jīng)開(kāi)始這方面的研究。雖然仍有很長(zhǎng)很長(zhǎng)的路要走,但人工智能正在重塑搜索行業(yè)的面貌,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)已經(jīng)能讓搜索引擎直接告訴我們答案,讓視頻搜索成為現(xiàn)實(shí)。
正如上文所說(shuō),那些對(duì)這些方法尚不熟悉的公司必須盡快趕上,而那些已經(jīng)擁有這些能力的企業(yè)則將在不遠(yuǎn)的未來(lái)獲得巨大收益。
來(lái)源:trendintech
刷新相關(guān)文章
我要評(píng)論
人物專(zhuān)訪more >
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車(chē)
-
4數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新