Facebook開源機(jī)器視覺工具,從像素點(diǎn)中發(fā)現(xiàn)規(guī)律
Piotr Dollar | 2016-09-02 12:15
【數(shù)據(jù)猿導(dǎo)讀】 當(dāng)我們?nèi)祟惪匆粡垐D片時(shí),為了分辨不同的物體,我們能細(xì)致到一個(gè)個(gè)像素的水平。在臉書的人工智能研究中心,我們正在將計(jì)算機(jī)視覺技術(shù)推向一個(gè)全新的階段——我們的目標(biāo)是讓計(jì)算機(jī)能像人類一樣,從像素的水平去分析圖像和物體

導(dǎo)讀
電腦是否能夠像人眼一樣輕松分辨出一張照片里的不同物體呢?
當(dāng)我們?nèi)祟惪匆粡垐D片時(shí),為了分辨不同的物體,我們能細(xì)致到一個(gè)個(gè)像素的水平。在臉書的人工智能研究中心(Facebook AI Research, FAIR),我們正在將計(jì)算機(jī)視覺技術(shù)推向一個(gè)全新的階段——我們的目標(biāo)是讓計(jì)算機(jī)能像人類一樣,從像素的水平去分析圖像和物體。
在過去的幾年當(dāng)里,深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展和前所未有的強(qiáng)大計(jì)算架構(gòu)的到來,已經(jīng)讓計(jì)算機(jī)視覺系統(tǒng)在精確度和計(jì)算能力方面得到了迅速提升。我們已經(jīng)見證了在圖像歸類(這張圖像中有什么?)以及物體檢測(cè)(這些物體在哪兒?)領(lǐng)域的巨大進(jìn)步。請(qǐng)參閱下圖(a)和圖(b)。但這些還只是計(jì)算機(jī)理解任意圖像或視頻中相關(guān)視覺內(nèi)容的起步階段。近期,我們正在設(shè)計(jì)一種能夠在圖像中識(shí)別和區(qū)分每一個(gè)物體的技術(shù),如下面最右邊的圖(c)所示,這是一種將會(huì)帶來全新應(yīng)用前景的關(guān)鍵性技術(shù)革新。
驅(qū)動(dòng)這項(xiàng)進(jìn)步的主要的新算法是DeepMask1分割框架加上我們的新SharpMask2分割提純模塊。同時(shí),它們使得FAIR的計(jì)算機(jī)視覺系統(tǒng)變得能夠檢測(cè)和精確地勾畫出圖像中每一個(gè)物體的輪廓。我們這項(xiàng)識(shí)別過程的最后一個(gè)階段使用了一種特殊的卷積網(wǎng)絡(luò),我們稱之為MultiPathNet3,目的是用其中包含的物體類別(例如:人、狗、羊)來標(biāo)注每一個(gè)目標(biāo)掩碼圖像。之后我們會(huì)回來簡(jiǎn)單介紹這里面的細(xì)節(jié)。
我們正在編寫DeepMask+SharpMask以及MultiPathNet的代碼,同時(shí)還有我們的研究論文和相關(guān)的演示小樣—這些資源將對(duì)所有人開放,我們希望它們能夠有助于計(jì)算機(jī)視覺領(lǐng)域的快速進(jìn)步。在我們繼續(xù)改進(jìn)這些核心技術(shù)的同時(shí),我們也將繼續(xù)發(fā)表我們最新的成果,并且不斷更新我們面向大眾開放的一系列開源工具。
從像素點(diǎn)中發(fā)現(xiàn)規(guī)律
讓我們一起來看看這些算法的建立基礎(chǔ)。
請(qǐng)看下面的第一張圖(左圖)。你看到了什么?一個(gè)攝影師正在操作他的老式相機(jī)。一塊大草坪。背景當(dāng)中的建筑物。同時(shí)你也可能注意到了無數(shù)其他的細(xì)節(jié)。但計(jì)算機(jī)看不到這些:一張圖像被編碼成一個(gè)數(shù)列,而里面每個(gè)數(shù)都代表著像素點(diǎn)的顏色參數(shù),就如第二張圖片(右圖)所表示的那樣。那么,我們?cè)撛鯓幼寵C(jī)器視覺從像素點(diǎn)走向?qū)σ粡垐D像的深層次理解呢?
這不是一個(gè)簡(jiǎn)單的任務(wù),因?yàn)槲矬w和場(chǎng)景在現(xiàn)實(shí)世界中千變?nèi)f化。物體的形狀、外表,它們的大小、位置,它們的質(zhì)地和顏色等等,都在變化。再加上真實(shí)場(chǎng)景、變化的背景以及光線條件固有的復(fù)雜性,以及我們這個(gè)世界本身的豐富多彩,你看,這下你可以窺見這個(gè)問題對(duì)于計(jì)算機(jī)來說是多大的難題了吧!
讓我們走進(jìn)深度卷積神經(jīng)網(wǎng)絡(luò)的世界。
比起試圖用編程方式來定義一個(gè)基于規(guī)則的物體檢測(cè)系統(tǒng),深度網(wǎng)絡(luò)是相對(duì)更簡(jiǎn)單的架構(gòu),這個(gè)構(gòu)架中成千上萬的參數(shù)是訓(xùn)練得到的而不是被設(shè)定的。這些網(wǎng)絡(luò)自動(dòng)從成百上千已被標(biāo)注的樣例中學(xué)習(xí)內(nèi)在的模式,并且我們已經(jīng)看到,當(dāng)這樣的樣例數(shù)量足夠多的時(shí)候,神經(jīng)網(wǎng)絡(luò)已經(jīng)可以開始集成一些新奇的圖像了。深度網(wǎng)絡(luò)特別適應(yīng)于回答關(guān)于圖像的是/否的問題(分類)——例如,圖像中是否包含了一只綿羊?
分割物體
那么,我們?nèi)绾卧趯⑸疃染W(wǎng)絡(luò)應(yīng)用到檢測(cè)和分割當(dāng)中去呢?我們?cè)贒eepMask當(dāng)中采用的技術(shù)是把分割過程看做是一系列的二元分類問題。首先,對(duì)一副圖像中的每一個(gè)(有重疊的)小塊區(qū)域,我們提出問題:這個(gè)區(qū)塊是否包含物體?接著,如果第一個(gè)問題的答案是肯定的,那么,對(duì)這個(gè)區(qū)塊中的每一個(gè)像素點(diǎn),我們提出問題:這部分像素是否是這個(gè)中心物體的一部分呢?我們采用深度網(wǎng)絡(luò)來回答每一個(gè)是/否問題,并且通過聰明地設(shè)計(jì)我們所使用的網(wǎng)絡(luò),每一個(gè)區(qū)塊和像素的計(jì)算結(jié)果將是共享的,這樣,我們就可以快速地發(fā)現(xiàn)并且分割圖像中的每一個(gè)物體。
DeepMask使用的是一種相當(dāng)傳統(tǒng)的正反饋深度網(wǎng)絡(luò)設(shè)計(jì)。在這樣的網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)階段的逐漸深入,信息變得越來越抽象,并且在語義上意義豐富。例如,深度網(wǎng)絡(luò)在淺層的分析可能可以抓住一些邊緣或者大概的信息,而更深層次的分析則傾向于抓住一些例如動(dòng)物面貌或肢體這類更加語義豐富的信息。設(shè)計(jì)上講,這些深層分析所具有的的特征是在一個(gè)相當(dāng)?shù)偷目臻g分辨率下計(jì)算的(既是出于計(jì)算上的原因,也是為了在像素位置小幅變化的情況下能保持結(jié)果穩(wěn)定)。這為掩碼圖像的預(yù)測(cè)帶來了一個(gè)問題:深層次的特征雖然能夠抓住物體的整體形狀,但卻不能精確地分割物體的明確界限。
因此我們轉(zhuǎn)向SharpMask。SharkMask細(xì)化了DeepMask的輸出結(jié)果,它能輸出具有更高保真度的圖層,以便更準(zhǔn)確地勾畫出物體界限。如果說DeepMask在網(wǎng)絡(luò)中通過正反饋的方法預(yù)測(cè)了一個(gè)粗略的物體輪廓,SharpMask則在深度網(wǎng)絡(luò)中利用逆向信息,通過逐漸使用更淺層次的信息來提煉DeepMask的預(yù)測(cè)結(jié)果。這么想吧,為了抓住物體的整體形狀,我們必須對(duì)我們正在觀察的物體(DeepMask)具備一個(gè)高度的理解,但為了更準(zhǔn)確地描述物體的邊界,你需要回頭去從低至像素的角度觀察它的特征(SharpMask)。其實(shí),我們的目標(biāo)就是在運(yùn)營(yíng)成本最小化的前提下充分利用網(wǎng)絡(luò)中各層次的信息。
下面是一些由DeepMask繪制,并由SharpMask提煉的一些例子。為了使這些可視化結(jié)果簡(jiǎn)單易懂,我們只展示了其中極好地匹配了實(shí)際物體的一些預(yù)測(cè)掩碼圖像(人工注解)。請(qǐng)注意,這個(gè)系統(tǒng)還不是完美的,圖中具有紅色邊界的物體正是那些由人工標(biāo)注,但被DeepMask忽視掉了的物體。
物體分類
DeepMask對(duì)某個(gè)特定的物體類別一無所知,因此它雖然能勾畫出一只狗和一只羊,但無法區(qū)分它們。而且,DeepMask也不會(huì)精挑細(xì)選,對(duì)無關(guān)緊要的局部也會(huì)生成掩碼圖像。因此,我們?cè)趺纯s小相關(guān)掩碼圖像范圍,識(shí)別實(shí)際呈現(xiàn)之物?
正如你所期待的,我們?cè)僖淮吻笾谏疃壬窠?jīng)網(wǎng)絡(luò)(deep neural network)。給定一個(gè)由DeepMask產(chǎn)生的掩碼圖像,我們訓(xùn)練了另外一個(gè)深度神經(jīng)網(wǎng)絡(luò)來對(duì)物體的掩碼圖像進(jìn)行分類(“無法分類”也是一個(gè)有效答案。)。
這里,我們遵循了一個(gè)基本的模式叫做 Rigion-CNN,或者縮寫為RCNN,(這個(gè)領(lǐng)域的開路先鋒Ross Girshick現(xiàn)在也是FAIR的一員了。)RCNN分兩個(gè)階段:第一個(gè)階段是將注意力吸引到某些特定的圖像區(qū),第二個(gè)階段使用一個(gè)深度網(wǎng)絡(luò)來確認(rèn)呈現(xiàn)的物體。
開發(fā)RCNN時(shí),第一階段的處理還非常原始,通過使用DeepMask來作為RCNN的第一階段,同時(shí)開發(fā)深度神經(jīng)網(wǎng)絡(luò)的能力,我們?cè)跈z測(cè)的準(zhǔn)確性上獲得了顯著的提升,也獲得了對(duì)物體進(jìn)行分割的能力。
為了進(jìn)一步提高性能,我們把精力集中在一個(gè)特別的神經(jīng)網(wǎng)絡(luò)構(gòu)架上來對(duì)掩碼圖像進(jìn)行分類(RCNN的第二個(gè)階段)。如我們所討論的,真實(shí)世界的圖片里包含了物體的各種尺度,各種背景,各種雜亂,各種隱藏。標(biāo)準(zhǔn)的深度網(wǎng)絡(luò)在這種情況下就有困難了。為了解決這個(gè)問題,我們搭建了一個(gè)改良的神經(jīng)網(wǎng)絡(luò),叫做MultiPathNet(多路徑網(wǎng)絡(luò))。
就像它的名字,MultiPathNet允許信息從網(wǎng)絡(luò)的多個(gè)路徑流通,使得它可以在不同的尺度和不同的環(huán)境背景下找到信息。
總而言之,我們的物體檢測(cè)系統(tǒng)遵循三步走程序:
DeepMask產(chǎn)生最初的物體掩碼圖像
SharpMask 細(xì)化這些掩碼圖像, 最終
MultiPathNet 確認(rèn)由各個(gè)掩碼圖像勾畫的物體。
以下是幾個(gè)我們整套系統(tǒng)產(chǎn)生的輸出例子:
不完美也不寒磣。要知道,幾年前實(shí)現(xiàn)這些功能的技術(shù)根本不存在!
大范圍的應(yīng)用
視覺識(shí)別技術(shù)應(yīng)用范圍很廣。在此基礎(chǔ)上,計(jì)算機(jī)可以識(shí)別圖片中的物體,比如,無須為每張照片加上標(biāo)簽,即可更容易地搜索某些圖片。失去視覺的人們也可以理解他們的朋友所分享的圖片中的內(nèi)容,因?yàn)闊o論圖片是否配有說明文字,系統(tǒng)都可以告訴他們。
最近,我們演示了為盲人用戶開發(fā)的技術(shù):評(píng)估照片,描述其內(nèi)容。目前,視覺障礙的用戶在臉書新信息推送中遇到圖片時(shí),只能聽到照片發(fā)送者的名字,以及“圖片”這個(gè)詞。而我們的目的是提供更加豐富的描述,比如“圖片包含海灘,樹,和三個(gè)微笑的人”。
更進(jìn)一步,放大我們正在開發(fā)的技術(shù),我們的目標(biāo)是更加沉浸式的虛擬體驗(yàn):當(dāng)用戶用手指掃過圖片時(shí),系統(tǒng)為他們描述所觸摸的內(nèi)容,這樣用戶好像真的“看”到了照片一樣。
繼續(xù)前行,我們會(huì)繼續(xù)改善檢測(cè)和分割算法。你可以設(shè)想這種圖像檢測(cè)、分割、確認(rèn)能力應(yīng)用在商業(yè)、健康等其他增強(qiáng)現(xiàn)實(shí)領(lǐng)域的那一天。
另外,我們的下一個(gè)挑戰(zhàn)是將這些技術(shù)應(yīng)用在視頻中。在視頻中,物體是移動(dòng)的,交互的,隨時(shí)間變化的。對(duì)于觀看視頻,對(duì)其中的物體進(jìn)行實(shí)時(shí)理解和分類,我們已經(jīng)在計(jì)算機(jī)視覺方面取得了一些進(jìn)展。實(shí)時(shí)分類能幫助發(fā)現(xiàn)相關(guān)和重要的直播視頻,而應(yīng)用更好的技術(shù)來檢測(cè)場(chǎng)景、物體、時(shí)間和空間上的動(dòng)作會(huì)使得實(shí)時(shí)解說在某一天成為現(xiàn)實(shí)。
對(duì)于持續(xù)推進(jìn)這些技術(shù),為每個(gè)人提供更好的Facebook體驗(yàn),我們非常興奮。
來源:36大數(shù)據(jù)
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新