影創(chuàng)科技的創(chuàng)始人兼CEO孫立:AI在增強(qiáng)現(xiàn)實(shí)中怎么用
孫立 | 2017-05-08 08:00
【數(shù)據(jù)猿導(dǎo)讀】 我們?cè)诠鈱W(xué)上做了非常多的研究。首先是現(xiàn)在國(guó)內(nèi)外量產(chǎn)能力非常不錯(cuò)的一個(gè)產(chǎn)品,是自由曲面,通過(guò)可量產(chǎn)的方案解決增強(qiáng)現(xiàn)實(shí)眼鏡價(jià)值比較貴的問(wèn)題。當(dāng)然如果個(gè)人購(gòu)買的話還不算是特別便宜

來(lái)源:數(shù)據(jù)猿 作者:孫立
隨著AR、VR和人工智能技術(shù)熱度的上升,人工智能技術(shù)在VR和AR領(lǐng)域的應(yīng)用也成為了熱門話題。
4月27日下午,由數(shù)據(jù)猿、BitTiger、微軟加速器·北京聯(lián)合主辦的硅谷之聲論壇第二期在微軟亞太研發(fā)總部召開(kāi)。本次論壇的主題為AI in VR,AMD的圖形事業(yè)部技術(shù)方案總監(jiān)楚含進(jìn)、冰立方創(chuàng)始人石瑞、影創(chuàng)科技創(chuàng)始人孫立、冰立方CTO謝國(guó)富在論壇上進(jìn)行了分享。
以下是由數(shù)據(jù)猿精編整理發(fā)布的 影創(chuàng)科技的創(chuàng)始人兼CEO孫立 的精彩分享:
今天想跟大家分享AI在增強(qiáng)現(xiàn)實(shí)中的應(yīng)用。
其實(shí)這是我正式做第二家公司,是我的第四個(gè)創(chuàng)業(yè)項(xiàng)目,我簡(jiǎn)單回顧一下我之前做創(chuàng)業(yè)項(xiàng)目的一些經(jīng)歷,和風(fēng)口還是挺有關(guān)系的。
我在2005年大二的時(shí)候開(kāi)始了第一個(gè)創(chuàng)業(yè)項(xiàng)目。當(dāng)時(shí)我室友失戀了,他非常想做一個(gè)網(wǎng)站,做這個(gè)網(wǎng)站的目的很單純,就是找對(duì)象。所以我就跟他做了一個(gè)非常像Facebook一樣的網(wǎng)站,讓單身男女把自己的照片傳上去,像Facebook最早期的傳照片,然后大家去評(píng)價(jià)。后來(lái)因?yàn)槲疫@個(gè)室友找到女朋友了,所以這個(gè)項(xiàng)目就結(jié)束了。回過(guò)頭看跟Facebook這個(gè)時(shí)間點(diǎn)是非常匹配的。
到了2007、2008年的時(shí)候,Facebook已經(jīng)起來(lái)了,我看到基于社交網(wǎng)絡(luò)的社交游戲非?;?。最開(kāi)始創(chuàng)業(yè)的過(guò)程就是追求風(fēng)口的過(guò)程,開(kāi)心農(nóng)場(chǎng)是我做的第二個(gè)項(xiàng)目,并且上線盈利。當(dāng)時(shí)我還是上海一家公司的實(shí)習(xí)生。
畢業(yè)之后,我很想做智能手機(jī)。大家選擇創(chuàng)業(yè)項(xiàng)目的時(shí)候,一定要根據(jù)自己的實(shí)力,包括經(jīng)濟(jì)的實(shí)力和資源的實(shí)力量力而行。如果我當(dāng)時(shí)做手機(jī)的互話,一定是做不成的,因?yàn)槲規(guī)缀踉谑謾C(jī)硬件方面沒(méi)有任何的資源,那個(gè)時(shí)候去拿風(fēng)投創(chuàng)業(yè)環(huán)境也沒(méi)有現(xiàn)在好。
所以在那個(gè)的情況下,我覺(jué)得自己不適合做硬件這件事情。最后我選擇硬件是因?yàn)槭裁茨??因?yàn)槲疑弦淮蝿?chuàng)業(yè)延續(xù)了我之前做游戲的經(jīng)驗(yàn),后來(lái)我做了一家手游公司,那時(shí)候是2013、2014年的時(shí)候,那家手游公司一年凈利潤(rùn)都到了一千萬(wàn)、兩千萬(wàn),我把它賣給上市公司以后,獲得了自己的第一桶金,基于這個(gè)經(jīng)歷我才可以投入到后面的事業(yè)當(dāng)中。
我之所以選擇AR這個(gè)行業(yè),是在2013到2014年之間,當(dāng)時(shí)也是考察了很多創(chuàng)業(yè)項(xiàng)目,做手機(jī)肯定是不行,因?yàn)槭謾C(jī)已經(jīng)是紅海市場(chǎng)了。我們就預(yù)測(cè)下一個(gè)成為新的平臺(tái)的工具是什么?我們就認(rèn)為肯定是增強(qiáng)現(xiàn)實(shí),把公司賣掉以后,自己拿到的現(xiàn)金也就三千多萬(wàn),這個(gè)錢做增強(qiáng)現(xiàn)實(shí)是遠(yuǎn)遠(yuǎn)不夠的。包括做的過(guò)程中也是去融資,現(xiàn)在融了近億,還是遠(yuǎn)遠(yuǎn)不夠的。
2013年左右,這個(gè)項(xiàng)目開(kāi)始正式招人。那個(gè)時(shí)候VRAR還沒(méi)有像現(xiàn)在這么火,尤其AR才剛剛開(kāi)始。如果現(xiàn)在再去追逐風(fēng)口的話,我覺(jué)得未必就是一個(gè)很好的創(chuàng)業(yè)的項(xiàng)目。
我簡(jiǎn)單介紹一下公司,我們公司的核心優(yōu)勢(shì)是在于光學(xué)還有計(jì)算機(jī)視覺(jué)。我們希望成為世界上最好的增強(qiáng)現(xiàn)實(shí)公司,就像微軟當(dāng)時(shí)在操作系統(tǒng)的霸主,或者蘋果在現(xiàn)在智能手機(jī)的霸主一樣。
我們?cè)诠鈱W(xué)上做了非常多的研究。首先是現(xiàn)在國(guó)內(nèi)外量產(chǎn)能力非常不錯(cuò)的一個(gè)產(chǎn)品,是自由曲面,通過(guò)可量產(chǎn)的方案解決增強(qiáng)現(xiàn)實(shí)眼鏡價(jià)值比較貴的問(wèn)題。當(dāng)然如果個(gè)人購(gòu)買的話還不算是特別便宜。
第二個(gè)我們做一個(gè)半導(dǎo)體的芯片。它可以做到光場(chǎng)的顯示,我們看到的圖像聚焦是一樣的,沒(méi)有VR的圖像就是手機(jī)擺在我們面前的一個(gè)焦距,可能是在兩米左右的屏幕。但是我們?nèi)祟愓鎸?shí)接收光線信息的時(shí)候,不僅有顏色,更重要的還有一個(gè)深度,我們可以調(diào)節(jié)自己的眼球去對(duì)焦,看到不同遠(yuǎn)近的物體。我們看圖像的時(shí)候,不光是一個(gè)平面的圖,可以自動(dòng)選擇對(duì)焦自己想看清哪個(gè)圖像。
把它逆轉(zhuǎn)過(guò)來(lái)就是一個(gè)光場(chǎng)相機(jī),直接可以捕捉到位置距離和光場(chǎng)信息,甚至不需要透鏡。因?yàn)橥哥R有些問(wèn)題,比如要看到一個(gè)很遠(yuǎn)的圖像,就需要增加它的焦距。我們手機(jī)沒(méi)辦法做到相機(jī)一樣的折射對(duì)焦。這個(gè)就是我們的核心技術(shù)。
計(jì)算機(jī)視覺(jué)相關(guān)的東西和增強(qiáng)現(xiàn)實(shí)在增強(qiáng)現(xiàn)實(shí)里面是怎么應(yīng)用的?我們最主要的一個(gè)目標(biāo)就是通過(guò)圖像信息對(duì)當(dāng)前場(chǎng)景進(jìn)行一個(gè)三維的重建?,F(xiàn)在一些家具行業(yè)里面,他們?cè)谝粋€(gè)真實(shí)的空間里面把一些虛擬的椅子、家具布置到空間里面,但是他們沒(méi)有辦法把真實(shí)的家具去移動(dòng)。我如果拿個(gè)攝像機(jī)對(duì)著我這個(gè)桌子,這個(gè)桌子本身是移動(dòng)不了的。
這些東西其實(shí)可以通過(guò)人工智能去解決,它不僅可以對(duì)現(xiàn)實(shí)進(jìn)行增強(qiáng)還能進(jìn)行修改,這個(gè)就非常有意思了。我看到蘋果的一些專利里面就講到這個(gè)如何在虛擬的世界里面刪除掉現(xiàn)實(shí)的物體。
其次,提供一些逼真的位置關(guān)系?,F(xiàn)在已經(jīng)可以通過(guò)一些照片來(lái)獲取APP。對(duì)著某個(gè)東西拍個(gè)照片,它知道這個(gè)照片里面東西是什么?它會(huì)把這個(gè)物品的信息告訴你,但是如果我們未來(lái)用增強(qiáng)現(xiàn)實(shí)的方式實(shí)時(shí)的對(duì)動(dòng)態(tài)進(jìn)行一個(gè)增強(qiáng)現(xiàn)實(shí)。比如在移動(dòng)的過(guò)程中,看到這個(gè)桌子它就告訴我這桌子是什么樣的一個(gè)狀態(tài)?這個(gè)過(guò)程就需要看似實(shí)時(shí)的一個(gè)位置,我們可以結(jié)合深度學(xué)習(xí)的辦法去做。我在講我們的做法之前,先講一下這個(gè)3D重建的一些簡(jiǎn)單的方法。
我們?cè)讷@取這個(gè)圖像的時(shí)候,有這么幾種方法可以直接獲得有深度信息的圖。
第一個(gè)結(jié)構(gòu)光。雖然不是特別老的一個(gè)技術(shù),但是目前來(lái)說(shuō)結(jié)構(gòu)光也有一些包括工號(hào)、計(jì)算上面的一些問(wèn)題。
第二個(gè),光的飛行時(shí)間。
第三個(gè),單目的視差。
第四個(gè),多目視差。
第二塊完全不利用本身圖片的深度信息,利用一些機(jī)器學(xué)習(xí)還有模型匹配,或者兩者相結(jié)合的方式,直接建立一個(gè)。
我再講一下深度獲取的這樣一系列的方法。
第一個(gè)就是結(jié)構(gòu)光。它要通特定模式的光,可以是點(diǎn)狀的,也可以線條或者網(wǎng)格,因?yàn)椴煌矬w的形狀對(duì)光的反饋是不一樣的,最終會(huì)直接把這個(gè)物體的形狀給反饋出來(lái)。然后拿到這個(gè)反饋的形狀再去獲得它的光的結(jié)果。其實(shí)它是需要大量計(jì)算的,這種方式性能并不是特別高。
現(xiàn)在比較流行的就是TOF,側(cè)記光脈沖之間的傳輸延遲。它的一個(gè)好處就是說(shuō)對(duì)于物體來(lái)說(shuō),可以沒(méi)有任何視覺(jué)上的特征點(diǎn),因?yàn)樗际峭饷娴墓獯蛏先サ摹2⑶宜苯佑?jì)算,剛剛說(shuō)的計(jì)算光脈沖之間的傳輸延遲就可以得到這個(gè)結(jié)果,根據(jù)這個(gè)時(shí)間就可以獲得了深度學(xué)習(xí),所以它不通過(guò)三角測(cè)量,通過(guò)簡(jiǎn)單數(shù)學(xué)的計(jì)算就可以得到。
還有通過(guò)單目的視差。最后就是多目視差,通過(guò)多個(gè)攝像頭獲得的一個(gè)圖片,獲得這些圖片的特征以后,再通過(guò)三角測(cè)量獲得深度的結(jié)果。這些東西都有好處,但是它最大的問(wèn)題還是在于實(shí)時(shí)性和建模的精度。
這樣的情況,導(dǎo)致了沒(méi)有辦法非常真實(shí)的體現(xiàn)這些物體的位置關(guān)系,在做增強(qiáng)現(xiàn)實(shí)的過(guò)程中可能出現(xiàn)一些穿幫的效果。
怎么辦?通過(guò)機(jī)器學(xué)習(xí),其實(shí)很好理解。比如對(duì)人臉進(jìn)行專項(xiàng)學(xué)習(xí)以后,它就可以完全清楚,它的分類器可以把人臉進(jìn)行光照的分類,然后進(jìn)行一個(gè)膚色的分類,最后進(jìn)行三維重建的時(shí)候它的準(zhǔn)確度就會(huì)高很多。
比如說(shuō)我們剛剛說(shuō)的結(jié)構(gòu)光,其實(shí)完全可以不通過(guò)結(jié)構(gòu)光判斷這個(gè)物體的形狀,通過(guò)自然光也是一樣的。但不同的紋理對(duì)自然光的反饋是不一樣的,通過(guò)這些反饋我們可以得到一個(gè)比較好的結(jié)果。而且這個(gè)紋理還有另外一個(gè)作用,比如我們對(duì)桌子進(jìn)行建模,常規(guī)的方法可能只能建視角看到的面。但是通過(guò)紋理可以推測(cè)其他面的紋理。
最后我們?cè)偻ㄟ^(guò)一些物體識(shí)別的方法進(jìn)行大數(shù)據(jù)的匹配。通過(guò)單幀的圖片,把圖片里面的物體摳出來(lái),然后標(biāo)識(shí)出來(lái)。先做一個(gè)分割,分割以后去匹配我們的庫(kù)里已有的模型。這個(gè)模型可以是一個(gè)很通用的庫(kù),里面已經(jīng)包含了很多種不同類型基礎(chǔ)的模型。同時(shí)也可以只是一個(gè)形狀的庫(kù),里面有一些圓柱形、方形等,把這些圖形組合起來(lái)可以做一個(gè)建模。
它整個(gè)的流程是這樣,第一,通過(guò)視覺(jué)定位,通過(guò)當(dāng)前的未知。通過(guò)視覺(jué),通過(guò)特征點(diǎn)的描述,其實(shí)還要加一個(gè)IMU的融合進(jìn)去,這樣比較穩(wěn)定。獲得了定位以后,我們把這個(gè)定位圖片的兩幀相差結(jié)構(gòu)比較大的傳輸?shù)皆贫恕N覀冇迷撇⒉皇亲鰧?shí)時(shí)數(shù)據(jù)處理,而是用云已經(jīng)處理好的東西去描述場(chǎng)景里的東西。描述出來(lái)以后,把三維模型表述出來(lái)。
建立完了以后,實(shí)時(shí)只是做一個(gè)場(chǎng)景的融合,最后的跟蹤,把這些模型放在正確的位置,這些位置需要我們通過(guò)技術(shù)動(dòng)態(tài)的調(diào)整。
非常感謝大家,今天我的分享大概就這樣,大家有什么問(wèn)題的話,可以跟我再交流。
注:獲取演講嘉賓干貨PPT請(qǐng)關(guān)注數(shù)據(jù)猿微信公眾號(hào)【datayuancn】并回復(fù)關(guān)鍵詞“孫立”即可
來(lái)源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新