基于大數(shù)據(jù)的視覺搜索應(yīng)用與組織模式研究
張興旺 鄭聰 | 2017-09-20 14:20
【數(shù)據(jù)猿導(dǎo)讀】 當(dāng)前視覺搜索已成為信息科學(xué)領(lǐng)域的前沿課題,主要用于分析和研究現(xiàn)實(shí)世界實(shí)體屬性、行為、事件與視覺大數(shù)據(jù)資源之間的發(fā)展規(guī)律,針對(duì)視覺大數(shù)據(jù)資源的獲取、組織、描述與利用問題,研究視覺資源及其時(shí)空關(guān)聯(lián)信息之間的價(jià)值發(fā)現(xiàn)與資源整合的內(nèi)在機(jī)理

當(dāng)前視覺搜索已成為信息科學(xué)領(lǐng)域的前沿課題,主要用于分析和研究現(xiàn)實(shí)世界實(shí)體屬性、行為、事件與視覺大數(shù)據(jù)資源之間的發(fā)展規(guī)律,針對(duì)視覺大數(shù)據(jù)資源的獲取、組織、描述與利用問題,研究視覺資源及其時(shí)空關(guān)聯(lián)信息之間的價(jià)值發(fā)現(xiàn)與資源整合的內(nèi)在機(jī)理,解決其多維關(guān)聯(lián)與協(xié)同融合問題,進(jìn)而實(shí)現(xiàn)視覺大數(shù)據(jù)資源的有效整合、知識(shí)發(fā)現(xiàn)與實(shí)時(shí)交互。
基于此,本研究從宏觀與中觀角度,從信息科學(xué)視角下視覺搜索研究的起源著手,對(duì)其發(fā)展歷程、概念與特點(diǎn)進(jìn)行描述,圍繞其理論與應(yīng)用研究的幾個(gè)關(guān)鍵問題展開討論,并簡(jiǎn)要探討其最新研究進(jìn)展及應(yīng)用。
1、大數(shù)據(jù)環(huán)境下視覺搜索的發(fā)展歷程及特點(diǎn)
1.1 問題的提出
視覺搜索不是一個(gè)新名詞,它最早出現(xiàn)于心理學(xué)與生理學(xué)領(lǐng)域,用于描述人們通過視覺通道在特定區(qū)域內(nèi)檢測(cè)某特定目標(biāo)是否出現(xiàn)或出現(xiàn)后確定其位置的行為[1]。如在地圖上找某大學(xué)所處位置、在食堂內(nèi)點(diǎn)菜、在書架上找書或在圖書館內(nèi)找人等。在現(xiàn)實(shí)世界中,人們經(jīng)常需要利用視覺搜索在復(fù)雜物理環(huán)境中獲取有價(jià)值的信息,來決定接下來的語言和行為[2]。因此,視覺搜索理論受到心理學(xué)家和人因(Human Factors)學(xué)家的廣泛關(guān)注,大量研究集中在對(duì)人類視覺認(rèn)知[3-4]、生理反饋機(jī)理[5]的理解與表達(dá)上,并總結(jié)出了許多應(yīng)用型和理論型知識(shí)。正是由于視覺搜索的可用性和有效性,使得許多工作、行業(yè)、領(lǐng)域都離不開這一生理行為。
相關(guān)基礎(chǔ)理論和關(guān)鍵技術(shù)的不斷發(fā)展與完善,促使傳統(tǒng)視覺搜索應(yīng)用不斷向信息化、技術(shù)化和網(wǎng)絡(luò)化方向發(fā)展,如何將傳統(tǒng)視覺搜索行為轉(zhuǎn)換成“所見即所知”式視覺搜索模式,這一難題逐漸擺在了人們面前。與此同時(shí),網(wǎng)絡(luò)環(huán)境、信息技術(shù)、計(jì)算性能、存儲(chǔ)空間、數(shù)據(jù)規(guī)模與軟硬件設(shè)施等方面的飛速提升,也為客觀物理世界與虛擬網(wǎng)絡(luò)空間之間建立起密不可分的關(guān)聯(lián)關(guān)系,使視覺搜索技術(shù)的實(shí)現(xiàn)成為可能。人們可以方便快捷地采集客觀物理世界中的視覺對(duì)象,從互聯(lián)網(wǎng)中獲取與之相關(guān)的關(guān)聯(lián)信息[6]。
1.2 視覺搜索發(fā)展歷程及發(fā)展趨勢(shì)
近幾年來,隨著大數(shù)據(jù)環(huán)境的逐步完善和大數(shù)據(jù)技術(shù)的迅速發(fā)展,關(guān)于視覺資源整合與視覺搜索研究的呼聲越來越大。Nature和Science分別于2008年、2011年出版了大數(shù)據(jù)專題研究[7],提出圖像、視頻與用戶交互信息是未來大數(shù)據(jù)的重要組成部分。2009年,Stanford University的Griod、Chandrasekhar等學(xué)者將視覺搜索理論引入到信息檢索領(lǐng)域,提出Visual Search、Mobile Visual Search等概念,舉辦了第一屆移動(dòng)視覺搜索研討會(huì),并對(duì)其體系結(jié)構(gòu)、應(yīng)用與服務(wù)模式等問題進(jìn)行了探討[8]。2010年,Google技術(shù)研究部前主管Norvig在Nature上發(fā)表的專題論文2020 Visions中指出,“文本、圖像和視頻等視覺資源及用戶交互信息、傳感信息的有機(jī)融合,會(huì)給搜索引擎帶來巨大挑戰(zhàn),如何對(duì)視覺搜索結(jié)果進(jìn)行資源深度整合將會(huì)成為Google未來10年面臨的最大挑戰(zhàn)。”[9-10]同年,北京大學(xué)高文、黃鐵軍與段凌宇等將其引入國(guó)內(nèi),舉辦了第二屆移動(dòng)視覺搜索研討會(huì),并圍繞其關(guān)鍵技術(shù)、體系結(jié)構(gòu)、視覺資源組織與描述方法、視覺資源標(biāo)準(zhǔn)化與視覺知識(shí)庫建設(shè)等問題展開了研討[6,11]。2012年,這一理論與技術(shù)迅速被中國(guó)計(jì)算機(jī)學(xué)會(huì)所接受,認(rèn)為將視覺搜索與增強(qiáng)現(xiàn)實(shí)技術(shù)相結(jié)合的信息檢索模式,將是繼搜索引擎之后的新一代互聯(lián)網(wǎng)服務(wù)范式[3,6]。隨后,張興旺[12]、朱慶華[13]等嘗試將其引入數(shù)字圖書館領(lǐng)域,并圍繞相關(guān)理論與應(yīng)用模式展開了研究。
根據(jù)視覺搜索研究的發(fā)展軌跡來看,國(guó)內(nèi)關(guān)于視覺搜索研究總體仍處于探索與嘗試階段,研究軌跡已基本跨過早期理論性嘗試過程,正步入中期技術(shù)性和應(yīng)用性探索階段。尤其是在我國(guó)科學(xué)技術(shù)部于2011年啟動(dòng)國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(“973”計(jì)劃)“面向公共安全的跨媒體計(jì)算理論與方法”,對(duì)跨媒體視覺資源的統(tǒng)一表示和建模方法、關(guān)聯(lián)推理和深度挖掘、綜合搜索和內(nèi)容合成等關(guān)鍵科學(xué)問題進(jìn)行研究之后,國(guó)內(nèi)相關(guān)研究步入快速發(fā)展階段。自2015年以來,視覺搜索理論與應(yīng)用研究的重要性和必要性更加凸顯,國(guó)務(wù)院2015年9月印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》提出,要充分利用大數(shù)據(jù),提升領(lǐng)域數(shù)據(jù)資源的獲取和利用能力,推動(dòng)各類數(shù)據(jù)融合和資源整合[14]。國(guó)務(wù)院2015年7月印發(fā)的《關(guān)于積極推進(jìn)“互聯(lián)網(wǎng)+”行動(dòng)的指導(dǎo)意見》提出“構(gòu)建包括語音、圖像、視頻、地圖等數(shù)據(jù)的海量訓(xùn)練資源庫,加強(qiáng)人工智能基礎(chǔ)資源和公共服務(wù)等創(chuàng)新平臺(tái)建設(shè)”[15]。國(guó)家自然科學(xué)重大研究計(jì)劃“大數(shù)據(jù)驅(qū)動(dòng)的管理與決策研究”認(rèn)為“大數(shù)據(jù)價(jià)值的產(chǎn)生機(jī)理和轉(zhuǎn)換規(guī)律具有高度的應(yīng)用領(lǐng)域依賴性”[16]。科技部2016年發(fā)布的《關(guān)于發(fā)布國(guó)家重點(diǎn)研發(fā)計(jì)劃精準(zhǔn)醫(yī)學(xué)研究等重點(diǎn)專項(xiàng)2016年度項(xiàng)目申報(bào)指南的通知》的“云計(jì)算和大數(shù)據(jù)重點(diǎn)專項(xiàng)”中更是明確將“面向大范圍場(chǎng)景透徹感知的視覺大數(shù)據(jù)智能分析關(guān)鍵技術(shù)”列為重點(diǎn)研究?jī)?nèi)容之一,要求對(duì)視覺語義建模、視覺對(duì)象的時(shí)空定位與搜索、跨場(chǎng)景數(shù)據(jù)關(guān)聯(lián)技術(shù)等展開研究[17]。
1.3 視覺搜索研究對(duì)象及視覺大數(shù)據(jù)資源特點(diǎn)
視覺搜索的研究已逐漸發(fā)展成為信息檢索領(lǐng)域的主要研究趨勢(shì)[6,8,10],到目前為止,關(guān)于視覺搜索的定義尚未形成統(tǒng)一的認(rèn)識(shí),但從信息檢索角度來看,大家對(duì)它的普遍理解是指將客觀物理世界中的視覺資源作為檢索對(duì)象,通過互聯(lián)網(wǎng)去獲取關(guān)聯(lián)信息的一種信息檢索方式[6,12]。它是以視覺大數(shù)據(jù)資源及其關(guān)聯(lián)信息為研究對(duì)象,以視覺大數(shù)據(jù)資源的獲取、分析、組織、理解和表達(dá)方法為主要研究?jī)?nèi)容,以信息技術(shù)與方法為主要研究手段,以發(fā)現(xiàn)視覺大數(shù)據(jù)資源蘊(yùn)含的知識(shí)價(jià)值和拓展其利用能力為主要研究目標(biāo)的一種綜合性的應(yīng)用型前沿領(lǐng)域。它主要針對(duì)的是當(dāng)前大數(shù)據(jù)環(huán)境下海量、多元異構(gòu)、動(dòng)態(tài)無序和高速進(jìn)化的視覺資源的分析和利用問題,重點(diǎn)研究的是如何充分利用當(dāng)前飛速發(fā)展的信息技術(shù)來解決視覺大數(shù)據(jù)資源的理解和表達(dá),如何有效地實(shí)現(xiàn)視覺搜索,如何利用視覺搜索技術(shù)來從海量視覺大數(shù)據(jù)資源中發(fā)現(xiàn)新的知識(shí)。
毫無疑問,未來是一個(gè)智慧(或稱之為“互聯(lián)網(wǎng)+”)的時(shí)代。智慧地球、智慧城市、智慧圖書館等理論與應(yīng)用的迅速發(fā)展,給視覺搜索理論與應(yīng)用研究提供了“沃土”。“互聯(lián)網(wǎng)+”時(shí)代所衍生的數(shù)據(jù)規(guī)模的劇增,文本、圖像、音視頻、用戶交互信息與各種傳感信息會(huì)成為“數(shù)據(jù)海洋”的主流[18],而這些數(shù)據(jù)來源中超過80%來自于人類視覺通道,現(xiàn)階段把握“互聯(lián)網(wǎng)+”時(shí)代信息檢索和知識(shí)服務(wù)未來發(fā)展脈絡(luò)的最重要手段可能是視覺搜索。
視覺大數(shù)據(jù)資源因其包含文本、圖像、音視頻與用戶觀看記錄等復(fù)雜無序、動(dòng)態(tài)變化的時(shí)空信息,使其成為數(shù)字圖書館中內(nèi)容最豐富的信息載體,并將會(huì)成為“互聯(lián)網(wǎng)+”時(shí)代最為重要的信息表達(dá)和信息傳播媒介[19]。而以視覺大數(shù)據(jù)資源為研究對(duì)象的視覺搜索,由于前者所處知識(shí)空間的知識(shí)實(shí)體與知識(shí)價(jià)值在時(shí)間、空間和屬性三個(gè)方面的自有特性,使得視覺搜索也呈現(xiàn)出復(fù)雜無序、動(dòng)態(tài)變化和時(shí)空語義關(guān)聯(lián)等特性,同時(shí)也需要對(duì)視覺大數(shù)據(jù)資源的形式化表達(dá)、系統(tǒng)化組織、結(jié)構(gòu)化描述與時(shí)空關(guān)聯(lián)關(guān)系分析方法等進(jìn)行研究。由此可得知視覺大數(shù)據(jù)資源主要具有以下特征:
1)視覺大數(shù)據(jù)資源包含文本、圖像、視頻、用戶觀看信息及用戶交互信息等時(shí)空信息,并且它所包含的視覺對(duì)象、事物內(nèi)容、事件過程在時(shí)間、空間、語義等方面具有時(shí)序或時(shí)空關(guān)聯(lián)關(guān)系。
2)視覺大數(shù)據(jù)資源具有時(shí)空語義關(guān)聯(lián)、動(dòng)態(tài)變化、數(shù)據(jù)規(guī)模大和結(jié)構(gòu)復(fù)雜等特點(diǎn),這些基于視覺對(duì)象、事物內(nèi)容、事件過程的動(dòng)態(tài)變化可以用時(shí)空語義關(guān)聯(lián)進(jìn)行表達(dá)和描述,其獲取、組織和描述過程可以用機(jī)器語言來進(jìn)行表達(dá),通過視覺對(duì)象、事物內(nèi)容、事件過程之間的語義關(guān)聯(lián)映射,建立視覺大數(shù)據(jù)資源的時(shí)空語義關(guān)聯(lián)關(guān)系。
3)視覺大數(shù)據(jù)資源具有數(shù)據(jù)規(guī)模大、結(jié)構(gòu)復(fù)雜、類型多元、多維尺度關(guān)聯(lián)和縱深緯度高等特性,可根據(jù)視覺大數(shù)據(jù)資源的時(shí)空語義關(guān)系建立對(duì)應(yīng)的尺度關(guān)聯(lián)機(jī)制。針對(duì)不同尺度、縱深緯度的視覺大數(shù)據(jù)資源的時(shí)空關(guān)聯(lián)關(guān)系,可實(shí)現(xiàn)視覺對(duì)象、事物內(nèi)容、事件過程之間的多維尺度轉(zhuǎn)換和重置,進(jìn)而實(shí)現(xiàn)視覺大數(shù)據(jù)資源的語義關(guān)聯(lián)關(guān)系分析。
4)視覺大數(shù)據(jù)資源能提供基于視覺資源內(nèi)容來理解視覺對(duì)象行為,根據(jù)視覺對(duì)象的時(shí)空語義關(guān)聯(lián)關(guān)系建立起發(fā)展趨勢(shì)模型,并根據(jù)有效組織、理解和描述來預(yù)測(cè)某特定事物在某特定階段將可能發(fā)生的行為態(tài)勢(shì)。
5)可針對(duì)視覺大數(shù)據(jù)資源的獲取、組織、理解和描述問題,來實(shí)現(xiàn)用戶與視覺大數(shù)據(jù)資源之間的實(shí)時(shí)交互、反饋和視覺對(duì)象知識(shí)庫的構(gòu)建。根據(jù)視覺對(duì)象的相似行為特征、時(shí)空關(guān)聯(lián)關(guān)系和實(shí)時(shí)交互結(jié)果,來幫助人們制作、生產(chǎn)、運(yùn)營(yíng)和消費(fèi)新的視覺資源,滿足數(shù)字圖書館用戶的多元化知識(shí)服務(wù)需求。
2、大數(shù)據(jù)環(huán)境下視覺搜索的應(yīng)用與組織模式
視覺大數(shù)據(jù)資源經(jīng)過組織、分析、處理和整合,并建立基于特定領(lǐng)域的數(shù)字圖書館視覺搜索平臺(tái)之后,才能為用戶提供大數(shù)據(jù)知識(shí)服務(wù)。不同學(xué)科、領(lǐng)域的視覺搜索模式對(duì)視覺大數(shù)據(jù)資源的獲取、組織、處理與整合模式會(huì)有所不同。正因如此,當(dāng)前大部分應(yīng)用是從知識(shí)服務(wù)與信息檢索角度,建立起領(lǐng)域?qū)虻囊曈X大數(shù)據(jù)資源整合平臺(tái),通過視覺搜索來對(duì)視覺大數(shù)據(jù)資源進(jìn)行有效管理與利用,并按照特定學(xué)科、專業(yè)和領(lǐng)域的知識(shí)服務(wù)需求來提供服務(wù),從而滿足各類大數(shù)據(jù)知識(shí)服務(wù)需求。
2.1 基于深度學(xué)習(xí)的視覺搜索工業(yè)應(yīng)用模式
傳統(tǒng)視覺搜索研究主要是先采用人工標(biāo)注方法對(duì)視覺資源的底層特征進(jìn)行標(biāo)注后,再采用機(jī)器學(xué)習(xí)方法來解決視覺資源之間的語義鴻溝、異構(gòu)鴻溝與語義關(guān)聯(lián)之間的問題?;谌斯?biāo)注的視覺大數(shù)據(jù)資源整合與利用方法,需要標(biāo)注者擁有豐富的專業(yè)領(lǐng)域知識(shí)和工業(yè)應(yīng)用經(jīng)驗(yàn),需耗費(fèi)大量的時(shí)間和人力成本,且精確性低。與對(duì)視覺資源特征進(jìn)行人工標(biāo)注方法不同的是,深度學(xué)習(xí)一般都是通過對(duì)視覺資源特征進(jìn)行多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練后,進(jìn)行視覺特征學(xué)習(xí),進(jìn)而獲取到特征提取更合理、區(qū)分性更強(qiáng)的視覺特征理解和描述。大量研究證明通過深度分析方法所提取到的視覺特征在圖像分類與識(shí)別、視覺場(chǎng)景識(shí)別、智能監(jiān)控、語音識(shí)別、知識(shí)圖譜構(gòu)建等[20-21]應(yīng)用領(lǐng)域都獲得過成功。視覺資源的顯著性特征提取和分割方法,能夠采用模擬人類視覺系統(tǒng)和生理認(rèn)知體系來提取視覺資源中顯著性特征區(qū)域。目前,性能相對(duì)最好的視覺資源特征提取方法在公開的視覺大數(shù)據(jù)資源數(shù)據(jù)集中的顯著性特征檢測(cè)準(zhǔn)確率在95%左右,視覺資源前景特征分割準(zhǔn)確率將近92%,這一比例在近幾年全球性各類大規(guī)模視覺資源分析與識(shí)別比賽中,仍然在不斷增加。比如,Google研究組在大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ILSVRC)中,采用改進(jìn)的深度卷積網(wǎng)絡(luò)Google Net將圖像識(shí)別準(zhǔn)確率提升到93%;Google小組在微軟圖像標(biāo)題生成挑戰(zhàn)賽(MS COCO ICC)中,采用基于深度分析的圖像特征提取方法獲得冠軍;悉尼科技大學(xué)與卡耐基梅隆大學(xué)、微軟亞洲研究院和浙江大學(xué)在THUMOS比賽中,均將深度分析方法與視覺對(duì)象運(yùn)動(dòng)特征結(jié)合起來對(duì)視覺資源進(jìn)行動(dòng)作識(shí)別,分別獲得前三名[10]。
傳統(tǒng)學(xué)術(shù)研究的理論成果往往需要很長(zhǎng)一段時(shí)間發(fā)展,才能逐漸走向成熟,并進(jìn)入到實(shí)際的工業(yè)應(yīng)用中去。但無論是深度學(xué)習(xí),還是視覺搜索,它們都擁有著極強(qiáng)的工程理論模型。一方面,它們?cè)诒粚W(xué)術(shù)界關(guān)注和研究的同時(shí),也被工業(yè)領(lǐng)域所密切關(guān)注和嘗試;另一方面,由于工業(yè)領(lǐng)域(如Google、百度、微軟等)早就擁有著大規(guī)模的視覺大數(shù)據(jù)資源,且一直活躍在諸多信息科學(xué)領(lǐng)域的研究前沿,在很多領(lǐng)域,它們相較于學(xué)術(shù)界更有優(yōu)勢(shì)。如Google的知識(shí)圖譜Knowledge Graph,Google Now與Google街景地圖,微軟的語音助手Cortana,愛奇藝的愛奇藝大腦,F(xiàn)acebook的Graph Search等均屬于工業(yè)界視覺搜索較為經(jīng)典的應(yīng)用案例。事實(shí)上,國(guó)外工業(yè)界各大公司,如Google,F(xiàn)acebook,Microsoft等對(duì)視覺搜索不僅僅只是開展大量的研究,甚至還在內(nèi)部成立了專門研究機(jī)構(gòu),國(guó)內(nèi)的百度、華為、騰訊和阿里巴巴也不例外。
2.2 基于知識(shí)計(jì)算的視覺搜索知識(shí)服務(wù)模式
數(shù)字圖書館領(lǐng)域?qū)σ曈X搜索理論與應(yīng)用展開研究的一個(gè)重要目的,就是為高校和科研機(jī)構(gòu)的研究人員提供嵌入式協(xié)作化的知識(shí)服務(wù),而數(shù)字圖書館視覺搜索平臺(tái)是將海量視覺大數(shù)據(jù)資源與平臺(tái)提供的視覺大數(shù)據(jù)資源的組織、分析和處理功能嵌入到知識(shí)服務(wù)過程中。
視覺大數(shù)據(jù)資源整合與利用是當(dāng)前國(guó)內(nèi)外人工智能、信息檢索領(lǐng)域的研究熱點(diǎn),擁有非常廣泛的應(yīng)用與研究前景。事實(shí)上,圖像搜索作為視覺搜索的一個(gè)研究分支方向,近幾年來,國(guó)內(nèi)已有很多個(gè)人(如中國(guó)科學(xué)院高科、北京大學(xué)高文與黃鐵軍、南京大學(xué)朱慶華)、機(jī)構(gòu)(如浙江大學(xué)、清華大學(xué)、北京大學(xué)、中國(guó)科學(xué)院計(jì)算所等)、企業(yè)(如愛奇藝、百度、騰訊、360、搜狗等)正在做與之相關(guān)的研究,并且很多已經(jīng)推出了基于內(nèi)容的圖像搜索平臺(tái),為用戶提供圖像搜索服務(wù)。而美國(guó)的麻省理工學(xué)院、加州大學(xué)伯克利分校、伊利諾伊大學(xué)和英國(guó)的牛津大學(xué)等相關(guān)研究工作開始得更早,也研發(fā)出了相應(yīng)的基于圖像內(nèi)容的圖像搜索系統(tǒng)。
在以上所有相關(guān)研究中,它們都具有一個(gè)典型的研究特征:研究目的是為了解決視覺搜索的應(yīng)用問題,而對(duì)應(yīng)的視覺搜索模式大部分是基于知識(shí)計(jì)算。由于視覺搜索需要組織、分析和處理的對(duì)象主要包括文本、圖像、視頻等各類蘊(yùn)含大量?jī)r(jià)值的視覺資源,因此,如何從視覺大數(shù)據(jù)資源中獲取有價(jià)值的知識(shí),就成為國(guó)外學(xué)術(shù)界和工業(yè)界一直以來的研究熱點(diǎn)。以發(fā)掘視覺大數(shù)據(jù)資源中蘊(yùn)含的豐富的、復(fù)雜關(guān)聯(lián)的知識(shí)為目的的知識(shí)庫稱之為視覺對(duì)象知識(shí)庫。目前,全球基于文本、圖像、音視頻等視覺資源的各類知識(shí)庫有不少于60種,而基于這些視覺對(duì)象知識(shí)庫的具體應(yīng)用案例和系統(tǒng)平臺(tái)也有幾百種。其中,比較有代表性的應(yīng)用案例有維基百科的DBpedia(2014版中包含8.7萬部電影、12.3萬張唱片、45萬個(gè)物件等)、Google的知識(shí)圖譜Knowledge Graph(包括地標(biāo)、城市、人名、建筑、電影、藝術(shù)作品等5億個(gè)搜索結(jié)果實(shí)體與350億條關(guān)聯(lián)知識(shí)條目)、Facebook的Graph Search(包含10億名用戶、2400億張圖像、10000億次頁面訪問量等)等。
借助視覺搜索的相關(guān)理論與技術(shù),開展對(duì)海量、異構(gòu)、多元的視覺大數(shù)據(jù)資源的研究,不僅可豐富信息檢索的外延和內(nèi)涵,而且可以有效地解決當(dāng)前數(shù)字圖書館所面臨的“大數(shù)據(jù)、小知識(shí)、小服務(wù)”的瓶頸,具有一定的應(yīng)用價(jià)值和現(xiàn)實(shí)意義。
2.3 基于語義分析的視覺內(nèi)容關(guān)聯(lián)組織模式
從已有研究來看,視覺搜索的研究對(duì)象大部分集中在文本與圖像上,其中圖像搜索是學(xué)者們著力解決的重點(diǎn)方向。視覺搜索研究可分為3個(gè)階段:一是20世紀(jì)70年代末期開始的基于文本/元數(shù)據(jù)的圖像搜索。這一方式主要通過人工標(biāo)注元數(shù)據(jù)對(duì)圖像進(jìn)行描述,來實(shí)現(xiàn)對(duì)圖像的信息檢索功能,缺點(diǎn)是元數(shù)據(jù)標(biāo)注費(fèi)時(shí)費(fèi)力,描述標(biāo)準(zhǔn)與反饋內(nèi)容不完整,且容易有太多主觀色彩。二是20世紀(jì)90年代開始提出基于視覺內(nèi)容的圖像搜索方法。這一方式其本質(zhì)是采用人工構(gòu)造圖像底層視覺特征的方式來進(jìn)行圖像相似性比較,進(jìn)而實(shí)現(xiàn)圖像搜索,缺點(diǎn)是對(duì)圖像底層特征和高層語義之間存在的語義鴻溝問題沒有得到較好解決。三是21世紀(jì)初期提出的基于深度學(xué)習(xí)的圖像搜索方法。社交網(wǎng)絡(luò)與用戶生成內(nèi)容成為網(wǎng)絡(luò)數(shù)據(jù)的主要來源,利用用戶標(biāo)簽對(duì)圖像語義進(jìn)行組織、表達(dá)和理解成為研究主流,深度學(xué)習(xí)方法由此融入到相關(guān)領(lǐng)域。
與圖像搜索相比,視頻表達(dá)和分析則是視覺搜索領(lǐng)域相對(duì)較新的研究領(lǐng)域。視頻由大量圖像幀組成,且圖像幀之間有較為緊密的時(shí)空與語義關(guān)聯(lián)關(guān)系,這對(duì)視覺搜索技術(shù)要求更高。但由于深度學(xué)習(xí)在文本與圖像搜索領(lǐng)域所取得的成功,學(xué)者們開始借助于深度學(xué)習(xí)框架,對(duì)視頻進(jìn)行組織、理解和描述,尤其是在視頻特征提取這一關(guān)鍵環(huán)節(jié)采取了以下幾種方法:一是視頻靜態(tài)關(guān)鍵幀特征描述。由于視頻是由大量圖像幀按時(shí)序與語義關(guān)聯(lián)組成,故可采用深度學(xué)習(xí)方法對(duì)靜態(tài)視頻幀(即圖像關(guān)鍵幀)進(jìn)行特征學(xué)習(xí)。在具體應(yīng)用中,一旦確定合理的靜態(tài)關(guān)鍵幀提取和編碼方式,也能形成較好的視頻描述效果。二是動(dòng)態(tài)視頻時(shí)序特征描述。有學(xué)者曾提出密集軌跡方法對(duì)視頻進(jìn)行分析,取得了不錯(cuò)效果[10,22]。三是前面兩種方法的有機(jī)結(jié)合。牛津大學(xué)的Simonyan等提出采用時(shí)間和空間深度神經(jīng)網(wǎng)絡(luò)來對(duì)視頻進(jìn)行分析,時(shí)間軸輸入的原始視頻,用于對(duì)視頻中的視覺對(duì)象進(jìn)行識(shí)別,空間軸輸入的時(shí)序關(guān)聯(lián)場(chǎng),用于對(duì)視頻中視覺對(duì)象的動(dòng)作及其軌跡進(jìn)行識(shí)別[23]。
目前國(guó)內(nèi)外也有大量針對(duì)視覺內(nèi)容分析與表達(dá)方面的競(jìng)賽,比如2013年美國(guó)佛羅里達(dá)大學(xué)組織開展的THUMOS比賽,就對(duì)海量視覺數(shù)據(jù)集中異構(gòu)無序的視覺資源進(jìn)行分析和理解,該項(xiàng)賽事隨后每年都會(huì)開展相關(guān)研究。國(guó)內(nèi)外許多高校、科研機(jī)構(gòu)都積極參與到該項(xiàng)賽事中,如清華大學(xué)、浙江大學(xué)、香港中文大學(xué)、卡耐基梅隆大學(xué)、悉尼科技大學(xué)等。美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所2011年組織開展的TRECVID比賽,針對(duì)大規(guī)模視覺數(shù)據(jù)集中復(fù)雜視覺資源中事件監(jiān)測(cè)問題展開研究。近幾年來,該項(xiàng)賽事也一直在圍繞著這個(gè)主題開展相關(guān)研究,國(guó)內(nèi)許多高校,如復(fù)旦大學(xué)、浙江大學(xué)、北京理工大學(xué)與同濟(jì)大學(xué)等,在這項(xiàng)賽事中也獲得了一定成績(jī)。
目前雖然在視覺大數(shù)據(jù)資源的組織、分析、理解和利用方法上有很多研究成果,但這些成果最終目的是應(yīng)用于視覺搜索。近年來一系列研究對(duì)于視覺搜索及其在各行業(yè)、領(lǐng)域的應(yīng)用與推廣工作起到了積極作用,這對(duì)于數(shù)字圖書館領(lǐng)域而言,是一個(gè)積極信號(hào)。
3 大數(shù)據(jù)環(huán)境下視覺搜索研究的5個(gè)核心問題
盡管視覺搜索已經(jīng)獲得了工業(yè)界和學(xué)術(shù)界(包括數(shù)字圖書館領(lǐng)域在內(nèi))的高度關(guān)注,但目前在國(guó)內(nèi)并未得到廣泛應(yīng)用及推廣,主要原因是由于相關(guān)技術(shù)與應(yīng)用產(chǎn)品尚未完全成熟,存在著視覺搜索性能不夠理想或不夠穩(wěn)定、用戶體驗(yàn)質(zhì)量不佳、應(yīng)用局限性較強(qiáng)等問題,圍繞這些問題,就需要從視覺搜索研究基礎(chǔ)理論與技術(shù)角度來解決。從數(shù)字圖書館視覺搜索模式構(gòu)建流程[1]來看,視覺搜索研究主要包括5個(gè)核心問題,分別描述如下。
1)視覺大數(shù)據(jù)資源的獲取與組織方法。互聯(lián)網(wǎng)環(huán)境下視覺大數(shù)據(jù)資源的存在形式是動(dòng)態(tài)無序和異構(gòu)離散的,視覺資源的生產(chǎn)和發(fā)布是動(dòng)態(tài)變化的。視覺資源所蘊(yùn)含的信息內(nèi)容都包含多個(gè)異構(gòu)、復(fù)雜的信息主題,彼此之間存在語義時(shí)空關(guān)聯(lián)關(guān)系。而傳統(tǒng)基于人工標(biāo)注的視覺資源標(biāo)注方法往往不夠精確,因此,如何快速獲取到所需視覺資源,是視覺搜索應(yīng)用的關(guān)鍵問題。而對(duì)與待搜索視覺對(duì)象無關(guān)的視覺資源的清洗過濾,以及視覺大數(shù)據(jù)資源的有效組織是視覺搜索應(yīng)用的核心問題。
2)視覺大數(shù)據(jù)資源的理解與表達(dá)方法。為了在海量視覺大數(shù)據(jù)資源中找到與待搜索對(duì)象一致的視覺資源,就需要從符合待搜索視覺資源的特征分析與理解出發(fā),對(duì)其視覺內(nèi)容進(jìn)行多元化、結(jié)構(gòu)化、多層次的深度理解和表達(dá)。
3)視覺大數(shù)據(jù)資源整合與交互方法。視覺搜索作為一種信息檢索模式,其服務(wù)對(duì)象是用戶。對(duì)視覺大數(shù)據(jù)資源的獲取與組織、理解與表達(dá)的目的是為了給用戶提供智慧化、人性化的知識(shí)服務(wù)。因此,如何圍繞視覺大數(shù)據(jù)資源整合全生命周期進(jìn)行多維度分析,從而滿足用戶對(duì)視覺大數(shù)據(jù)資源的多元化知識(shí)服務(wù)需求,也是視覺搜索研究能否成為現(xiàn)實(shí)的核心問題。
4)視覺對(duì)象知識(shí)庫建設(shè)及標(biāo)準(zhǔn)化問題。視覺搜索依賴于視覺對(duì)象知識(shí)庫的建設(shè)。基于高質(zhì)量的視覺對(duì)象知識(shí)庫,用戶可快速將待搜索視覺對(duì)象與虛擬信息空間中的視覺大數(shù)據(jù)資源進(jìn)行有效關(guān)聯(lián),從而享受到數(shù)字圖書館提供的視覺搜索知識(shí)服務(wù)。同時(shí),標(biāo)準(zhǔn)化問題也是視覺搜索應(yīng)用能否順利應(yīng)用和推廣的關(guān)鍵所在。
5)視覺搜索體系的安全與可靠性理論。無論在任何時(shí)候,網(wǎng)絡(luò)安全及系統(tǒng)可靠性問題是永遠(yuǎn)無法回避的難題,視覺搜索亦不例外。在視覺搜索體系中,數(shù)據(jù)安全性與知識(shí)產(chǎn)權(quán)、用戶隱私權(quán)、系統(tǒng)可用性與可靠性等問題亦是視覺搜索能否得到有效推廣與應(yīng)用的核心問題。
4 總結(jié)與展望
在“互聯(lián)網(wǎng)+”時(shí)代,信息服務(wù)正越來越廣泛地深入到用戶智慧化、個(gè)性化和嵌入式的知識(shí)服務(wù)需求中去,數(shù)字圖書館領(lǐng)域開始呼喚新型的殺手級(jí)信息檢索模式。視覺搜索是當(dāng)前信息檢索領(lǐng)域發(fā)展的一個(gè)重要前沿和創(chuàng)新突破口,在充分汲取國(guó)內(nèi)外信息科學(xué)領(lǐng)域先進(jìn)研究成果的基礎(chǔ)上,開展數(shù)字圖書館視覺搜索基礎(chǔ)理論與應(yīng)用研究,不僅有望從理論上豐富數(shù)字圖書館知識(shí)服務(wù)研究思想與未來發(fā)展框架,也有利于揭示數(shù)字圖書館中視覺大數(shù)據(jù)資源價(jià)值的產(chǎn)生機(jī)理與轉(zhuǎn)換規(guī)律。
毫無疑問,人類正在向“‘互聯(lián)網(wǎng)+’時(shí)代”邁進(jìn),作為一種技術(shù)與理念創(chuàng)新,視覺搜索必然符合一般信息技術(shù)生存、發(fā)展與成熟基本規(guī)律,需要經(jīng)歷技術(shù)誕生的萌芽期、飛速進(jìn)步的發(fā)展期、迅速膨脹的高峰期、去泡沫化的低谷期、穩(wěn)步發(fā)展的光明期和實(shí)際應(yīng)用的高峰期6個(gè)階段。目前來看,國(guó)內(nèi)外已有視覺搜索研究正處于發(fā)展期,存在著理論與技術(shù)交叉之后學(xué)科間的不平衡這一問題。當(dāng)前視覺搜索的理論、方法與技術(shù)研究主要集中在商業(yè)型視覺搜索應(yīng)用上,對(duì)于產(chǎn)生視覺大數(shù)據(jù)資源的學(xué)術(shù)領(lǐng)域則關(guān)注較少。實(shí)際上,以科學(xué)研究、學(xué)科服務(wù)等學(xué)術(shù)領(lǐng)域?yàn)榇淼囊曈X大數(shù)據(jù)資源,具有異于商業(yè)型應(yīng)用的豐富內(nèi)涵與獨(dú)特特征,只有全面掌握商業(yè)應(yīng)用與學(xué)術(shù)領(lǐng)域的相關(guān)研究,才有助于建立更加科學(xué)、系統(tǒng)、合理的視覺搜索理論體系和應(yīng)用框架。
來源:《情報(bào)理論與實(shí)踐》
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1【金猿案例展】中國(guó)銀聯(lián):以內(nèi)外聯(lián)動(dòng)的數(shù)
-
2全棧云原生產(chǎn)品戰(zhàn)略升級(jí),時(shí)速云領(lǐng)跑云原
-
3新趨勢(shì)·新未來 | 2019第六屆中國(guó)嬰幼
-
4【金猿產(chǎn)品展】中原銀行智能化BI:一站式
-
5【金猿產(chǎn)品展】易觀方舟:智能用戶數(shù)據(jù)中
-
6【金猿人物展】張涵誠: 2020年大數(shù)據(jù)產(chǎn)
-
7小飯桌2019全球青年創(chuàng)業(yè)者大會(huì)圓滿舉辦,
-
8繁華之下有隱憂,零售企業(yè)如何走出增長(zhǎng)困
-
9【金猿產(chǎn)品展】羽扇決策引擎平臺(tái):運(yùn)籌帷
-
10【金猿案例展】國(guó)網(wǎng)上海市電力:智能配用