易建基于本體的行業(yè)知識(shí)圖譜構(gòu)建技術(shù)研究 在旅游、金融行業(yè)應(yīng)用初具成效
【數(shù)據(jù)猿導(dǎo)讀】 知識(shí)圖譜技術(shù)的發(fā)展,決定了它極強(qiáng)的互聯(lián)網(wǎng)數(shù)據(jù)屬性和搜索的目的性。鮑立飛表示,這就要求行業(yè)領(lǐng)域在應(yīng)用知識(shí)圖譜時(shí),要從行業(yè)自身的數(shù)據(jù)特點(diǎn)和業(yè)務(wù)目標(biāo)出發(fā)去研究和落地。而這正好是易建未來所關(guān)注的重點(diǎn),利用所擁有的數(shù)據(jù),轉(zhuǎn)化成更有價(jià)值的資源,為行業(yè)的發(fā)展提供更便利的管理手段

知識(shí)圖譜以其強(qiáng)大的語義處理能力和開放組織能力,為互聯(lián)網(wǎng)時(shí)代的知識(shí)化組織和智能應(yīng)用奠定了基礎(chǔ),其應(yīng)用趨勢(shì)也從通用領(lǐng)域走向行業(yè)領(lǐng)域。許多行業(yè)為了應(yīng)對(duì)大數(shù)據(jù)應(yīng)用的不同挑戰(zhàn),借助知識(shí)圖譜,實(shí)現(xiàn)不同的業(yè)務(wù)需求,實(shí)現(xiàn)了通用和行業(yè)應(yīng)用“百花齊放”的局面。
本期筆者采訪了易建科技智慧城市事業(yè)部知識(shí)工程團(tuán)隊(duì)經(jīng)理、知識(shí)圖譜技術(shù)研究人員鮑立飛,詳細(xì)闡述了易建如何深度開發(fā)基于本體的行業(yè)知識(shí)圖譜構(gòu)建技術(shù)及應(yīng)用。
如何構(gòu)建一個(gè)有效的知識(shí)圖譜?
知識(shí)圖譜構(gòu)建主要有自頂向下(Top-Down)和自底向上(Bottom-Up)兩種方法。所謂自頂向下的方法是指首先為知識(shí)圖譜定義數(shù)據(jù)模式,在定義本體的過程中,首先從最頂層的概念開始,然后逐步進(jìn)行細(xì)化,形成結(jié)構(gòu)良好的分類學(xué)層次結(jié)構(gòu);在定義好數(shù)據(jù)模式后,再把實(shí)體一個(gè)個(gè)往概念中添加。自底向上的方法則剛好相反,首先從實(shí)體開始,對(duì)實(shí)體進(jìn)行歸納組織,形成底層的概念,然后逐步往上抽象,形成上層的概念。
兩種方法在具體的構(gòu)建過程中通常都不是從零開始的,前者可以利用一些現(xiàn)有的結(jié)構(gòu)化的知識(shí)庫,而后者則可以從開放鏈接數(shù)據(jù)或在線百科中得到很多實(shí)體。在領(lǐng)域本體實(shí)際構(gòu)建過程中,易建則采用了自頂向下和自底向上相結(jié)合的方法。
知識(shí)圖譜的構(gòu)建過程包括本體建模、知識(shí)抽取、知識(shí)融合、知識(shí)存儲(chǔ)、知識(shí)推理這幾個(gè)步驟。
本體建模
就鮑立飛而言,構(gòu)建本體的目的是識(shí)別、描述和表示相關(guān)領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定領(lǐng)域內(nèi)共同認(rèn)可的對(duì)象模型,并從不同層次的形式化模式上給出了這些對(duì)象和對(duì)象間相互關(guān)系的明確定義。本體描述了知識(shí)圖譜的概念模式,同時(shí)知識(shí)圖譜在本體的基礎(chǔ)上進(jìn)行了豐富和擴(kuò)充,而知識(shí)圖譜則是在本體的基礎(chǔ)上,增加了更加豐富的關(guān)于實(shí)體的信息。
在行業(yè)知識(shí)圖譜構(gòu)建的過程中,需要先構(gòu)建本體模型,本體模型是為了對(duì)整個(gè)行業(yè)特定的知識(shí)圖譜所需的數(shù)據(jù)模型進(jìn)行定義,因此需要保證可靠性。在本體模型中我們需要構(gòu)建本體的概念,屬性以及概念之間的關(guān)系。
在構(gòu)建行業(yè)知識(shí)圖譜的本體模型時(shí),通常需要借助領(lǐng)域?qū)<抑R(shí)來引導(dǎo)構(gòu)建本體模型,才能保證知識(shí)圖譜的質(zhì)量,之后的知識(shí)計(jì)算,知識(shí)推理才能更好的發(fā)揮作用。
知識(shí)抽取
知識(shí)抽取是從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中進(jìn)行信息提取,形成知識(shí)存入知識(shí)圖譜中。知識(shí)抽取處理的對(duì)象按照結(jié)構(gòu)化程度可以分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息。
結(jié)構(gòu)化文檔具有良好的布局結(jié)構(gòu),可以很容易地對(duì)其執(zhí)行知識(shí)抽取。結(jié)構(gòu)化文檔主要存儲(chǔ)在業(yè)務(wù)數(shù)據(jù)庫,可以通過ETL從結(jié)構(gòu)化信息中提取知識(shí)。
在處理半結(jié)構(gòu)化數(shù)據(jù)方面,主要的工作是通過編寫包裝器,從半結(jié)構(gòu)化數(shù)據(jù)中提取實(shí)體屬性,適用在百科類站點(diǎn)、垂直網(wǎng)站中進(jìn)行包裝器歸納,從網(wǎng)頁表格中提取屬性信息。
非結(jié)構(gòu)化文檔是指由符合某種語言表達(dá)規(guī)范的自然語言語句組成的文檔,這類文檔表達(dá)方式靈活,可以用不同的形式和詞匯表達(dá)相同的意思,因此對(duì)這類文檔進(jìn)行知識(shí)抽取是非常困難的,往往要借助自然語言處理技術(shù)對(duì)其進(jìn)行語法和語義分析。
知識(shí)存儲(chǔ)
知識(shí)圖譜最適合處理關(guān)聯(lián)密集型的數(shù)據(jù),解決的是實(shí)體及實(shí)體之間的關(guān)系,即具有有向圖結(jié)構(gòu)的一個(gè)知識(shí)庫,因此適合以圖的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ),其存儲(chǔ)方式主要有RDF 和圖數(shù)據(jù)庫兩種方式。
在具體的知識(shí)圖譜工程中,為了滿足不同的業(yè)務(wù)需求,比如統(tǒng)計(jì)型、復(fù)雜關(guān)系型等,往往采用復(fù)合的存儲(chǔ)模式,如下:
實(shí)踐經(jīng)驗(yàn)如下:
文本型數(shù)據(jù):使用NoSQL數(shù)據(jù)庫存儲(chǔ)。
關(guān)系型數(shù)據(jù):使用圖形數(shù)據(jù)存儲(chǔ),包括實(shí)體、關(guān)系、屬性。
關(guān)聯(lián)型數(shù)據(jù):作為記錄型數(shù)據(jù)存入合適的存儲(chǔ)中(盡量不入圖存儲(chǔ)),通過實(shí)體鏈接與圖譜中實(shí)體關(guān)聯(lián)。
時(shí)序型數(shù)據(jù):一般作為事件來補(bǔ)充知識(shí)圖譜,可存在圖數(shù)據(jù)庫或者文檔數(shù)據(jù)庫中,如果是海量數(shù)據(jù)并作為實(shí)時(shí)分析,采用特定時(shí)序數(shù)據(jù)庫存儲(chǔ)。
統(tǒng)計(jì)型數(shù)據(jù):使用SQL數(shù)據(jù)庫存儲(chǔ)。
知識(shí)融合
知識(shí)融合指的是將多個(gè)數(shù)據(jù)源抽取的知識(shí)進(jìn)行融合后集成到知識(shí)圖譜中。在進(jìn)行知識(shí)融合時(shí),需要解決多種類型的數(shù)據(jù)沖突問題,包括一個(gè)短語對(duì)應(yīng)多個(gè)實(shí)體、實(shí)體屬性名不一致、實(shí)體屬性缺失、實(shí)體屬性值不一致、實(shí)體屬性值一對(duì)多映射等情況。知識(shí)融合階段主要對(duì)數(shù)據(jù)進(jìn)行本體對(duì)齊和實(shí)體匹配。
本體對(duì)齊更強(qiáng)調(diào)概念層的融合,主要工作有概念的合并,概念上下位關(guān)系合并,概念的屬性定義合并。而實(shí)體匹配更強(qiáng)調(diào)數(shù)據(jù)層的融合,主要工作又有實(shí)體鏈接,數(shù)據(jù)融合,沖突檢測(cè)與解決。
由于我們?cè)跇?gòu)建過程中采用的自頂向下和自底向上結(jié)合的方式,因此基本都經(jīng)過人工的校驗(yàn),保證了概念層的可靠性;因此,知識(shí)融合的關(guān)鍵任務(wù)在數(shù)據(jù)層的融合。
數(shù)據(jù)層融合即實(shí)體匹配也叫實(shí)體對(duì)齊,其目的在于發(fā)現(xiàn)具有不同標(biāo)識(shí)卻代表真實(shí)世界中同一對(duì)象的那些實(shí)體,并將這些實(shí)體歸并為一個(gè)具有全局唯一標(biāo)識(shí)的實(shí)體對(duì)象,然后添加到知識(shí)圖譜中。
知識(shí)推理
知識(shí)推理是通過各種方式獲取新的知識(shí)或結(jié)論,這些知識(shí)和結(jié)論滿足語義。主要分為本體推理和規(guī)則推理。
基于本體的推理,本體推理主要是通過預(yù)定義的本體公理上進(jìn)行推理,例如本體中定義的subclass,subproperty,domain,range,funtional等一些公理進(jìn)行推理。但是無法自定義一些推理規(guī)則。
基于規(guī)則的推理,規(guī)則推理可以根據(jù)特定的場景定制規(guī)則,以實(shí)現(xiàn)自定義的推理過程,推理屬性規(guī)則比如知道某人出生年月,可以計(jì)算出其年齡。推理關(guān)系規(guī)則,定義父親的父親是爺爺,已知A是B的父親,B是C的父親,則可以推出A是C的爺爺。
將數(shù)據(jù)轉(zhuǎn)化成更有價(jià)值的資源
發(fā)展的需要和現(xiàn)實(shí)的痛點(diǎn),往往會(huì)催生一項(xiàng)技術(shù)的發(fā)展。綜觀當(dāng)前國內(nèi)旅游業(yè)發(fā)展,‘量體裁衣’式的旅游定制受到了越來越多人的喜愛,旅游消費(fèi)移動(dòng)化、便捷化正成為新動(dòng)向。更加智慧的旅游讓傳統(tǒng)旅游企業(yè)趨之若鶩,但由于技術(shù)的挑戰(zhàn),又使得這些企業(yè)在轉(zhuǎn)型過程中一度犯難。知識(shí)圖譜的關(guān)聯(lián)價(jià)值此時(shí)正好得到了用武之地。
洞察這一趨勢(shì)后,鮑立飛團(tuán)隊(duì)著手開始知識(shí)圖譜在旅游行業(yè)的應(yīng)用探索。知識(shí)圖譜和旅游行業(yè)“結(jié)親”的一個(gè)重要因素,還來源于易建所處的海南這個(gè)極具區(qū)位特色、資源稟賦的旅游勝地。近兩年,海南通過全域旅游統(tǒng)籌推進(jìn)旅游供給側(cè)結(jié)構(gòu)性改革,基本形成了全域旅游發(fā)展新格局。旅游信息化的智能處理,使得海南旅游業(yè)的內(nèi)生動(dòng)力得到了有效激發(fā)。知識(shí)圖譜能夠高度還原真實(shí)世界,做到“萬物互聯(lián)”,并對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行智能地治理和整合,能夠讓海量的旅游數(shù)據(jù)為其所用,這對(duì)全域旅游的發(fā)展來說是個(gè)利好消息。
“利用知識(shí)圖譜最重要的是讓機(jī)器讀懂世界,理解人的語言。”鮑立飛說,相較于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,易建構(gòu)建的智慧旅游智能問答系統(tǒng)更側(cè)重于大數(shù)據(jù)分析、挖掘技術(shù)與AI技術(shù)的強(qiáng)強(qiáng)聯(lián)手,能夠深度理解人類的語言和支持推理,通過實(shí)時(shí)呈現(xiàn)出更多有價(jià)值的信息,讓旅游體驗(yàn)更加舒適化、便捷化。這一切都離開不開其強(qiáng)大的后臺(tái)運(yùn)轉(zhuǎn):智慧旅游知識(shí)圖譜體系將游、購、娛、吃、住、行等六個(gè)要素的海量數(shù)據(jù)建立起關(guān)系網(wǎng),并將多數(shù)據(jù)源進(jìn)行打通關(guān)聯(lián),從而整合成為機(jī)器可以理解的結(jié)構(gòu)化數(shù)據(jù),再通過智慧旅游智能問答系統(tǒng)的旅游聊天機(jī)器人服務(wù)于游客的全旅程。只要建立的旅游知識(shí)圖譜足夠大,機(jī)器人就可以回答各種各類的旅游問題;同時(shí)在與游客聊天和交流過程中,機(jī)器人也可以不斷的學(xué)習(xí)新知識(shí),及時(shí)補(bǔ)充新信息。既能為管理部門提供了先進(jìn)的管理手段,又為游客提供了游前、游中、游后一體化的智能體驗(yàn)服務(wù),這個(gè)會(huì)思考的“旅游達(dá)人”出現(xiàn)后,受到了旅游業(yè)內(nèi)人士的高度關(guān)注。
易建智慧旅游智能問答系統(tǒng)
由于知識(shí)圖譜的應(yīng)用,也解決了反欺詐中的數(shù)據(jù)整合并構(gòu)建反欺詐引擎,從而有效地識(shí)別出欺詐案件(如身份造假,團(tuán)體欺詐,代辦包裝等)等問題,這使得它在風(fēng)險(xiǎn)防控工作中也有很好的“口碑”。鮑立飛指出,通過知識(shí)圖譜復(fù)雜網(wǎng)絡(luò)計(jì)算,可以找出網(wǎng)絡(luò)中相關(guān)子圖,檢測(cè)出異常案件,幫助保險(xiǎn)公司對(duì)可疑案件進(jìn)行有效的問題排查及跟蹤,規(guī)避理賠資金風(fēng)險(xiǎn),提升打假效率。
易建研發(fā)的車險(xiǎn)業(yè)務(wù)知識(shí)圖譜
知識(shí)圖譜技術(shù)的發(fā)展,決定了它極強(qiáng)的互聯(lián)網(wǎng)數(shù)據(jù)屬性和搜索的目的性。鮑立飛表示,這就要求行業(yè)領(lǐng)域在應(yīng)用知識(shí)圖譜時(shí),要從行業(yè)自身的數(shù)據(jù)特點(diǎn)和業(yè)務(wù)目標(biāo)出發(fā)去研究和落地。而這正好是易建未來所關(guān)注的重點(diǎn),利用所擁有的數(shù)據(jù),轉(zhuǎn)化成更有價(jià)值的資源,為行業(yè)的發(fā)展提供更便利的管理手段。
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新