海云研究院院長(zhǎng)趙丹:知識(shí)本體與大數(shù)據(jù)處理
趙丹 | 2016-07-12 14:26
【數(shù)據(jù)猿導(dǎo)讀】 標(biāo)簽使不同的人對(duì)數(shù)據(jù)所對(duì)應(yīng)的概念達(dá)成共識(shí),這個(gè)共識(shí)是基于對(duì)概念體系本身的共識(shí)而產(chǎn)生的。所以前提是數(shù)據(jù)的設(shè)計(jì)者和使用者擁有部分相同的概念體系。這些相同的概念體系的部分,如果可以形式化地記錄下來(lái),就形成了外在于這些參與者的公共知識(shí),這些被形式化了的公共知識(shí)也被稱作知識(shí)本...

最近總有人提Palantir,這家美國(guó)大數(shù)據(jù)分析公司,據(jù)說(shuō)著名的“棱鏡”就是他家開發(fā)的。上個(gè)月又爆出Palantir業(yè)績(jī)不佳大裁員的消息,據(jù)說(shuō)裁掉了上百名數(shù)據(jù)分析師。
俺在三年前研究過(guò)Palantir的技術(shù)路線和系統(tǒng)架構(gòu),P家實(shí)現(xiàn)了多種來(lái)源的結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù)的導(dǎo)入與集成,以及結(jié)合時(shí)空和人物線索的探索式數(shù)據(jù)分析,其核心技術(shù)中使用了動(dòng)態(tài)本體(Dynamic Ontology)。
說(shuō)起這個(gè)動(dòng)態(tài)本體,背后還有深厚的哲學(xué)背景。本體 Ontology 可以追溯柏拉圖的邏各斯,亞里士多德的形而上學(xué)。
這個(gè)圖說(shuō)的是著名的柏拉圖的洞穴比喻。柏拉圖認(rèn)為現(xiàn)實(shí)世界都是理性世界的倒影,理性世界才是世界的本質(zhì),是完美的。就好比是在洞穴中,囚犯只看到了投在洞穴墻壁上的影子,只能通過(guò)這些影子推測(cè)理性世界的樣子。
具體到“本體”(Ontology)這個(gè)詞。
本體論(Ontology)是探究世界的本原或基質(zhì)的哲學(xué)理論,該詞是由17世紀(jì)的德國(guó)經(jīng)院學(xué)者郭克蘭紐(Goclenius,1547-1628)首先使用的。此詞由ont(?ντ)加上表示“學(xué)問(wèn)”、“學(xué)說(shuō)”的詞綴——ology構(gòu)成,即是關(guān)于ont的學(xué)問(wèn)。ont源出希臘文,是on(?ν)的變式,相當(dāng)于英文的being;也就是巴門尼德(Parmenides)的“存在”。以上出自必應(yīng)網(wǎng)典。
簡(jiǎn)而言之,本體意味著存在一個(gè)外在的完美的知識(shí)體系,不依賴人類的認(rèn)識(shí)而存在。人類探索知識(shí)的過(guò)程就是不斷從現(xiàn)實(shí)世界的現(xiàn)象中,摸索、推測(cè)這個(gè)完美知識(shí)體系的過(guò)程。人類的認(rèn)識(shí)注定只能不斷接近,卻永遠(yuǎn)達(dá)不到這個(gè)完美的知識(shí)體系。
講本體的哲學(xué)來(lái)源,和Palantir,和數(shù)據(jù)處理有什么關(guān)系呢?這就涉及到數(shù)據(jù)的本質(zhì)到底是什么的問(wèn)題了。
數(shù)據(jù)形式上只是一些有結(jié)構(gòu)的數(shù),僅僅有數(shù)是沒(méi)有用的,使用數(shù)據(jù)首先需要對(duì)數(shù)據(jù)的結(jié)構(gòu)作出解釋。所謂解釋,就是貼上概念的標(biāo)簽。
通常的關(guān)系數(shù)據(jù)庫(kù)設(shè)計(jì),每一列都有一個(gè)標(biāo)簽,每個(gè)表又有一個(gè)標(biāo)簽。如果這些標(biāo)簽是有意義的文字,那么通常文字的意義就是對(duì)列或者表的解釋,如果不是,那就會(huì)有一個(gè)把標(biāo)簽轉(zhuǎn)換為有意義文字的辦法,這個(gè)辦法通常是寫在設(shè)計(jì)文檔里。
當(dāng)然如果數(shù)據(jù)的使用者就只有原始設(shè)計(jì)者一個(gè)人,也可以不加解釋,這種情況下,實(shí)際上也是有解釋的,只不過(guò)這種解釋只存在于那個(gè)人頭腦里罷了。有了解釋,一個(gè)人設(shè)計(jì)的數(shù)據(jù)結(jié)構(gòu)就可以被其他人利用。
標(biāo)簽使不同的人對(duì)數(shù)據(jù)所對(duì)應(yīng)的概念達(dá)成共識(shí),這個(gè)共識(shí)是基于對(duì)概念體系本身的共識(shí)而產(chǎn)生的。所以前提是數(shù)據(jù)的設(shè)計(jì)者和使用者擁有部分相同的概念體系。這些相同的概念體系的部分,如果可以形式化地記錄下來(lái),就形成了外在于這些參與者的公共知識(shí),這些被形式化了的公共知識(shí)也被稱作知識(shí)本體,由于表現(xiàn)形式主要是概念節(jié)點(diǎn)以及概念之間的關(guān)系組成的網(wǎng)絡(luò),是圖結(jié)構(gòu),知識(shí)本體又被稱作知識(shí)圖譜。
共享同一套知識(shí)本體,使得數(shù)據(jù)設(shè)計(jì)者與數(shù)據(jù)使用者,對(duì)于數(shù)據(jù)的使用方式達(dá)成共識(shí)。這就保證了數(shù)據(jù)使用者可以按照數(shù)據(jù)設(shè)計(jì)者最初的意圖去使用數(shù)據(jù),去進(jìn)行各種變換,計(jì)算。
不同來(lái)源的數(shù)據(jù)通常各自背后都有一套概念體系,如果各自的概念體系之間有交集,就可以把這些概念體系連接起來(lái),如果連接起來(lái)之后的概念體系當(dāng)中沒(méi)有邏輯上的矛盾,就說(shuō)這些概念體系融合到一起了,這就是知識(shí)融合。
達(dá)成了知識(shí)融合,多個(gè)來(lái)源的數(shù)據(jù)就可以混合起來(lái),一起參加各種運(yùn)算,這就是數(shù)據(jù)融合。因此數(shù)據(jù)融合是以知識(shí)融合為基礎(chǔ)的,只不過(guò)知識(shí)融合有時(shí)候只發(fā)生在負(fù)責(zé)數(shù)據(jù)融合的人的頭腦之中,沒(méi)有外在的形式化表示,看起來(lái)好像并沒(méi)有做知識(shí)融合這個(gè)步驟。
來(lái)源:海云數(shù)據(jù)可視化-HYDATA
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
3數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會(huì)丨《云MSP發(fā)展白皮書》重