我國開啟地方政府開放數(shù)據(jù)的核心元數(shù)據(jù)研究
于夢月 翟軍 林巖 | 2017-09-19 10:43
【數(shù)據(jù)猿導讀】 開放政府數(shù)據(jù)能夠激勵創(chuàng)新、促進經(jīng)濟增長,但用戶發(fā)現(xiàn)、理解和使用開放數(shù)據(jù)離不開高質(zhì)量的元數(shù)據(jù)的支持。借鑒和參考國際先進經(jīng)驗,構(gòu)建我國地方政府開放數(shù)據(jù)的元數(shù)據(jù)方案具有較強的現(xiàn)實意義。

引言
各級政府掌握著全社會80%的數(shù)據(jù)資源[1],“開放政府數(shù)據(jù)”(Open Government Data,OGD)能夠最大限度地推動全社會數(shù)據(jù)資源的有效配置和充分利用[2-3],成為各國政府實踐和學術(shù)研究的熱點[3]。全球范圍興起的“開放政府數(shù)據(jù)運動”始于2009年美國政府推動的“開放政府行動計劃”(Open Government Initiative)[4-5],兩年后的2011年9月美國、英國、巴西等8個國家成立了“開放政府合作組織”(Open Government Partnership,OGP)。到2016年8月其成員國已發(fā)展到70個,相繼推出“國家行動計劃”,從法律、技術(shù)、信息基礎(chǔ)設(shè)施和應用等維度推動各層次的政府數(shù)據(jù)開放。根據(jù)世界銀行的統(tǒng)計,目前已有超過250個政府(含中央政府和地方政府)實施“開放數(shù)據(jù)行動計劃”[6]。
構(gòu)建政府數(shù)據(jù)管理、開放、查詢和再利用的官方平臺,發(fā)布開放數(shù)據(jù)目錄(Open Data Catalogs)的“一站式”門戶網(wǎng)站(Portals)是各國在開放政府數(shù)據(jù)運動中普遍采取的關(guān)鍵舉措[4,7]。到2016年8月,DataPortals.org收集的數(shù)據(jù)門戶網(wǎng)站已達520個。我國從2012年開始,北京、上海、浙江、重慶、武漢和青島等地方政府相繼推出了十余個開放數(shù)據(jù)的門戶網(wǎng)站[8]。2015年9月5日國務(wù)院印發(fā)的《促進大數(shù)據(jù)發(fā)展行動綱要》明確在2018年底前要建成國家政府數(shù)據(jù)統(tǒng)一開放平臺。
開放數(shù)據(jù)是政府信息公開在大數(shù)據(jù)時代的發(fā)展和深化[9]。正如“元數(shù)據(jù)對政府公開信息的描述、發(fā)現(xiàn)和管理有著極其重要的作用”[10]一樣,數(shù)據(jù)目錄平臺的核心功能是開放數(shù)據(jù)集的元數(shù)據(jù)管理[8,11-13]。復旦大學鄭磊等構(gòu)建的“中國政府開放數(shù)據(jù)整體評估框架”中,“元數(shù)據(jù)”是13個評估維度之一[8];英國開放數(shù)據(jù)研究所(Open Data Institute,ODI)開發(fā)和維護開放數(shù)據(jù)質(zhì)量的在線評估工具“開放數(shù)據(jù)合格證書”(Open Data Certificate),將標準的、機器可讀的元數(shù)據(jù)作為考查的基本指標之一[14]。隨著開放數(shù)據(jù)運動的逐步深入,元數(shù)據(jù)從提高開放數(shù)據(jù)集的可發(fā)現(xiàn)性[15]到幫助用戶理解、選擇數(shù)據(jù)集[16],正在向標準化、語義化和機器可讀的方向發(fā)展。
在政府實踐和學術(shù)研究領(lǐng)域,我國已開始加快追趕全球開放數(shù)據(jù)浪潮的腳步[2]。在元數(shù)據(jù)上,雖然目前各地方政府對于開放的數(shù)據(jù)都能提供基本的元數(shù)據(jù)信息[17],但元數(shù)據(jù)的方案各不相同、對數(shù)據(jù)集的描述尚不全面、格式以HTML網(wǎng)頁和文本文件為主,離規(guī)范化、標準化、互操作和機器可讀的目標還存在著不小的差距,這將影響到數(shù)據(jù)開放的效果[17]。為此,本文借鑒國際先進經(jīng)驗,在分析地方政府開放數(shù)據(jù)平臺元數(shù)據(jù)不足的基礎(chǔ)上,設(shè)計基于W3C DCAT標準的核心元數(shù)據(jù)方案,為我國各級政府開放數(shù)據(jù)平臺的建設(shè)和升級提供借鑒和參考。
1 國外開放政府數(shù)據(jù)的元數(shù)據(jù)現(xiàn)狀
1.1 開放數(shù)據(jù)的元數(shù)據(jù)標準由蒂姆·伯納斯-李領(lǐng)導的W3C是政府數(shù)據(jù)開放運動的積極推動者[18]。W3C電子政務(wù)標準行動計劃(eGov Activity)設(shè)有電子政務(wù)興趣小組(eGovernment Interest Group)和政府關(guān)聯(lián)數(shù)據(jù)工作組(Government Linked Data Working Group)。經(jīng)歷兩年的研制,2014年1月16日,政府關(guān)聯(lián)數(shù)據(jù)工作組最終發(fā)布了由愛爾蘭國立大學DERI(Digital Enterprise Research Institute)起草、電子政務(wù)興趣小組修改的政府開放數(shù)據(jù)元數(shù)據(jù)的正式推薦標準——DCAT(Data Catalog Vocabulary)[19]。
DCAT是RDF詞匯表,支持數(shù)據(jù)目錄之間的互操作性(interoperability)。DCAT詞匯表共有7個類、17個屬性,主要類和屬性如圖1所示[19],其中復用了都柏林核心元數(shù)據(jù)(Dublin Core)、FOAF本體和SKOS本體的相關(guān)詞匯。從圖1可見,對于開放數(shù)據(jù)集(dataset),DCAT提供了15個屬性(帶dcat前綴的5個為新屬性)。這些屬性幫助用戶“認識”(如dct:title和dct:description)、“查找”(如dcat:theme和dcat:keyword)、“選擇”(如dct:modified和dct:spatial)、“訪問、讀取或下載”(如dcat:distribution和dcat:landing-Page)和“使用”(如dct:identifier和dcat:contactPoint)數(shù)據(jù),能夠滿足各類數(shù)據(jù)集“開放”的基本需求。
圖1 DCAT詞匯表的主要類及其屬性
根據(jù)W3C的統(tǒng)計,DCAT及其應用綱要(Application Profile)已被歐盟、美國、英國、西班牙、愛爾蘭和意大利等國家廣泛采用[20]。歐盟DCAT-AP(DCAT Application Profile for Data Portals in Europe)已應用到歐盟28國統(tǒng)一的數(shù)據(jù)目錄門戶(www.europeandataportal.eu)上,描述的58萬多個數(shù)據(jù)集涉及文化教育、環(huán)境、交通和能源等13個門類。根據(jù)歐盟2016年8月的最新統(tǒng)計[21],意大利(Dati.Gov.IT)和羅馬尼亞(Data.Gov.RO)等14個數(shù)據(jù)門戶元數(shù)據(jù)對DCAT-AP的符合率為100%,奧地利(Data.Gv.AT)的這一比例為99%。值得一提的是,英國和法國的地理數(shù)據(jù)集對DCAT-AP的符合率分別是93%、97%,立陶宛和北愛爾蘭的空間數(shù)據(jù)則為100%,表明了DCAT的廣泛適應性。愛爾蘭的元數(shù)據(jù)方案在歐盟DCAT-AP的基礎(chǔ)上,增加了描述地理數(shù)據(jù)集的元數(shù)據(jù)[22]。
1.2 美國紐約州開放數(shù)據(jù)的元數(shù)據(jù)方案美國是開放政府數(shù)據(jù)的發(fā)起者和領(lǐng)跑者。從2009年5月21日上線發(fā)布國家層面的數(shù)據(jù)門戶Data.Gov,到2016年8月各級地方政府(州、縣和市)的開放數(shù)據(jù)門戶網(wǎng)站已達到88個[23]。美國各級政府開放數(shù)據(jù)的元數(shù)據(jù)非常重視標準化工作,2014年11月6日更新的國家數(shù)據(jù)門戶的元數(shù)據(jù)方案(Project Open Data Metadata Schemav1.1,POD v1.1)已建立了到DCAT和Schema.org的映射[24]。由于本文主要關(guān)注地方政府,就以紐約州為例介紹一個具體的元數(shù)據(jù)方案。
紐約州政府于2013年3月11日推出開放數(shù)據(jù)平臺Open.ny.gov,隨后信息技術(shù)服務(wù)辦公室于2013年11月6日發(fā)表《開放數(shù)據(jù)手冊》[25],詳盡描述了元數(shù)據(jù)的構(gòu)建原則和方案。表1是根據(jù)《開放數(shù)據(jù)手冊》和Open.ny.gov上的元數(shù)據(jù)實例總結(jié)的紐約州元數(shù)據(jù)方案的主要元素,可見與DCAT有著很高的兼容程度并做了一定的本土化擴展。
2 我國地方政府開放數(shù)據(jù)的元數(shù)據(jù)分析
2.1 目前使用的元數(shù)據(jù)不同于美國、英國等國家從中央政府到地方政府的發(fā)展路徑,目前我國開放數(shù)據(jù)門戶網(wǎng)站主要發(fā)端和實踐于地方政府。表2列出了當前活躍的、代表性的網(wǎng)站的URL。在詳盡調(diào)查各數(shù)據(jù)門戶使用的元數(shù)據(jù)的基礎(chǔ)上,限于篇幅本文以北京市和浙江省為例,給出分析結(jié)果。
“北京市政務(wù)數(shù)據(jù)資源網(wǎng)”由北京市經(jīng)濟和信息化委員會(經(jīng)信委)牽頭建設(shè)、北京市各政務(wù)部門共同參與,于2012年10月推出測試版、2013年年底正式開通。目前已開放來自市教委、市交通委、市旅游委等近40個部門的300多個數(shù)據(jù)集,并為每個數(shù)據(jù)集提供了txt文本格式的元數(shù)據(jù)文件[26]。表3總結(jié)了元數(shù)據(jù)情況,其中第一列的元素名稱取自元數(shù)據(jù)文件,第二列的元素標簽取自HTML頁面,實例數(shù)據(jù)取自“公益性圖書館”數(shù)據(jù)集的描述信息(http://www.bjdata.gov.cn/zyml/azt/wtyy/whcs/whgz/3077.htm)。需要說明的是,實際中并沒有“數(shù)據(jù)資源”這一元素,它是本文為了元數(shù)據(jù)的結(jié)構(gòu)更加簡潔、明晰而引入的,實際使用的7個元素(文件名稱、下載次數(shù)、上傳日期、原始數(shù)據(jù)下載、空間數(shù)據(jù)下載、資源記錄數(shù)、數(shù)據(jù)文件大小)歸結(jié)為它的“修飾詞”。
2015年9月23日,浙江政務(wù)服務(wù)網(wǎng)“數(shù)據(jù)開放”專題網(wǎng)站正式上線。這是國家《促進大數(shù)據(jù)發(fā)展行動綱要》發(fā)布后,全國各省份中第一個推出的政府數(shù)據(jù)統(tǒng)一開放平臺,現(xiàn)已開放出200多個數(shù)據(jù)集。表4給出了網(wǎng)站的元數(shù)據(jù)使用情況,由于只有HTML格式的元數(shù)據(jù)信息,所以不區(qū)分元素的名稱與標簽,實例數(shù)據(jù)取自“公共圖書館信息”數(shù)據(jù)集的描述信息(http://data.zjzwfw.gov.cn/catedetail.action resid=210551/20150610110144613008&catecode=SJLY005)。同表3一樣,實際中也沒有“數(shù)據(jù)資源”這一元素,表4中的“元素修飾詞”是我們根據(jù)實際情況總結(jié)的。
2.2 元數(shù)據(jù)的不足 目前的元數(shù)據(jù)雖然能滿足各地方政府開放數(shù)據(jù)的基本需求,但同國際上的發(fā)展趨勢相比有如下不足:
a.各地方政府的元數(shù)據(jù)方案之間差異較大,表現(xiàn)為元素的個數(shù)、名稱與格式上的不一致,這為應用程序跨多個數(shù)據(jù)目錄讀取數(shù)據(jù)集的元數(shù)據(jù)帶來困難,增加了處理的復雜性和代價;
b.對數(shù)據(jù)集的描述不夠全面,表現(xiàn)為沒有規(guī)范、持久、穩(wěn)定的唯一標識符,沒有數(shù)據(jù)的時空覆蓋范圍,沒有問題反饋渠道,沒有數(shù)據(jù)的開放許可等;
c.沒有區(qū)分數(shù)據(jù)集與數(shù)據(jù)集包含的數(shù)據(jù)資源(可下載的文件或訪問端點等),造成描述兩者的元數(shù)據(jù)之間的混淆,如“資源類型”“資源記錄數(shù)”“點擊下載”等描述的應是數(shù)據(jù)文件而不是數(shù)據(jù)集本身;
d.普遍沒有采用機器可讀的元數(shù)據(jù)格式,不利于程序的自動處理和互操作;
e.同一個開放數(shù)據(jù)網(wǎng)站中,元數(shù)據(jù)的取值也不規(guī)范。如浙江省網(wǎng)站中“數(shù)據(jù)文件大小”的取值既有帶單位的(如172KB),也有沒帶單位的(如10);北京市“資源更新周期”的取值有“一年”的、也有“每年”的,而“在線資源鏈接地址”的取值都是“www.bjdata.gov.cn”,造成用戶不能從這個元數(shù)據(jù)直接找到數(shù)據(jù)資源,也就失去了元數(shù)據(jù)的價值。
3 核心元數(shù)據(jù)方案設(shè)計
下面從現(xiàn)有的元數(shù)據(jù)出發(fā),以W3C DCAT為標準化方向,以克服現(xiàn)有不足和滿足核心功能(即數(shù)據(jù)集的可發(fā)現(xiàn)性、可訪問性及數(shù)據(jù)目錄間的互操作)為目標,設(shè)計我國地方政府數(shù)據(jù)目錄的核心元數(shù)據(jù)方案,主要做法是:a.將元素分為兩組,分別描述數(shù)據(jù)集和數(shù)據(jù)資源;b.依據(jù)DCAT規(guī)范元素的名稱和語義;c.保留各地方政府與DCAT共有的元素項;d.補充DCAT中核心的、但各地方政府普遍缺失的元素項;e.采用機器可讀的元數(shù)據(jù)格式。
3.1 描述對象 本文將“數(shù)據(jù)集”和“數(shù)據(jù)資源”作為元數(shù)據(jù)的描述對象。
世界銀行開放政府數(shù)據(jù)工作組將元數(shù)據(jù)定義為“對開放數(shù)據(jù)集(dataset)各方面的描述數(shù)據(jù)”[27]。DCAT認為“數(shù)據(jù)集是由一個機構(gòu)或部門發(fā)布和維護的數(shù)據(jù)的集合”[19],對應圖1中的dcat:Dataset類。數(shù)據(jù)集包含一個或多個數(shù)據(jù)資源,數(shù)據(jù)資源對應圖1中的dcat:Distribution類,可以是能被下載的數(shù)據(jù)文件、訪問數(shù)據(jù)的端點(endpoint)或RSS源(feed)等[19]。數(shù)據(jù)集與數(shù)據(jù)資源之間的關(guān)系是“整體-部分”關(guān)系,對應圖1中的dcat:distribution屬性。
3.2 描述數(shù)據(jù)集的元數(shù)據(jù)表5給出了描述數(shù)據(jù)集的核心元數(shù)據(jù),第一列是規(guī)范化的元素中文名稱、第二列是對應的DCAT元素,最后兩列對應北京和浙江實際使用的元數(shù)據(jù)。19個元素全部來自DCAT詞匯表和DC元數(shù)據(jù),不僅能覆蓋北京、浙江等目前使用的絕大多數(shù)元數(shù)據(jù),也補充了“標識符”“開放許可”和“聯(lián)系方式”等基本元素。
3.3 描述數(shù)據(jù)資源的元數(shù)據(jù)表6給出了描述數(shù)據(jù)資源的10個核心元素,規(guī)范和補充了數(shù)據(jù)文件的“名稱”“格式”“類型”“字節(jié)大小”和“文件下載的URL”“數(shù)據(jù)訪問的URL”等重要的元素項。
3.4 擴展原則隨著開放數(shù)據(jù)種類的日益增加,數(shù)據(jù)集的本征特征會向多樣化發(fā)展,對核心元數(shù)據(jù)的擴展勢在必行。各國的主要策略是對DCAT的本土化和專業(yè)化擴展,例如美國POD v1.1引進了accessLevel(訪問級別)、dataQuality(數(shù)據(jù)質(zhì)量)、bureauCode(機構(gòu)代碼)和primaryITInvestmentUII(IT唯一投資標識符)等體現(xiàn)美國政府信息化特點的元數(shù)據(jù)項[24],歐盟DCAT-AP引進歐盟范圍的受控詞表(如EuroVoc)規(guī)范元素的取值,愛爾蘭對地理數(shù)據(jù)增加了“空間參照系”(Spatial Reference System)、“空間分辨率”(SpatialResolution)等元數(shù)據(jù)項[22]。
我國在進行本土化時更應考慮中文信息的特點,并結(jié)合政府信息資源公開及開放共享的現(xiàn)狀和發(fā)展的需要[28]。
4 元數(shù)據(jù)實例
支持互操作的元數(shù)據(jù)格式有XML、RDF等[29],它們都是機器可讀的。作為DCAT的補充,DCIP(Data Catalog Interoperability Protocol)建議以XML/RDF和JSON格式編碼開放數(shù)據(jù)的元數(shù)據(jù)[30],已被美國、英國和歐盟等采納[9]。
本文以北京市“公益性圖書館”數(shù)據(jù)集的元數(shù)據(jù)(參見2.1節(jié)的表3)為例,將現(xiàn)有的文本格式轉(zhuǎn)換為XML/RDF格式(見圖2)。其中,元素的名稱來自DCAT詞匯表,除了“標識符”的值(圖中黑體),其余值都是實際數(shù)據(jù)??梢栽O(shè)想,如果各地方政府都以這種格式提供元數(shù)據(jù),應用程序就能以一致的方式跨多個數(shù)據(jù)目錄讀取和解析它們,實現(xiàn)自動查找、比較和選擇數(shù)據(jù)集,進而自動下載或訪問數(shù)據(jù)。
該例也表明,上述核心元數(shù)據(jù)方案能夠基本滿足各類開放數(shù)據(jù)集的可發(fā)現(xiàn)性和可訪問性的描述需求,同時提高了現(xiàn)有元數(shù)據(jù)的規(guī)范程度和互操作性。對于專業(yè)領(lǐng)域數(shù)據(jù)集的特殊描述需求,則要引進新的元數(shù)據(jù)項。
5 結(jié)語
數(shù)據(jù)的開放共享離不開元數(shù)據(jù)的支持,為開放數(shù)據(jù)集附加高質(zhì)量的元數(shù)據(jù)描述,是實現(xiàn)數(shù)據(jù)目錄之間互操作的基礎(chǔ),更有利于用戶發(fā)現(xiàn)、理解和使用數(shù)據(jù)。我國地方政府開放數(shù)據(jù)元數(shù)據(jù)的規(guī)范化和標準化程度還不高,借鑒和參考國際通用的元數(shù)據(jù)標準將是一個重要的發(fā)展方向。本文在這方面做了初步的嘗試,構(gòu)建了基于W3C DCAT標準的描述開放數(shù)據(jù)集和數(shù)據(jù)資源的核心元數(shù)據(jù)方案。顯然,該方案在實際應用中還會有很多不足,如還需要補充和完善編碼體系修飾詞、規(guī)范元數(shù)據(jù)的取值類型、設(shè)計數(shù)據(jù)集標識符的規(guī)范、根據(jù)需求增加新的描述對象和屬性等。
相信從“元數(shù)據(jù)方案”到“元數(shù)據(jù)規(guī)范”、再到“元數(shù)據(jù)標準”的演化,將見證我國開放政府數(shù)據(jù)從起步、成長到成熟的發(fā)展歷程。
來源:《情報雜志》
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新