對話交通運輸部葉勁松:生產全國交通大數據的團隊如何運作?
薛婭菲 | 2017-07-07 10:03
【數據猿導讀】 不同于企業(yè)CDO或科研團隊的數據骨干,他所在的數據團隊統(tǒng)籌著全國29個省份的高速公路的車輛通行數據,他所生產數據的服務對象是交通運輸部。而他對數據和數據團隊的理解,也從一開始就基于一個相對更宏觀的角度。

交通運輸部科學研究院交通信息中心的數據團隊負責人葉勁松是《數據團隊建設全景報告》系列專訪中很特殊的一位。他所在部門肩負著交通行業(yè)統(tǒng)計數據生產和交通運輸部綜合交通運輸大數據應用中心數據治理的任務。不同于企業(yè)CDO或科研團隊的數據骨干,他所在的數據團隊統(tǒng)籌著全國29個省份的高速公路的車輛通行數據,他所生產數據的服務對象是交通運輸部。而他對數據和數據團隊的理解,也從一開始就基于一個相對更宏觀的角度。
“我發(fā)現自從大數據這個概念熱了起來,我們部門的角色就發(fā)生了變化,現在不管是誰在數據應用方面有了什么問題,不論是大數據的技術問題,還是數據治理的方法,甚至業(yè)務應用方面的問題,都會來找數據部門。”葉勁松說。從我們的溝通中能夠感覺到,他更像是整個部門的“產品經理”。全國高速公路收費管理涉及的29個省,他不僅需要跟每個省的2-3個部門打交道,還需要對接數據分析部門和交通運輸部的數據需求,并精確地拆解任務,組織團隊完成各項工作。“‘十三五’規(guī)劃給我們的工作提出了更加明確的要求——依托大數據技術進一步推進統(tǒng)計信息管理系統(tǒng)與業(yè)務管理系統(tǒng)的互聯(lián)互通與標準化,在此基礎上加強數據資源的關聯(lián)分析和融合利用,提升行業(yè)決策支持的能力。”葉勁松說道。
數據是給交通運輸部提供決策支持的,不能有絲毫懈怠
交通運行動態(tài)數據反映著交通經濟運行的情況,進而反映了國內行業(yè)經濟運行態(tài)勢。在大數據時代,主管部門對交通數據有著明確的要求:“交通運輸行業(yè)管理部門需要更加緊密地跟蹤行業(yè)的發(fā)展動態(tài),準確把握行業(yè)發(fā)展的階段特征與新動向、新問題,為行業(yè)宏觀管理決策提供科學依據,為研判國家經濟運行態(tài)勢提供支撐。”
葉勁松所在的交通信息中心(以下簡稱“中心”)肩負著整個交通行業(yè)統(tǒng)計數據的采集、處理、分析和發(fā)布工作,必須保證數據的精準、及時。以高速公路通行數據為例:
交通運輸管理部門,需要高速公路運行數據作為路網運行監(jiān)測的依據;
交通運輸部,需要全國高速公路的車流量、貨運量等數據為行業(yè)管理決策提供支撐;
國務院有關部門,需要高速公路貨運量數據作為宏觀經濟發(fā)展態(tài)勢的參考。
從葉勁松2005年進入交通運輸部科學研究院工作以來,他經歷了行業(yè)數據治理的三次革新。第一個階段是行業(yè)統(tǒng)計數據的治理,交通運輸部定期采集和處理各省的交通統(tǒng)計數據,包括公路、航道等基礎設施的現狀、新改建的情況、投資情況,以及港口生產、運輸生產的情況等,統(tǒng)計數據大多是按月度或年度變化的匯總數據。第二個階段是從2013年左右開始,數據治理對象變?yōu)樾袠I(yè)運行的動態(tài)監(jiān)測信息,以高速公路通行數據為例,監(jiān)測數據粒度精確到每一輛在高速公路上行駛車輛的進出位置、行駛路程、車型等業(yè)務明細信息,數據更新頻率也縮短為旬度,接下來還將實現數據的實時更新。第三個階段,交通運輸部要建設綜合交通運輸大數據應用中心,具體工作將由交通信息中心來承擔,將實現交通運輸部所掌握的公路、水路、道路運輸等44類交通數據資源的采集與匯聚。
圖一:交通運輸部科學研究院交通信息中心的數據治理的變革
面對不斷升級的數據需求,葉勁松坦言,他和團隊經歷了從傳統(tǒng)的統(tǒng)計工作到大數據平臺搭建、數據收集存儲和標準化建設等一系列挑戰(zhàn)。
參差不齊的29省數據,如何挑戰(zhàn)高難度的數據工作
“以前交通運輸部對高速公路通行數據的要求是月度更新。我們以前的做法是每個月初采集一次,然后花10天左右的時間做數據清洗、處理和統(tǒng)計工作,每月中下旬再向交通運輸部提供數據結果。整個工作流程大約十五天,”葉勁松解釋道,“但現在交通運輸部對我們的要求是每月5號提交報告,數據還不能有一點錯誤,所以我們必須實現數據的實時采集才有可能完成任務。”
從2013年開始,交通信息中心開始了“基于大數據技術的全國高速公路通行數據監(jiān)測平臺”建設工作。這個平臺的數據流動路徑是自下而上的,由各省高速公路管理部門、省交通運輸管理部門逐級上報到交通信息中心的數據團隊。
“難,太難了!”葉勁松直言。當時各省數據建設情況差異極大,因為當時每個省都是根據自己信息化基礎建設的信息系統(tǒng),沒有統(tǒng)一的標準。有些信息化工作做得好的省,數據采集的技術方案可以直接跟平臺的數據需求對接上。有些數據采集差的省,情況非常不樂觀:“當我們發(fā)現交通運輸部開始要數據了,地方上有些省還沒有采集到這些數據。我們的工作不得不從技術標準化和數據標準化建設開始做起。”
圖二:全國高速公路數據平臺搭建的溝通工作框架
以車牌號為例。有些省的車牌號數據是人工輸入車牌號的后3位;有些省只采集了車牌號碼;有些省采集了車牌號碼和顏色。由于識別系統(tǒng)的限制,圖像識別的精確度也不一樣,比如把數字“7”識別成數字“1”。不同的省對免收通行費的車輛定義不同,也就是說每個省的數據字典也不同。要治理車牌數據并做標準交通信息中心的數據團隊面對的是全國29個省和每個省3個部門的工作量,他們需要分別與省級交通運輸廳、各地區(qū)高速公路聯(lián)網收費中心和各地區(qū)高速公路管理單位做溝通、推進標準化工作。
這項工作對于數據團隊來說,非??简炂錅贤ê蛥f(xié)調能力。為了實現數據標準化的目標,數據團隊研究提出了一套標準的數據存儲、清洗、挖掘分析關鍵數據處理技術及整體解決方案,并組織了多場針對各省數據技術人員的業(yè)務交流,有效促進了方案的推廣。為了確保方案執(zhí)行,數據團隊建立了數據反饋機制和考核機制:
對每一個字段制定數據審核規(guī)則,將數據定為“正確數據”和“錯誤數據”兩種類型,并將數據審核結果反饋給各省核實或調整數據接口。
從數據時效性、數據質量、數據字典規(guī)范性等角度對各省工作進行打分、通報,促進各省不斷改進工作。
圖三:全國高速公路數據平臺搭建的總體業(yè)務流程
截止到2017年3月,平臺終于實現了29個省高速公路通行量數據的收集和存儲。2017年6月,該平臺上的高速公路通行數據的數據量已超過280億條,總容量約7TB,每月新增數據約8億條。
以業(yè)務的需求去建設數據團隊,按照數據流程分工
“整個團隊不是按數據流程劃分的,而是業(yè)務驅動。我們首要的任務是完成業(yè)務目標。”葉勁松表示。以業(yè)務的需求去建設數據團隊,是交通信息中心數據團隊搭建的總體思路。目前該中心的總人數約90人,有60人是直接接觸數據的。其中負責高速公路通行數據的是一個約10人的數據團隊。“不過在分行業(yè)的小團隊內部,這10人按照數據流程來分工。”
高速公路數據團隊的內部分工是:2-3人偏業(yè)務,負責對接各省的數據部門,對接各省的數據需求、數據變化情況和上報情況;2人偏技術,負責數據采集系統(tǒng)的維護;2-3人偏分析,負責數據挖掘和分析并撰寫報告;1人偏管理,負責數據治理方案和整個工作的統(tǒng)籌協(xié)調。“我們的工作不只是停留在采集數據,最后還要把數據用起來才有價值。”葉勁松說?;谶@樣合理的工作流程,我們在交通行業(yè)內首次將大數據直接用于行業(yè)統(tǒng)計業(yè)務,支撐交通運輸部實現了利用行政業(yè)務記錄直接轉化生成統(tǒng)計數據的重大創(chuàng)新。
數據團隊負責人的角色也是“產品經理”
交通信息中心的數據管理工作是為業(yè)務服務的,因此葉勁松的很多工作是對接下游對數據的需求。“很多時候我有意識地提醒自己:必須在工作中強勢一些。因為夾在技術團隊和業(yè)務需求中間不好做啊!”他在團隊中的作用是CDO+“產品經理”。一方面他要充分理解業(yè)務對數據產品的需求,另一方面他需要準確地把業(yè)務需求“翻譯”成對數據技術團隊的需求,同時,還要把技術團隊的訴求用業(yè)務的語言跟業(yè)務人員溝通。
有些時候,業(yè)務團隊不理解數據采集和技術處理的過程,所以對數據生產時間的要求非常高:“不就是把數據存到庫里就行了嗎 ”這時就是葉勁松的強勢時刻:“我需要解釋為了實現這個需求,數據團隊需要先摸清數據的現狀、那么多省的數據還都不一樣需要規(guī)范、這些數據不是能夠簡單地直接放在一起的、還需要寫算法、還需要硬件資源的支撐等等。很多時候,領導不關心數據是怎么來的,反而對結果期望很高。”上文的數據標準化工作就是個例子,大組織中的數據工作有時是需要從標準化做起的,會非常耗時、耗資源。“如果我不站出來定義好工作要求和時限,我的團隊恐怕會面臨非常大的壓力。”
“懂業(yè)務又懂數據的人才太缺乏了!”當被問到他的數據團隊怎樣升級時,葉勁松脫口而出。在他看來,為了實現更好的管理,需要建立一直合理的數據團隊,在團隊里培養(yǎng)更多的產品經理和數據科學家:“數據在我們手上,下面我們要探索如何使用好這些數據。我需要專人去思考技術平臺怎么完善,數據采集方案怎么設計,怎么跟分析部門做好對接,從哪些角度去推進數據應用,怎么去把數據治理的工作很好地進行總結提煉以得到認可。”對于人才,葉勁松有如下期待:
數據相關專業(yè)基本功;
對數據技術的不斷更迭地關注和學習;
有真實的數據科學的實踐經驗。
其中,葉勁松認為第三點最為重要:“在我面試的過程中,如果一個學生前兩點很強,第三點不突出,這樣的人我不敢用。因為會一些編程語言并不代表他擁有數據思維。學生在學校的畢業(yè)設計與實際的產業(yè)數據情況相差甚遠。那些只會做算法的學生畢業(yè)后會發(fā)現業(yè)界大量的數據工作還停留在數據治理和清洗上,那時他們的心理落差恐怕會很大。”相反,“如果這個學生前兩點偏弱,但實踐經驗非常突出,我認為這樣的人才是可以吸納并培養(yǎng)的。”
葉勁松:高級工程師,交通運輸部科學研究院交通信息中心系統(tǒng)開發(fā)部副主任,主要負責交通大數據技術研究和應用、全國高速公路通行大數據的采集和分析等工作。
交通運輸部科學研究院交通信息中心:交通運輸部科學研究院的二級機構,成立于2001年,主要業(yè)務領域包括統(tǒng)計信息服務、交通統(tǒng)計技術研究、交通政策與經濟運行分析研究、交通信息系統(tǒng)研發(fā)、交通發(fā)展規(guī)劃與評價研究等,具體承擔交通運輸部綜合交通運輸大數據應用中心的建設任務,已在交通大數據技術研發(fā)與應用、交通運輸統(tǒng)計信息與經濟運行分析、交通信息化建設等方面形成了中心特色的優(yōu)勢研究領域。
注:*本文為清華-青島數據科學研究院聯(lián)合大數據文摘發(fā)起的《數據團隊建設全景報告》系列專訪內容。本篇內容還參考了2017年4月交通運輸部科學研究院申報“中國數據標準化及治理獎”評審的文件《基于大數據技術的全國高速公路通行數據監(jiān)測平臺建設》。
來源:THU數據派
刷新相關文章
我要評論
活動推薦more >
- 2018 上海國際大數據產業(yè)高2018-12-03
- 2018上海國際計算機網絡及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術峰會2018”2018-06-14