東航數(shù)據王學武:打造爆款產品速勝,為數(shù)據找到立足之地
魏子敏 | 2017-07-11 15:28
【數(shù)據猿導讀】 “科研成果變?yōu)閯趧由a力需要有很長的路要走。而我們要的就是分析成果的落地,要的就是全面鋪開,釋放數(shù)據的潛能,通過數(shù)字化推動業(yè)務的提升?!?

“數(shù)據實驗室不是科研組織,我們要的是成果落地。”
中國東方航空數(shù)據實驗室負責人王學武非常明確數(shù)據的價值所在,“科研成果變?yōu)閯趧由a力需要有很長的路要走。而我們要的就是分析成果的落地,要的就是全面鋪開,釋放數(shù)據的潛能,通過數(shù)字化推動業(yè)務的提升。”
隸屬東方航空客運營銷委員會和東航信息部,東航數(shù)據實驗室經過一年籌備,于2017年初正式成立。
變現(xiàn)大數(shù)據資產的價值,推動業(yè)務價值提升,后期甚至可以孵化新的項目出來,盡管剛剛出現(xiàn)不到一年,王學武對這一籌備許久終于上馬的項目充滿了想象力。
而當把航空這一與用戶貼合緊密的領域與大數(shù)據放在一起,也確實可以產生很多新的碰撞場景。
數(shù)據實驗室不是隨便建起來的拍腦袋工程,在其正式成立之前,王學武和同事花費了大量的時間與公司高層、與目標用戶進行溝通。他很明確地告訴我們,首先,一個公司需要從戰(zhàn)略上明確,為什么需要數(shù)據實驗平臺 將會起到什么作用 再從高級分析用戶層面考慮,數(shù)據實驗室是否能解決他們現(xiàn)有數(shù)據分析的難點和痛點 有沒有一個明確的業(yè)務場景,能夠推動他們在數(shù)據實驗平臺作嘗試
“用得順手”是讓大家“真正用起來”的關鍵
“大家都在上(數(shù)據團隊/項目),但到底能做什么 具體做什么 其實很多都還不知道。但是別人都在做,你沒做的話就像土八路了。”王學武說。
數(shù)據實驗室是適應東航數(shù)據分析發(fā)展的產物。如何讓分析人員在實驗室真正創(chuàng)造價值,把數(shù)據探索、數(shù)據挖掘、數(shù)據可視化等工具用起來,卻不容易。對此,王學武認為,“對數(shù)據的價值有非常清晰的定位,讓大家用得順手”是讓產品“真正被用起來”的關鍵。
基本的出發(fā)點有了,團隊在著手做事情前,要有非常明確的目標和清晰的商業(yè)訴求,能清楚地描述給來自各領域的聯(lián)合數(shù)據分析團隊成員,統(tǒng)一目標,并制定合理的計劃。
數(shù)據實驗過程是一個持續(xù)探索、持續(xù)迭代的過程。不僅是對分析成果進行迭代,也對工作方式和流程進行優(yōu)化。
“最重要一點,我們會針對不同類型的分析成果,制定它們的量化規(guī)則,量化通過模型所產生的經濟收益、生產效率的提升幅度或其他考核指標,以此量化數(shù)據分析的價值。”這也是數(shù)據驅動文化真正建立起來的重要步驟。
王學武稱東航建立數(shù)據實驗室沒有現(xiàn)成的經驗可參考,需要進行很多創(chuàng)新嘗試。實驗室前期籌建階段,也是一個推廣的階段,“我們經常與用戶進行頭腦風暴,一是能讓用戶更深入了解數(shù)據實驗平臺,了解相關技術和機器學習概念,二是我們能了解用戶的痛點,與用戶一起構思大數(shù)據應用場景。定期對各部門的核心分析人員進行數(shù)據挖掘知識和技術培訓,以及統(tǒng)計學等方面知識培訓,形成很好的學習氣氛。”
合作各方,先打造幾款爆款產品“速勝”
“燃油是航空公司高層例會上最大的敏感詞,只要你提到‘可以降低燃油能耗’,你就能看到,大家會立刻提起興趣。”王學武玩笑著說出了這個航空公司的大難題。
和很多數(shù)據團隊一樣,在成立之初,王學武的團隊面臨著如何讓高層和業(yè)務團隊看到自身價值的問題,這時候,打造一款“爆款”產品,讓各合作方看到數(shù)據的價值十分重要。“燃油效率分析”是其中一個這樣的課題。
油價是航空公司最大的變動成本項,航空公司急需通過控制油耗來降低運營成本。但是,與實際油耗相關的屬性有70多個,逐個去分析它們的相關性,很耗時,容易出錯。而且需要有很好的業(yè)務知識支持。
東航數(shù)據實驗室通過Oracle BDA解析QAR數(shù)據,打造了一款針對燃油效率分析的產品;分析發(fā)動機壽命,預測可能出現(xiàn)故障的設備。通過平臺提供的工具,即便在不是很熟悉業(yè)務的情況下,也能很方便快速地發(fā)現(xiàn)一些問題:
首先,用戶在數(shù)據列表找到自己所需的數(shù)據,將它們導入個人數(shù)據沙箱;然后,利用實驗室的數(shù)據發(fā)現(xiàn)工具,瀏覽數(shù)據狀況,剔除數(shù)據質量不高的屬性。屬性由原來的70多個減少到60個。
再按與實際油耗的相關程度進行排序,與油耗相關程度越高的就排在越前面,這樣就可以很快地發(fā)現(xiàn)哪些是相關程度最高的屬性。比如:飛行距離、最大業(yè)載、機型、最大起飛重量、實際業(yè)載、發(fā)動機型號等。
再進一步,挑選幾個需要分析的屬性,可以看到它們與實際油耗的相關系數(shù)和圖形化的分布情況,為后續(xù)深入分析指引方向。
航空領域天然擁有不少數(shù)據。而提到飛行,除了油耗,多數(shù)乘客首先想到的應該都是黑匣子中記錄下的數(shù)據。其實,飛機飛行數(shù)據的記錄時刻都在進行,比如飛機快速存取記錄器(下稱QAR)記錄的數(shù)據,通過遍布飛機全身的數(shù)千個傳感器,記錄飛機在飛行時的品質、安全等參數(shù),是輔助飛行員養(yǎng)成良好飛行習慣的必需品。
QAR可實時記錄飛行員自飛機倉門關閉、爬行、攀升、漸進到降落的整個航程的操作行為和發(fā)動機狀態(tài)的數(shù)據。這個數(shù)據量很大,每年將產生100T的數(shù)據量。
通過飛機上的傳感器,東航可以獲取每個飛行員從起飛到降落的所有操作行為,以及發(fā)動機的損耗、氣象資料等數(shù)據,利用大數(shù)據建立模型分析,找出飛行員日常操作和飛行潛在風險因素,提升安全水平,并可以有針對性地加強飛行員培訓,為其養(yǎng)成良好的操作習慣,糾正飛行員有時候出現(xiàn)的不規(guī)則的手動操作,減少因操作不當造成的飛機發(fā)動機損耗等問題,也會給飛行員提供更節(jié)省燃油的飛行建議,比如,針對不同的機型、風力、高度、航道的擁堵等情況,給出建議的飛行速度。
東航數(shù)據實驗室技術架構探索:基于Oracle BDA解析QAR數(shù)據
如此高量級的數(shù)據存儲分析需求也對東方航空的數(shù)據架構提出了更高的要求。
東航數(shù)據實驗室利用Oracle BDA的12個節(jié)點所提供的強大的計算能力和網絡傳輸能力,來處理來自營銷、運行、機務、物流、地服、電商、呼叫中心等業(yè)務領域的海量數(shù)據,并將處理好的結果數(shù)據供數(shù)據實驗室使用。
東航是基于旅客出行的全流程來建立數(shù)據分析體系。在旅客的航前、航中、航后環(huán)節(jié),建立相應應用系統(tǒng),增加和旅客的業(yè)務接觸點,通過“以客戶為中心”的服務理念,為客戶提供全方位的出行服務。并在每個環(huán)節(jié)都有相應的運營系統(tǒng)作支撐。
數(shù)據實驗室通過一套流程去促進業(yè)務提升。從上圖可以看出,整個流程分為執(zhí)行層面和創(chuàng)新層面。實驗室是其中的一部分,數(shù)據流通過前端應用的客戶接觸點進入到數(shù)據平臺,數(shù)據實驗室從數(shù)據平臺獲得數(shù)據,進行分析,得到成果,通過規(guī)則引擎、數(shù)據產品等方式發(fā)布到應用前端,促進業(yè)務效率提升。
數(shù)據實驗室有個優(yōu)點就是數(shù)據實驗環(huán)境與業(yè)務生產環(huán)境是相互隔離的。數(shù)據實驗室通過ETL把BDA、Teradata、Exadata、Greenplum的數(shù)據抽取到實驗室數(shù)據存儲區(qū),用戶直接操作的是實驗室數(shù)據存儲區(qū)的數(shù)據,即便用戶在實驗環(huán)境進行大數(shù)據量操作時,也不會對現(xiàn)有的生產系統(tǒng)產生影響。
應用架構分為生產環(huán)境和實驗環(huán)境兩部分。實驗存儲區(qū)通過ETL從數(shù)據平臺抽取數(shù)據,再整合用戶上傳的數(shù)據、各主題數(shù)據、參數(shù)數(shù)據和實驗成果等數(shù)據。用戶在數(shù)據沙箱獲取這些數(shù)據,再利用前端工具使用數(shù)據。目前,實驗存儲區(qū)使用私有云Hadoop集群,未來也會考慮向公有云擴展。
信息化是企業(yè)開啟數(shù)據化的第一步
東航在2014年就開始布局大數(shù)據戰(zhàn)略,時任東航CIO的蔡陽先生帶領著信息部各產品部成立了BICC商業(yè)智能競爭力中心,進行數(shù)據、技術和思維的專題研究,定期交流成果。圍繞著這三方面,東航數(shù)據實驗室討論了很多主題,從云計算,大數(shù)據技術,數(shù)據價值鏈,產品路線圖,算法,再到一張機票后面的二維碼,都在討論范圍內。經過了1年多的場景探索,最終基本確定了營銷、服務和運行這三大領域的業(yè)務目標。
在很多傳統(tǒng)企業(yè),信息化都是企業(yè)開啟數(shù)據化的第一步。數(shù)據團隊在進行數(shù)據分析、洞察、打造爆款產品之前,需要先整合企業(yè)內部數(shù)據,進而不斷引入結構化和非結構化的外部數(shù)據,并通過數(shù)據管理,提升數(shù)據質量,統(tǒng)一數(shù)據標準。
“信息化之后,數(shù)據在東航發(fā)揮著越來越核心的作用,航空業(yè)的數(shù)字化業(yè)態(tài)逐漸形成。我們信息部和各業(yè)務部門緊密聯(lián)系在一起,共同攻關克難,所收獲的成果、經驗與教訓,都將為建設數(shù)字化東航打下基礎。”王學武說。
王學武坦言,隨著分析用戶的水平越來越高,在使用數(shù)據分析系統(tǒng)時,也遇到了很多痛點和難點,阻礙他們進一步去分析數(shù)據。比如:
用戶在進行大數(shù)據量查詢與計算時,會直接對生產系統(tǒng)的性能產生影響;
實現(xiàn)用戶的分析需求,需要業(yè)務與技術來回溝通,周期較長;
隨著用戶分析能力提高,用戶使用數(shù)據的局限性也越來越明顯,他們迫切需要一個能自主、自助進行數(shù)據分析的平臺,且有很多易用的工具選擇;
用戶希望能有一個快速定位問題、快速試錯的平臺,從而降低決策和投資的風險;
他們想獲得更多的數(shù)據,而不限于自己部門的;
要打破公司內各領域間的數(shù)據孤島問題,能讓數(shù)據流動起來;
現(xiàn)在課題的攻關難度比以往更大,需要多領域的專家一起解決,這就需要一種創(chuàng)新的協(xié)作方式,有效銜接業(yè)務、技術、學科等領域的專家;
從應用數(shù)據的角度來看,用戶希望能“看得懂、拿得到、做得了事情”,即用戶能知道有什么數(shù)據 它的質量怎么樣 適不適用 通過什么渠道可以拿到這些數(shù)據 通過哪些合適的工具去分析這些數(shù)據 從而產出一定成果。
為了解決這些問題,數(shù)據實驗室應運而生。
數(shù)據實驗室有4個核心理念:
開放:實驗室是開放的大數(shù)據實驗平臺,用戶擁有最大程度的靈活性與自由度去使用數(shù)據;
連接:連接人、數(shù)據和分析算法,以及能在不同的人之間,不同的數(shù)據之間,不同的算法之間建立連接。這些連接會形成一種合力,能有效地解決課題研究的難點;
融合:數(shù)據融合、數(shù)據流動、數(shù)據活力。通過跨領域的數(shù)據融合,可以發(fā)現(xiàn)各領域之間的相關性,聯(lián)動性,通過有效的協(xié)調,提高整體的競爭力;
生產力:數(shù)據驅動、數(shù)據產品,分析成果與生產應用的緊密結合,促進價值提升。
數(shù)據人才建議:以明確清晰的商業(yè)目標為導向
現(xiàn)階段,數(shù)據實驗室成員來自信息部數(shù)據產品部、營銷委的網絡收益部和客戶關系部,以及其他部門的分析團隊,共30多人。主要由具體作數(shù)據分析和實施課題的人員組成,公司領導為實驗室明確戰(zhàn)略方向和協(xié)調資源。成員包括業(yè)務部高級經理、統(tǒng)計學博士、業(yè)務專家、市場研究、產品規(guī)劃、產品經理、技術架構師、大數(shù)據工程師、高級數(shù)據分析等。
王學武對于數(shù)據人才的培養(yǎng)也給出了自己的建議:“以明確的、清晰的商業(yè)目標為導向,通過在作課題和項目的過程中,培養(yǎng)具有復合能力的數(shù)據科學人才。定期舉行技術、業(yè)務培訓和知識分享。發(fā)揮企業(yè)內社區(qū)的作用,提升成員的認同感與成就感,進而提升參與度。在工作中,計算機科學、數(shù)據可視化、業(yè)務分析、運籌、統(tǒng)計等角色的成員之間要保持緊密的溝通,在不斷提升自己領域的專業(yè)水平以更好對外提供支持的同時,還要學習其他領域的知識和技能,建立一個良好的學習共進氛圍,讓成員具備更多的能力維度。
經常帶著商業(yè)問題,在數(shù)據中去探索,去驗證自己的想法。這個數(shù)據發(fā)現(xiàn)的過程,會很有意思,很有趣,會逐漸理解數(shù)據,以及數(shù)據之間的關系,加快掌握業(yè)務知識。注意在課題和項目的實施過程中作總結和積累經驗,失敗的或成功的經驗都是非常有價值的。最后,套一句互聯(lián)網思維的話,懂得分享,才更有價值。”
來源:THU數(shù)據派
刷新相關文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據產業(yè)高2018-12-03
- 2018上海國際計算機網絡及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術峰會2018”2018-06-14