【數(shù)智化案例展】浙江電信——數(shù)據(jù)中臺與BI技術(shù)助力通信行業(yè)驅(qū)動高質(zhì)量數(shù)據(jù)價值的流通閉環(huán)
原創(chuàng) 網(wǎng)易數(shù)帆 | 2022-07-28 11:42
【數(shù)據(jù)猿導(dǎo)讀】 網(wǎng)易數(shù)帆數(shù)智化案例

網(wǎng)易數(shù)帆案例
本項目由網(wǎng)易數(shù)帆投遞并參與“數(shù)據(jù)猿行業(yè)盤點季大型主題策劃活動——《2022中國企業(yè)數(shù)智化轉(zhuǎn)型升級創(chuàng)新服務(wù)企業(yè)》榜單/獎項”評選。
對于通信行業(yè)而言,業(yè)務(wù)即數(shù)據(jù)。隨著5G的逐步普及,再加上互聯(lián)網(wǎng)的崛起,行業(yè)業(yè)務(wù)數(shù)據(jù)量驟增,對運營商網(wǎng)絡(luò)能力的需求也越來越高,但用戶數(shù)已趨于穩(wěn)定,從而導(dǎo)致收入增長逐漸變緩。因此,以“數(shù)據(jù)密集”為突出特點的通信行業(yè)對數(shù)據(jù)管理的需求愈發(fā)迫切,提升數(shù)據(jù)管理效率、運維效率成為了行業(yè)內(nèi)部推動業(yè)務(wù)發(fā)展的重要共識——通過數(shù)字化手段,進(jìn)一步挖掘數(shù)據(jù)價值,提升數(shù)據(jù)生產(chǎn)力。
作為數(shù)字化基礎(chǔ)相對較好的行業(yè),通信行業(yè)數(shù)據(jù)存儲和應(yīng)用工具豐富。浙江電信擁有網(wǎng)絡(luò)、經(jīng)分、集市等多套數(shù)據(jù)集群,集群分散管理、技術(shù)棧不統(tǒng)一帶來了很大的開發(fā)效率問題。在日常業(yè)務(wù)中,更是有大量的IT任務(wù)以腳本方式開發(fā)、調(diào)度,造成任務(wù)調(diào)度管理混亂、重復(fù)開發(fā)浪費、數(shù)據(jù)交付緩慢等問題。
實施時間:
開始時間:2021年10月
截止時間:2021年12月
客戶的數(shù)智化(數(shù)字化)轉(zhuǎn)型升級需求
基于現(xiàn)有的數(shù)據(jù)集群與存儲結(jié)構(gòu),浙江電信在當(dāng)前業(yè)務(wù)發(fā)展中遇到了如下問題:
·數(shù)據(jù)查詢工具分散,使用不便。不同業(yè)務(wù)數(shù)據(jù)分散在各數(shù)據(jù)存儲系統(tǒng)中,且難以打通,數(shù)據(jù)查詢需要分別通過相應(yīng)系統(tǒng)中的即時查詢工具進(jìn)行,使用較為不便。
·數(shù)據(jù)開發(fā)效率不高,且篩選展示功能較弱。原有BI無法滿足浙江電信對于報表篩選和展示的部分需求,也逐漸無法快速響應(yīng)浙江電信對于數(shù)據(jù)應(yīng)用越來越多的復(fù)雜要求。
·數(shù)據(jù)運維需要多系統(tǒng)分別操作,效率低下。浙江電信大量數(shù)據(jù)任務(wù)以腳本方式進(jìn)行開發(fā),技術(shù)語言和框架也各不相同,導(dǎo)致調(diào)度管理難度大,跨集群跨框架協(xié)同復(fù)雜;其次,數(shù)據(jù)系統(tǒng)的分散使得運維人員需要分別登錄各個系統(tǒng)數(shù)據(jù)進(jìn)行操作,效率低下的同時也無法對問題進(jìn)行及時響應(yīng)。
浙江電信經(jīng)過內(nèi)部分析討論,認(rèn)為公司需要將分散的數(shù)據(jù)計算存儲設(shè)施進(jìn)行集成,從而能夠在一個平臺上將數(shù)據(jù)任務(wù)的開發(fā),數(shù)據(jù)運維管理,數(shù)據(jù)查詢等進(jìn)行統(tǒng)一管控。同時,為了具備實時、可交互的多維分析能力,并且讓公司決策層擁有全局的數(shù)據(jù)視角,浙江電信決定建設(shè)一套全新的敏捷數(shù)據(jù)開發(fā)及可視化系統(tǒng)。
在廠商選型方面,浙江電信主要有以下考量:
·公司底層數(shù)據(jù)存儲系統(tǒng)復(fù)雜,平臺化集成難度大,需要廠商具備較強的技術(shù)實力;
·需要廠商能夠同時提供數(shù)據(jù)開發(fā)管理平臺和BI全套解決方案;
·需要廠商提供成熟的產(chǎn)品而非通過定制化開發(fā)解決。
經(jīng)過綜合評估,浙江電信選擇了技術(shù)和產(chǎn)品實力強,提供全鏈路解決方案的網(wǎng)易數(shù)帆作為合作伙伴。
面臨挑戰(zhàn)
01 技術(shù)棧不統(tǒng)一
因原有的相關(guān)組件構(gòu)成復(fù)雜,來自不同廠家,開發(fā)、治理、調(diào)度均各自獨立運營,難以形成有效的關(guān)聯(lián)與統(tǒng)一管理。因此在項目實施初期也遇到了較大挑戰(zhàn)。
首先,一體化平臺作為數(shù)據(jù)中臺的開發(fā)治理部分,將引入數(shù)據(jù)集成中心、任務(wù)運維中心、離線開發(fā)中心、實時開發(fā)中心、指標(biāo)系統(tǒng)、數(shù)據(jù)資產(chǎn)中心、數(shù)據(jù)地圖、模型設(shè)計中心、數(shù)據(jù)質(zhì)量中心、數(shù)據(jù)服務(wù)等10個應(yīng)用組件。為此,網(wǎng)易數(shù)帆在該基礎(chǔ)上完成二次開發(fā)以適配浙江電信需求,二次開發(fā)的內(nèi)容包括適配MPP數(shù)據(jù)庫,適配脫敏中間件開發(fā)、適配指標(biāo)管理系統(tǒng)、對接多套Hadoop、對接4A系統(tǒng)等。
其次,在BI可視化部分,網(wǎng)易數(shù)帆助力浙江電信引入可視化分析、可視化大屏、移動端、自助取數(shù)、復(fù)雜報表、數(shù)據(jù)填報、智能決策、數(shù)據(jù)門戶等8個開發(fā)組件,支撐各類數(shù)據(jù)使用需要,并做二次開發(fā)對接報表平臺門戶、統(tǒng)一指標(biāo)庫,適配安全管控的開發(fā)。
02 海量數(shù)據(jù)遷移
在項目實施過程中,數(shù)據(jù)任務(wù)遷移也是難題之一。首先,浙江電信之前的腳本任務(wù)是通過不同的編程語言實現(xiàn)的,實現(xiàn)數(shù)據(jù)遷移對遷移工具的通用化程度要求很高。其次,在數(shù)據(jù)中臺中,數(shù)據(jù)任務(wù)要根據(jù)具體建模和使用方式進(jìn)行邏輯分層,包括邏輯任務(wù)的重新梳理和拆分等工作。最后,需要遷移的數(shù)據(jù)任務(wù)約有2-3萬個,數(shù)據(jù)量龐大,需要在既保證數(shù)據(jù)任務(wù)的正確性,又不干擾到正常業(yè)務(wù)運行的情況下,進(jìn)行數(shù)據(jù)任務(wù)的平滑遷移。
網(wǎng)易數(shù)帆采用自主研發(fā)的數(shù)據(jù)遷移工具,完全滿足適應(yīng)性要求。在巨大數(shù)據(jù)量面前,雙方選擇了分批遷移的方式,在工具平臺中創(chuàng)建了一套與電信實際生產(chǎn)數(shù)據(jù)完全映射的測試變量,并將一批幾千個任務(wù)上傳,網(wǎng)易數(shù)帆團隊會監(jiān)控天任務(wù)及綜合月任務(wù)運行狀況,浙江電信配合每周對測試數(shù)據(jù)與實際數(shù)據(jù)進(jìn)行比對和稽查,在持續(xù)觀察1.5-2個月后,正式將該批次任務(wù)遷移到數(shù)據(jù)中臺中。
應(yīng)用技術(shù)與實施過程
網(wǎng)易數(shù)帆經(jīng)過充分調(diào)研,為浙江電信設(shè)計了包含統(tǒng)一的數(shù)據(jù)中臺和BI敏捷數(shù)據(jù)分析與可視化平臺兩大產(chǎn)品的整體解決方案。
數(shù)據(jù)中臺:
考慮到業(yè)務(wù)以往的數(shù)倉建設(shè)歷史,浙江電信希望新建的數(shù)據(jù)中臺能夠在不做遷移的情況下實現(xiàn)對原有數(shù)倉集群的接管,網(wǎng)易數(shù)帆基于實際考量提供了邏輯數(shù)據(jù)湖方案,該方案主要分為大數(shù)據(jù)開發(fā)套件和大數(shù)據(jù)集群兩部分。
在大數(shù)據(jù)集群層面,浙江電信既可以保留原有的HDP、CDH集群,也可新建網(wǎng)易自研Hadoop發(fā)行版(即網(wǎng)易數(shù)帆大數(shù)據(jù)基礎(chǔ)平臺NDH)或者接入原有的MPP系統(tǒng),通過統(tǒng)一的元數(shù)據(jù)將散落到各個子系統(tǒng)的數(shù)據(jù)管控起來,從而打破數(shù)據(jù)孤島。在大數(shù)據(jù)開發(fā)套件層面,數(shù)據(jù)建模、數(shù)據(jù)開發(fā)、數(shù)據(jù)治理、數(shù)據(jù)服務(wù)則形成了一套完整的中臺體系。
邏輯數(shù)據(jù)湖構(gòu)建了一個“物理分散、邏輯統(tǒng)一”的數(shù)據(jù)湖體系,用該體系把多個數(shù)據(jù)孤島打通,避免了不必要的物理數(shù)據(jù)入倉(湖),從而將產(chǎn)品上層功能比如主題域構(gòu)建、數(shù)據(jù)地圖等功能及早提供給用戶使用,并在持續(xù)交付中不斷納管歷史數(shù)據(jù)成果。
圖-平臺總體建設(shè)方案
基于以上的技術(shù)背景,邏輯數(shù)據(jù)湖總體系統(tǒng)架構(gòu)必須滿足以下兩點:
1. 統(tǒng)一元數(shù)據(jù):統(tǒng)一元數(shù)據(jù)(元數(shù)據(jù)中心),提供了統(tǒng)一應(yīng)用管理的基石。無論是物理湖,還是邏輯湖,都需要一個元數(shù)據(jù)中心的組件來統(tǒng)一管控湖中所有對象元信息。主要有如下幾個核心功能:
數(shù)據(jù)源支持類型:除了Hadoop(Hive)體系,MPP、RDMS、HTAP、KV、MQ等都需要支持,并且一視同仁,都可以作為具體邏輯數(shù)據(jù)湖具體對象的物理存儲。
數(shù)據(jù)源信息的管理:負(fù)責(zé)存儲各類數(shù)據(jù)源的接入登記信息,進(jìn)行統(tǒng)一的合法性、連通性校驗,確保數(shù)據(jù)源的可用性。除了支持傳輸?shù)膫鹘y(tǒng)對象型數(shù)據(jù)源,還需要支持API網(wǎng)關(guān)等非結(jié)構(gòu)化的數(shù)據(jù)源。
元模型的設(shè)計:抽象設(shè)計通用的數(shù)據(jù)對象描述meta-schema(比如catalog-db-table類似的三元組)。流表的構(gòu)建,主要針對一些schema free的數(shù)據(jù)源,比如MQ、KV系統(tǒng)等,在原有的數(shù)據(jù)對象(比如Topic)上創(chuàng)建流表,一方面可以讓數(shù)據(jù)開發(fā)一目了然地知道消息體的詳細(xì)格式,一方面也為數(shù)據(jù)開發(fā)SQL化奠定了基礎(chǔ)。元數(shù)據(jù)中心定義了一套字段類型字典以及各數(shù)據(jù)源字段類型的轉(zhuǎn)換邏輯,對上層應(yīng)用提供統(tǒng)一的類型轉(zhuǎn)換支持,統(tǒng)一的字段字典,規(guī)避了不同的數(shù)據(jù)源字段類型集不同造成的報錯。
元信息的連接管理:包括數(shù)據(jù)源技術(shù)(物理)元信息的定期抽取。定期同步各個物理數(shù)據(jù)源的元信息,用于做快照管理、地圖、IDE開發(fā)推薦等。業(yè)務(wù)元數(shù)據(jù)的關(guān)聯(lián)。在meta-schema的基礎(chǔ)上,增加標(biāo)簽、主題、資產(chǎn)風(fēng)險登記以及其他自定義的業(yè)務(wù)元信息的關(guān)聯(lián),并提供點、批量的修改查詢能力。動態(tài)元數(shù)據(jù)的變更管理。根據(jù)任務(wù)運行實例的SQL信息等,及時調(diào)整血緣信息,同時對于流表&Topic等同源的對象,在血緣影響分析層面自動進(jìn)行合并關(guān)聯(lián)。
2. 統(tǒng)一應(yīng)用:統(tǒng)一的應(yīng)用就是模型設(shè)計、數(shù)據(jù)傳輸、數(shù)據(jù)開發(fā)、自助分區(qū)取數(shù)、資產(chǎn)地圖等都能在各個數(shù)據(jù)源上實現(xiàn)產(chǎn)品功能。
模型設(shè)計:基于元數(shù)據(jù)中心提供的業(yè)務(wù)元數(shù)據(jù)的接口能力,在具體數(shù)據(jù)源上數(shù)據(jù)主題域的構(gòu)建和劃分,數(shù)據(jù)對象的打標(biāo)等。同時支持在該數(shù)據(jù)源上進(jìn)行規(guī)范的建表管理,實現(xiàn)手動、批量的表處理。
數(shù)據(jù)傳輸:實現(xiàn)不同邏輯數(shù)據(jù)源之間的數(shù)據(jù)傳導(dǎo),同時也是后續(xù)數(shù)據(jù)入物理湖的基石。數(shù)據(jù)傳輸根據(jù)邏輯數(shù)據(jù)源的元信息,給出最佳的傳輸方案。
數(shù)據(jù)開發(fā):一種是直接在源系統(tǒng)上進(jìn)行開發(fā),比如各類的SQL任務(wù),用戶選擇對應(yīng)的數(shù)據(jù)源,調(diào)度執(zhí)行節(jié)點根據(jù)數(shù)據(jù)源相關(guān)的信息、驅(qū)動配置等直接連上數(shù)據(jù)系統(tǒng)執(zhí)行任務(wù),支持用戶保留原有的開發(fā)習(xí)慣,也方便任務(wù)的遷移。對于跨源的SQL任務(wù),主要依托Spark、Flink等計算框架的catalog-manger框架來實現(xiàn)。
自助取數(shù):自助取數(shù)和數(shù)據(jù)開發(fā)類似,在單源數(shù)據(jù)模型信息的基礎(chǔ)上,根據(jù)登記的數(shù)據(jù)源信息以及應(yīng)用場景的關(guān)聯(lián)賬號,提供直連數(shù)據(jù)源的取數(shù)能力。
資產(chǎn)地圖:通過將各個來源的數(shù)據(jù)對象元信息進(jìn)行串聯(lián)和整合,給用戶提供快速數(shù)據(jù)查找的能力。以地圖表搜索為例子,通過解析邏輯數(shù)據(jù)源抽取并解析源系統(tǒng)的表元信息,關(guān)聯(lián)主題、指標(biāo)、標(biāo)簽等信息以后寫入ES等檢索系統(tǒng),從而提供多個維度的庫表檢索能力,除了表詳情以外,還將關(guān)聯(lián)的產(chǎn)出任務(wù)、血緣信息、變更ddl等一并展示。
數(shù)據(jù)血緣:統(tǒng)一元數(shù)據(jù)提供了統(tǒng)一應(yīng)用管理的基石,數(shù)據(jù)血緣則能夠?qū)?shù)據(jù)應(yīng)用管理的多個場景串聯(lián)起來,相互協(xié)同發(fā)揮更大的作用。在任務(wù)提交階段,我們就會對SQL進(jìn)行靜態(tài)解析,拿到輸入輸出表展示給用戶,方便用戶調(diào)試調(diào)整任務(wù),在任務(wù)上線配置中根據(jù)歷史血緣信息智能地推薦出依賴的上游任務(wù)。另外在任務(wù)執(zhí)行時,執(zhí)行調(diào)度引擎服務(wù)會把運行時SQL,結(jié)合靜態(tài)的SQL形成的血緣表達(dá)式統(tǒng)一傳送給元數(shù)據(jù)中心,元數(shù)據(jù)中心生產(chǎn)最后的實際血緣信息,并進(jìn)行血緣生命周期的管理。
圖1 浙江電信數(shù)據(jù)中臺架構(gòu)圖
敏捷數(shù)據(jù)分析與可視化平臺:
·以敏捷 BI 方式替換現(xiàn)有傳統(tǒng)報表開發(fā)方式,實現(xiàn)了拖拉拽快速制作報告、自助取數(shù)、統(tǒng)一門戶管理等分析功能。
·與中臺一體化,順暢實現(xiàn)數(shù)據(jù)產(chǎn)出訂閱和數(shù)據(jù)指標(biāo)顯示,提升報表分析實時性和易用性。用戶可以對關(guān)注的數(shù)據(jù)進(jìn)行訂閱,數(shù)據(jù)中臺相關(guān)數(shù)據(jù)任務(wù)運行完成之后會通知用戶可以在BI平臺進(jìn)行報表制作,兩平臺的聯(lián)動還可實現(xiàn)報表數(shù)據(jù)自動刷新,大大提升了報表數(shù)據(jù)的實時性。報表用戶通常對數(shù)據(jù)指標(biāo)和維度的區(qū)分有嚴(yán)格要求,而數(shù)據(jù)指標(biāo)的定義由數(shù)據(jù)中臺完成。網(wǎng)易數(shù)帆有數(shù)數(shù)據(jù)中臺和有數(shù)BI平臺的高效聯(lián)通使得BI平臺能夠以輕量化的配置實現(xiàn)自動識別和顯示數(shù)據(jù)指標(biāo)的功能。
·兼具向下游各類用戶進(jìn)行報表集中展示功能。浙江電信大數(shù)據(jù)部門需要為后端部門、前端部門、分公司提供數(shù)據(jù)報表支持,但因為涉及的主體過多,對敏感數(shù)據(jù)及數(shù)據(jù)權(quán)限的控制工作較為繁雜。網(wǎng)易數(shù)帆有數(shù)BI平臺提供自動化解決方案,通過接口進(jìn)行集成,并統(tǒng)一進(jìn)行報表權(quán)限控制,針對不同供應(yīng)商,權(quán)限可以細(xì)化到報表里的行和列數(shù)據(jù),因此浙江電信將BI平臺作為全公司集中進(jìn)行報表數(shù)據(jù)開發(fā)和展示的平臺。
圖2 浙江電信敏捷數(shù)據(jù)分析與可視化平臺架構(gòu)圖
商業(yè)變化
綜合來看,浙江電信借助數(shù)據(jù)中臺與敏捷BI可視化技術(shù)統(tǒng)一了數(shù)據(jù)開發(fā)、運維、權(quán)限、自助查詢和可視化分析能力,提升了公司數(shù)據(jù)運維的效率。
·數(shù)據(jù)開發(fā):提升開發(fā)效率。數(shù)據(jù)中臺使得各種數(shù)據(jù)任務(wù)和功能開發(fā)從人為控制過渡到了平臺管控,無需管理多套技術(shù)棧,節(jié)省大量的時間,提升數(shù)據(jù)研發(fā)效率1倍以上,大幅度減少數(shù)據(jù)故障發(fā)生率。
·數(shù)據(jù)運維:實現(xiàn)從分散數(shù)據(jù)運維到集中處理。從前運維人員需要登錄不同的系統(tǒng)對數(shù)據(jù)任務(wù)進(jìn)行監(jiān)測,數(shù)據(jù)中臺將所有數(shù)據(jù)任務(wù)匯聚到運營中心,運維人員能夠統(tǒng)一看到所有系統(tǒng)的運營狀況,出現(xiàn)問題時能夠批量操作,在幾秒鐘之內(nèi)對出錯的任務(wù)進(jìn)行重跑。同時平臺內(nèi)置多樣的報警功能,在數(shù)據(jù)運行異常時能夠通過電話、短信、郵件等多種方式通知相關(guān)負(fù)責(zé)人,保證了問題處理的即時性。
·數(shù)據(jù)權(quán)限:統(tǒng)一權(quán)限管理避免越權(quán)。數(shù)據(jù)中臺把所有數(shù)據(jù)源權(quán)限統(tǒng)一導(dǎo)入中臺進(jìn)行管理,當(dāng)某一用戶登錄中臺時,中臺可以明確該用戶對所有數(shù)據(jù)庫的權(quán)限,避免了越權(quán)問題。敏捷BI平臺對具有報表查看需求的下游各類主體數(shù)據(jù)權(quán)限進(jìn)行統(tǒng)一管理,提升了上下游數(shù)據(jù)交互的效率。
·自助查詢和可視化分析:提升取數(shù)效率,建設(shè)數(shù)據(jù)文化。浙江電信數(shù)據(jù)中臺的自助查詢工具將之前分散的即時查詢端口進(jìn)行收攏和統(tǒng)一管控,自助式的分析與取數(shù)提升業(yè)務(wù)人員獲取數(shù)據(jù)效率、分析效率,推動公司形成了“天天用數(shù)據(jù)、人人用數(shù)據(jù)”的氛圍。
關(guān)于企業(yè)
·網(wǎng)易數(shù)帆
網(wǎng)易數(shù)帆是網(wǎng)易集團旗下 To B 數(shù)字化轉(zhuǎn)型技術(shù)與服務(wù)提供商,依托網(wǎng)易二十余年互聯(lián)網(wǎng)技術(shù)積累,為客戶提供創(chuàng)新、可靠的國產(chǎn)軟件基礎(chǔ)平臺產(chǎn)品及相應(yīng)技術(shù)服務(wù)、行業(yè)專屬解決方案及數(shù)字化建設(shè)咨詢服務(wù),業(yè)務(wù)覆蓋云原生基礎(chǔ)軟件、數(shù)據(jù)智能全鏈路產(chǎn)品、人工智能算法應(yīng)用三大領(lǐng)域,幫助客戶快速搭建無綁定、高兼容、自主可控的創(chuàng)新基礎(chǔ)平臺架構(gòu),目前已服務(wù)金融、零售、制造、能源、通信等各領(lǐng)域頭部客戶百余家。
·中國電信股份有限公司浙江分公司
中國電信股份有限公司浙江分公司是中國電信首批在海外上市的四家省級公司之一,是浙江省內(nèi)規(guī)模最大、歷史最悠久的電信運營企業(yè)。目前公司下轄11個市分公司、62個縣(市、區(qū))分公司、1個直屬單位(省長途電信傳輸局)、2個專業(yè)分公司。
來源:網(wǎng)易數(shù)帆
刷新相關(guān)文章
我要評論
活動推薦more >
- 【大會嘉賓】威馬汽車集團戰(zhàn)2021-08-02
- 【大會嘉賓】聯(lián)通智慧足跡CM2021-08-02
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
不容錯過的資訊
-
1榮譽時刻|2022 Future FMCG年度創(chuàng)新產(chǎn)
-
2【數(shù)智化案例展】某知名公募基金——有連
-
3趙偉國與紫光集團的“狗血劇”,并不是中
-
42022可信云大會在京召開
-
5以數(shù)據(jù)智能賦能數(shù)字化營銷,“科創(chuàng)板數(shù)據(jù)
-
6HCR慧辰全新升級數(shù)據(jù)分析能力,構(gòu)建數(shù)字
-
7【戰(zhàn)“疫”案例展】騰訊——“智能復(fù)學(xué)碼
-
8定位賦能與開放,亞馬遜云科技圍繞三大場
-
9海光信息將于科創(chuàng)板上市:估值900億,爭
-
10資本熱流過后,關(guān)于RPA的N種猜想