【金猿案例展】泰康養(yǎng)老——基于 ArcGraph 的圖增強(qiáng)數(shù)據(jù)資產(chǎn)管理平臺(tái)
原創(chuàng) Fabarta | 2024-01-09 19:50
【數(shù)據(jù)猿導(dǎo)讀】 本項(xiàng)目案例由Fabarta投遞并參與“數(shù)據(jù)猿年度金猿策劃活動(dòng)——2023大數(shù)據(jù)產(chǎn)業(yè)年度創(chuàng)新服務(wù)企業(yè)榜單/獎(jiǎng)項(xiàng)”評(píng)選。

隨著數(shù)字化轉(zhuǎn)型的推進(jìn),企業(yè)逐漸意識(shí)到數(shù)據(jù)對(duì)于決策的重要性。數(shù)據(jù)驅(qū)動(dòng)的決策需要可信、一致、完整的數(shù)據(jù)資產(chǎn)作為決策的基礎(chǔ)。
在此背景下,企業(yè)對(duì)于數(shù)據(jù)血緣的建設(shè)需求迅速增加。在保險(xiǎn)行業(yè),合規(guī)性和風(fēng)險(xiǎn)管理是非常關(guān)鍵的。要滿足監(jiān)管要求和降低風(fēng)險(xiǎn),企業(yè)需要能夠跟蹤和分析數(shù)據(jù)血緣,以了解來(lái)自哪里的數(shù)據(jù)、經(jīng)過(guò)何種處理和傳輸、以及數(shù)據(jù)的使用情況。數(shù)據(jù)質(zhì)量是數(shù)據(jù)驅(qū)動(dòng)決策的核心要素之一。為了確保數(shù)據(jù)的質(zhì)量和一致性,需要建立數(shù)據(jù)血緣來(lái)跟蹤數(shù)據(jù)從源頭到目的地的路徑和變換,以便更好地進(jìn)行數(shù)據(jù)質(zhì)量監(jiān)控和數(shù)據(jù)治理。
• 異常檢測(cè):可以幫助識(shí)別數(shù)據(jù)流中的異常情況,例如循環(huán)依賴或無(wú)限遞歸。這有助于在早期發(fā)現(xiàn)潛在的問(wèn)題,并采取適當(dāng)?shù)拇胧﹣?lái)糾正或處理異常數(shù)據(jù)流。
• 數(shù)據(jù)質(zhì)量管理:數(shù)據(jù)血緣系統(tǒng)可以提前識(shí)別數(shù)據(jù)的潛在質(zhì)量問(wèn)題,如數(shù)據(jù)重復(fù)、數(shù)據(jù)丟失或數(shù)據(jù)變異。這有助于提高數(shù)據(jù)的質(zhì)量,并確保數(shù)據(jù)在流動(dòng)過(guò)程中不會(huì)出現(xiàn)問(wèn)題。
• 合規(guī)性和安全性:可以幫助確保數(shù)據(jù)流動(dòng)的合規(guī)性和安全性。它可以識(shí)別潛在的風(fēng)險(xiǎn),如敏感數(shù)據(jù)泄漏或數(shù)據(jù)非法訪問(wèn),以便采取必要的安全措施。
• 效率提升:通過(guò)減少不必要的數(shù)據(jù)傳遞和處理,可以提高數(shù)據(jù)流動(dòng)的效率。這有助于降低資源消耗,提高數(shù)據(jù)處理速度,并降低與數(shù)據(jù)管理相關(guān)的成本。
實(shí)施時(shí)間:
項(xiàng)目開(kāi)始時(shí)間:2023年10月15日
中間重要時(shí)間節(jié)點(diǎn):
2023年11月15日 測(cè)試環(huán)境上線
2023年12月01日 生產(chǎn)環(huán)境上線
2023年12月15日 完成生產(chǎn)環(huán)境驗(yàn)收,開(kāi)始試運(yùn)行
項(xiàng)目完結(jié)時(shí)間:2024年01月05日
應(yīng)用場(chǎng)景
1、業(yè)務(wù)用戶取數(shù):在企業(yè)的日常運(yùn)營(yíng)中,業(yè)務(wù)用戶經(jīng)常需要獲取各種數(shù)據(jù)輔助決策。數(shù)據(jù)資產(chǎn)管理平臺(tái)可以提供一個(gè)中心化的平臺(tái),幫助業(yè)務(wù)用戶可以方便地查詢和獲取數(shù)據(jù)。例如,銷售部門的業(yè)務(wù)用戶可能需要獲取銷售數(shù)據(jù),以便了解銷售情況并制定銷售策略。通過(guò)數(shù)據(jù)資產(chǎn)管理平臺(tái),他們可以快速地獲取所需的數(shù)據(jù)。
2、指標(biāo)加工:數(shù)據(jù)資產(chǎn)管理平臺(tái)可以提供指標(biāo)門戶與指標(biāo)加工能力,幫助業(yè)務(wù)用戶自助開(kāi)發(fā)各種業(yè)務(wù)指標(biāo)。例如,財(cái)務(wù)部門的業(yè)務(wù)用戶可能需要開(kāi)發(fā)財(cái)務(wù)指標(biāo),以便進(jìn)行財(cái)務(wù)分析。通過(guò)數(shù)據(jù)資產(chǎn)管理平臺(tái),他們可以方便地加工數(shù)據(jù),開(kāi)發(fā)出所需的財(cái)務(wù)指標(biāo)。
3、數(shù)據(jù)質(zhì)量管理:數(shù)據(jù)資產(chǎn)管理平臺(tái)可以幫助企業(yè)進(jìn)行數(shù)據(jù)治理,提高數(shù)據(jù)的質(zhì)量。例如,企業(yè)可以通過(guò)數(shù)據(jù)資產(chǎn)管理平臺(tái)進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準(zhǔn)化等,提高企業(yè)數(shù)據(jù)的質(zhì)量,進(jìn)而提升數(shù)據(jù)分析準(zhǔn)確率,輔助企業(yè)決策。
4、數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)創(chuàng)新:通過(guò)數(shù)據(jù)資產(chǎn)管理平臺(tái),企業(yè)可以進(jìn)行數(shù)據(jù)分析,得出業(yè)務(wù)洞察,進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的決策。例如,通過(guò)分析客戶行為數(shù)據(jù),企業(yè)可以了解客戶需求,進(jìn)行更精準(zhǔn)的營(yíng)銷。
5、數(shù)據(jù)共享:數(shù)據(jù)資產(chǎn)管理平臺(tái)可以幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)的共享,提高數(shù)據(jù)的使用效率,加速數(shù)據(jù)資產(chǎn)周轉(zhuǎn)。例如,企業(yè)的各個(gè)部門可以通過(guò)數(shù)據(jù)資產(chǎn)管理平臺(tái)共享數(shù)據(jù),提高協(xié)作效率,降低數(shù)據(jù)管理與運(yùn)營(yíng)成本。
面臨挑戰(zhàn)
1、內(nèi)部協(xié)調(diào)配合問(wèn)題:企業(yè)內(nèi)部各部門之間的數(shù)據(jù)共享和協(xié)作存在問(wèn)題,導(dǎo)致數(shù)據(jù)無(wú)法高效利用。例如,業(yè)務(wù)部門每天都有大量的數(shù)據(jù)加工與取數(shù)需求,以輔助其制定業(yè)務(wù)決策。但數(shù)據(jù)部門的資源有限,疲于應(yīng)付自己部門內(nèi)部的應(yīng)用開(kāi)發(fā)需求,同時(shí)還需要應(yīng)對(duì)不同業(yè)務(wù)部門源源不斷的數(shù)據(jù)需求,包括離線的供數(shù)需求和實(shí)時(shí)的數(shù)據(jù)分析需求,如何協(xié)調(diào)集團(tuán)內(nèi)部配合成為了一大難題。
2、系統(tǒng)老舊過(guò)時(shí)問(wèn)題:企業(yè)的舊有系統(tǒng)無(wú)法滿足現(xiàn)在的數(shù)據(jù)管理和分析需求,數(shù)據(jù)資產(chǎn)平臺(tái)可以提供更先進(jìn)的數(shù)據(jù)處理和分析能力,幫助企業(yè)更好的使用數(shù)據(jù);同時(shí),舊有的數(shù)據(jù)加工工具、調(diào)度工具、BI 工具等工具類產(chǎn)品給數(shù)據(jù)采集、血緣采集增加了難度,使全鏈路字段級(jí)血緣的可行性在項(xiàng)目初期懸而未決。
3、數(shù)據(jù)格式不統(tǒng)一問(wèn)題:企業(yè)內(nèi)外部的數(shù)據(jù)格式可能存在差異,導(dǎo)致數(shù)據(jù)無(wú)法直接使用。數(shù)據(jù)資產(chǎn)平臺(tái)可以進(jìn)行數(shù)據(jù)清洗和轉(zhuǎn)換,解決數(shù)據(jù)格式不統(tǒng)一的問(wèn)題。
4、數(shù)據(jù)孤立無(wú)法打通問(wèn)題:企業(yè)內(nèi)部的數(shù)據(jù)可能存在于不同的系統(tǒng)和平臺(tái)中,導(dǎo)致數(shù)據(jù)無(wú)法打通。數(shù)據(jù)資產(chǎn)平臺(tái)可以實(shí)現(xiàn)數(shù)據(jù)的集成和連接,解決數(shù)據(jù)孤立的問(wèn)題。
5、數(shù)據(jù)安全問(wèn)題:盡管本期項(xiàng)目目標(biāo)是數(shù)據(jù)資產(chǎn)在企業(yè)內(nèi)部,在使用數(shù)據(jù)的過(guò)程中,仍需格外關(guān)注數(shù)據(jù)安全、數(shù)據(jù)權(quán)限以及數(shù)據(jù)合規(guī)問(wèn)題,數(shù)據(jù)資產(chǎn)平臺(tái)可以幫助企業(yè)進(jìn)行數(shù)據(jù)安全管理,實(shí)行安全加密,大大降低數(shù)據(jù)暴露風(fēng)險(xiǎn)。
數(shù)據(jù)支持
1、泰康養(yǎng)老數(shù)倉(cāng)存量數(shù)據(jù)約 150T,日增數(shù)據(jù)約 100G,存儲(chǔ)了泰康養(yǎng)老已采集的業(yè)務(wù)數(shù)據(jù),包含獲客、銷售、財(cái)務(wù)、理賠、售后等業(yè)務(wù)領(lǐng)域。
2、數(shù)據(jù)資產(chǎn)平臺(tái)每日定時(shí)采集數(shù)倉(cāng)元數(shù)據(jù),共采集約 2 萬(wàn)張表,上百萬(wàn)數(shù)據(jù)字段。每日采集的技術(shù)元數(shù)據(jù)均會(huì)留存歷史版本,作為后續(xù)歷史版本查看與版本比較的數(shù)據(jù)輸入。
3、資產(chǎn)平臺(tái)每日全量收集數(shù)據(jù)加工腳本超 5 萬(wàn)份,根據(jù)業(yè)務(wù)邏輯過(guò)濾篩選留下約 2 萬(wàn)份腳本文件。基于 Fabarta 血緣解析引擎,從中識(shí)別出 3 萬(wàn)余條表級(jí)數(shù)據(jù)血緣,100 萬(wàn)余條字段級(jí)數(shù)據(jù)血緣。每日識(shí)別的數(shù)據(jù)血緣也會(huì)留存歷史版本,作為后續(xù)歷史版本查看與版本比較的數(shù)據(jù)輸入。
4、資產(chǎn)平臺(tái)管理了服務(wù)類數(shù)據(jù)資產(chǎn)約 2 萬(wàn)條(數(shù)據(jù)每日穩(wěn)定增長(zhǎng)),類型包括:數(shù)據(jù)指標(biāo)、數(shù)據(jù) API、數(shù)據(jù)報(bào)表等,均可對(duì)外提供穩(wěn)定的資產(chǎn)服務(wù)。
應(yīng)用技術(shù)與實(shí)施過(guò)程
一、用戶旅程
平臺(tái)的業(yè)務(wù)用戶旅程,如下圖所示:
• 通過(guò)數(shù)據(jù)地圖找數(shù)據(jù),看數(shù)據(jù):平臺(tái)提供資產(chǎn)瀏覽與資產(chǎn)地圖,業(yè)務(wù)用戶可自助尋找目標(biāo)數(shù)據(jù)集。
• 通過(guò)審批流程申請(qǐng)數(shù)據(jù)權(quán)限:按需申請(qǐng)數(shù)據(jù)訪問(wèn)權(quán)限,包括行權(quán)限、列權(quán)限,支持隱私訪問(wèn)。
• 通過(guò)集成工具用數(shù)據(jù):數(shù)據(jù)預(yù)覽、數(shù)據(jù)下載、BI 工具直連、數(shù)據(jù)科學(xué)工作站(如 Jupiter Notebook)、可視化自定義 API、低代碼分析平臺(tái)等。
• 監(jiān)控?cái)?shù)據(jù)流轉(zhuǎn)與消費(fèi):自配置調(diào)用限制與熔斷機(jī)制,日志分析,API 調(diào)用監(jiān)控與分析。
二、功能架構(gòu)
本項(xiàng)目中長(zhǎng)期規(guī)劃的功能架構(gòu),如下圖所示。其中資產(chǎn)瀏覽、資產(chǎn)管理、審批中心和數(shù)據(jù)底座中的元數(shù)據(jù)服務(wù)、數(shù)據(jù)血緣等部分已在本期項(xiàng)目中成功投產(chǎn)上線。
在整體的功能規(guī)劃中,自底向上依次為:數(shù)據(jù)源層、數(shù)據(jù)底座、資產(chǎn)服務(wù)、應(yīng)用層:
• 數(shù)據(jù)源層:即數(shù)據(jù)載體,目前集團(tuán)內(nèi)使用的數(shù)據(jù)庫(kù)種類繁多,也是本項(xiàng)目實(shí)施的困難之一,包含:DB2 數(shù)倉(cāng)、Hadoop 集群、MySQL、Oracle 等。作為泰康養(yǎng)老的數(shù)據(jù)基建部門,管轄了整個(gè)養(yǎng)老集團(tuán)的全部數(shù)據(jù),數(shù)據(jù)種類繁多、格式復(fù)雜,數(shù)據(jù)量巨大,數(shù)據(jù)血緣鏈路長(zhǎng)、且變更頻繁。
• 數(shù)據(jù)底座:為了支撐數(shù)據(jù)資產(chǎn)平臺(tái)的正常運(yùn)營(yíng),數(shù)據(jù)底座中包含有元數(shù)據(jù)服務(wù)、數(shù)據(jù)血緣服務(wù)、數(shù)據(jù)質(zhì)量服務(wù)、數(shù)據(jù)安全服務(wù)、指標(biāo)開(kāi)發(fā)中心、API 開(kāi)發(fā)中心等基礎(chǔ)服務(wù),負(fù)責(zé)提供資產(chǎn)管理所需的一切元數(shù)據(jù)與數(shù)據(jù),同時(shí)將數(shù)據(jù)與質(zhì)量、安全等核心資產(chǎn)信息關(guān)聯(lián)起來(lái),便于后續(xù)資產(chǎn)管理與上線使用。
• 資產(chǎn)服務(wù):提供完整的資產(chǎn)管理、資產(chǎn)發(fā)布、資產(chǎn)門戶、資產(chǎn)運(yùn)營(yíng)能力,基于技術(shù)元數(shù)據(jù)與數(shù)據(jù)血緣,提供更為詳盡的鏈路信息,加速數(shù)據(jù)流轉(zhuǎn),提升數(shù)據(jù)資產(chǎn)質(zhì)量。
• 應(yīng)用層:即數(shù)據(jù)消費(fèi)方,基于資產(chǎn)門戶提供的加密數(shù)據(jù)訪問(wèn)方式,可支撐包含可視化報(bào)表、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、應(yīng)用開(kāi)發(fā)和日常取數(shù)等資產(chǎn)消費(fèi)場(chǎng)景。
三、系統(tǒng)架構(gòu)圖
本項(xiàng)目核心模塊-元數(shù)據(jù)管理與血緣管理的系統(tǒng)架構(gòu)圖,如下圖所示:
• 數(shù)據(jù)存儲(chǔ):本模塊使用圖數(shù)據(jù)庫(kù)作為主存儲(chǔ),存儲(chǔ)了技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)、表級(jí)數(shù)據(jù)血緣、字段級(jí)數(shù)據(jù)血緣等核心數(shù)據(jù),同時(shí),使用 MySQL 作為備庫(kù),以另一種數(shù)據(jù)形態(tài)備份了核心數(shù)據(jù)
• 元數(shù)據(jù)解析引擎:使用開(kāi)源框架實(shí)現(xiàn)異構(gòu)治理數(shù)據(jù)源的元數(shù)據(jù)采集工作,使用開(kāi)源包括 Apache MetaModel、Apache MetaCat、Ali Druid 等。周期性對(duì)治理數(shù)據(jù)源進(jìn)行并行采集,保證資產(chǎn)平臺(tái)上維護(hù)的元數(shù)據(jù)實(shí)時(shí)性。
• 血緣解析引擎:自研血緣解析引擎,實(shí)現(xiàn)表級(jí) + 字段級(jí)血緣解析,可解析率與解析準(zhǔn)確率均超過(guò) 99%。適配本項(xiàng)目范圍內(nèi)使用的工具如:Informatica、永洪 BI、DB2 數(shù)倉(cāng)等。
• 系統(tǒng)集成層:實(shí)現(xiàn)底層數(shù)據(jù)的系統(tǒng)集成,通過(guò) API、數(shù)據(jù)直連等方式提供基礎(chǔ)數(shù)據(jù)服務(wù)。
四、關(guān)鍵技術(shù)
1、使用圖數(shù)據(jù)庫(kù)實(shí)現(xiàn)血緣數(shù)據(jù)的實(shí)時(shí)多跳查詢
血緣數(shù)據(jù)尤其是字段級(jí)血緣數(shù)據(jù),其數(shù)據(jù)特征為:數(shù)量大、鏈路長(zhǎng)、關(guān)系復(fù)雜,為比較典型的圖模式特征數(shù)據(jù),故本項(xiàng)目中采用了 Fabarta 自研的 ArcGraph 作為血緣數(shù)據(jù)的存儲(chǔ)與查詢介質(zhì),實(shí)現(xiàn)了血緣數(shù)據(jù)的實(shí)時(shí)更新以及毫秒級(jí)的多跳實(shí)時(shí)查詢。
圖數(shù)據(jù)庫(kù)模型(Schema)由節(jié)點(diǎn)(Node)和邊緣(Edge)組成。
• 節(jié)點(diǎn)(Node Types): 圖數(shù)據(jù)庫(kù)模型定義了圖中的不同節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)通常對(duì)應(yīng)一種實(shí)體或概念,例如,如果用戶 A 正在建立一個(gè)社交網(wǎng)絡(luò)圖,你可能會(huì)定義節(jié)點(diǎn)類型為"用戶"、"帖子"和"評(píng)論"。
• 邊緣(Edge Types):圖數(shù)據(jù)庫(kù)模型還定義了不同邊緣的類型,邊緣表示節(jié)點(diǎn)之間的關(guān)系。例如,社交網(wǎng)絡(luò)中的"關(guān)注"關(guān)系可以是一種邊類型,"點(diǎn)贊"關(guān)系可以是另一種邊類型。
此外,每個(gè)節(jié)點(diǎn)和邊緣可以有屬性,用于存儲(chǔ)關(guān)于它們的附加信息,例如"用戶姓名"、"點(diǎn)贊時(shí)間"等
本方法中涉及的圖模型見(jiàn)下表,共計(jì) 3 種節(jié)點(diǎn)類型和 2 種邊緣類型,節(jié)點(diǎn)與邊緣屬性僅列舉示例信息,實(shí)際場(chǎng)景中屬性可根據(jù)業(yè)務(wù)自由拓展。
搜索上下游共 14 層血緣的查詢性能,常規(guī)關(guān)系型數(shù)據(jù)庫(kù)需要 30s 以上返回?cái)?shù)據(jù)。在相同數(shù)據(jù)量與相同機(jī)器配置的環(huán)境下,使用圖數(shù)據(jù)庫(kù)之后查詢效率為 800ms 左右。
2、使用圖計(jì)算算法實(shí)現(xiàn)血緣環(huán)路分析
我們已經(jīng)在圖數(shù)據(jù)庫(kù)中定義了一套算法和控制邏輯,旨在找出圖中所有可能形成環(huán)路的路徑。其中,圖遍歷操作起著核心作用。圖遍歷是從圖數(shù)據(jù)結(jié)構(gòu)的某個(gè)起始節(jié)點(diǎn)開(kāi)始,通過(guò)遍歷邊(或稱之為關(guān)系)來(lái)訪問(wèn)圖中其他節(jié)點(diǎn),從而尋找或處理特定的信息。具體說(shuō)來(lái),訪問(wèn)節(jié)點(diǎn)的直接鄰居被定義為一跳遍歷,訪問(wèn)鄰居的鄰居稱為二跳遍歷,依此類推,被稱為多跳遍歷。在環(huán)路發(fā)現(xiàn)的算法中,我們從圖的任意節(jié)點(diǎn)出發(fā),通過(guò)多跳遍歷來(lái)判斷是否存在環(huán)路并給出輸出。
圖遍歷在處理復(fù)雜關(guān)系和圖數(shù)據(jù)時(shí),相比傳統(tǒng)數(shù)據(jù)庫(kù)有顯著優(yōu)勢(shì):
• 復(fù)雜關(guān)系處理:圖遍歷是處理圖數(shù)據(jù)結(jié)構(gòu)中復(fù)雜關(guān)系的優(yōu)秀選擇。傳統(tǒng)數(shù)據(jù)庫(kù)中的表格關(guān)系通常較為簡(jiǎn)潔,而圖數(shù)據(jù)庫(kù)則允許展示和查詢更復(fù)雜的關(guān)系,例如社交網(wǎng)絡(luò)的朋友關(guān)系、推薦系統(tǒng)的用戶行為模式、交通網(wǎng)絡(luò)的路線等。
• 靈活性:圖遍歷是一種非常靈活的查詢方式,可以根據(jù)需求深度探索數(shù)據(jù),跨越多個(gè)節(jié)點(diǎn)和邊進(jìn)行多跳查詢。而傳統(tǒng)數(shù)據(jù)庫(kù)查詢往往需要明確的表格結(jié)構(gòu)和預(yù)設(shè)的關(guān)系,圖數(shù)據(jù)庫(kù)則可以根據(jù)實(shí)際需求動(dòng)態(tài)調(diào)整。
• 高效查詢:對(duì)于某些類型的查詢,特別是那些需要找出和分析復(fù)雜關(guān)系的查詢,圖遍歷比傳統(tǒng)數(shù)據(jù)庫(kù)更為高效。圖數(shù)據(jù)庫(kù)通常利用圖算法和索引結(jié)構(gòu)來(lái)提升查詢性能,尤其是對(duì)于多跳查詢和大規(guī)模圖數(shù)據(jù)。
• 遞歸關(guān)系處理:圖遍歷天生適合處理遞歸關(guān)系,例如組織結(jié)構(gòu)、層級(jí)數(shù)據(jù)、推薦系統(tǒng)中的用戶推薦等。傳統(tǒng)數(shù)據(jù)庫(kù)中的遞歸查詢可能需要復(fù)雜的遞歸查詢語(yǔ)句,而圖遍歷則能更自然地處理這些問(wèn)題。
在問(wèn)題復(fù)雜度方面,由于需要遍歷所有可能的路徑,其復(fù)雜度為 O(V*(V+E+R)),其中 V 為節(jié)點(diǎn)數(shù)量,E 為邊的數(shù)量,R 為環(huán)路的數(shù)量。
① 數(shù)據(jù)剪枝
為了減少算法復(fù)雜度,我們提出了一種剪枝策略,標(biāo)記不構(gòu)成環(huán)路的點(diǎn),并在之后的算法運(yùn)行中跳過(guò)這些點(diǎn),降低需要遍歷的數(shù)據(jù)量。
剪枝策略核心在于當(dāng)一個(gè)點(diǎn)出度或入度其中之一為 0(即點(diǎn)只存在出邊或者入邊),則該點(diǎn)不在某條環(huán)路路徑上,當(dāng)鄰居點(diǎn)被剪枝后,也會(huì)產(chǎn)生新的不在環(huán)路中的點(diǎn),反復(fù)迭代,直到標(biāo)記完畢。如圖所示。
經(jīng)過(guò)剪枝策略,不在環(huán)路中的點(diǎn)和邊標(biāo)記為灰色,后續(xù)只需將藍(lán)色點(diǎn)遍歷輸出即可,剪枝算法復(fù)雜度為 O(V+E),結(jié)果遍歷復(fù)雜度 O(V*R)。
② 內(nèi)存優(yōu)化
算法運(yùn)行除考慮性能外,也需要考慮所需要的硬件,其中內(nèi)存消耗量是重要指標(biāo),需要在有限的硬件資源條件下選擇合適的算法邏輯,在環(huán)路優(yōu)化算法中,影響內(nèi)存消耗量的核心在于圖遍歷方式。
圖遍歷需記錄當(dāng)前遍歷路徑,分為深度優(yōu)先搜索和寬度優(yōu)先搜索兩種方式,我們對(duì)不同遍歷方式做了對(duì)比:
• 寬度優(yōu)先遍歷(BFS):隊(duì)列結(jié)構(gòu)存儲(chǔ)遍歷路徑,每次從隊(duì)列中取出一條路徑,遍歷路徑當(dāng)前點(diǎn)鄰接點(diǎn),拼接為新路徑,并判斷路徑首尾是否相接,相接則輸出環(huán)路信息,否則加入到隊(duì)列中。
• 深度優(yōu)先遍歷(DFS):使用遞歸調(diào)用方式遍歷路徑,將當(dāng)前鄰接點(diǎn)拼接為新路徑,并判斷路徑首尾是否相接,相接則輸出環(huán)路信息,否則加入到繼續(xù)遍歷鄰接點(diǎn)。
③ 算法結(jié)果
點(diǎn)類型為 table,邊類型為 impact,起始點(diǎn)和目標(biāo)點(diǎn)類型均為 table,數(shù)據(jù)集大小為 100000 點(diǎn),10000 邊。在 CPU 8 核 內(nèi)存 32G 的機(jī)器上測(cè)試 10 階及以內(nèi)所有環(huán)路,環(huán)路數(shù)目為 29441,性能結(jié)果如下:
增加剪枝策略后,算法內(nèi)存消耗量有所增加,原因在于需額外保存點(diǎn)狀態(tài),但算法運(yùn)行時(shí)間大大減少,實(shí)現(xiàn)準(zhǔn)實(shí)時(shí)環(huán)路結(jié)果查詢。
對(duì)比 BFS 和 DFS,BFS 方式內(nèi)存消耗量過(guò)大,無(wú)法獲取 10 跳算法結(jié)果,但 DFS 算法可以完成。
商業(yè)變化
治研一體,共同推進(jìn)數(shù)據(jù)資產(chǎn)管理。
1、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)治理與數(shù)據(jù)研發(fā)的協(xié)同,可以實(shí)現(xiàn)三個(gè)環(huán)節(jié)的緊密銜接,提高數(shù)據(jù)治理的效果和數(shù)據(jù)研發(fā)的效率
• 需求溝通:元數(shù)據(jù)搜索已經(jīng)覆蓋(標(biāo)準(zhǔn)指標(biāo)、報(bào)表、維度、技術(shù)元數(shù)據(jù)庫(kù)表);元數(shù)據(jù)搜索功能年度內(nèi)部用戶數(shù)百余人;報(bào)表信息也總訪問(wèn)人數(shù)占養(yǎng)老決策報(bào)表訪問(wèn)人數(shù) 80%。
• 開(kāi)發(fā)設(shè)計(jì):數(shù)據(jù)地圖功能,目前有近百用戶日均搜索幾十次,字段級(jí)別血緣解析完成建設(shè);庫(kù)表管理與 API 管理均超過(guò)幾十次/人的使用率。
2、在“治研一體”的模式下,更好地保證數(shù)據(jù)的質(zhì)量、安全性和合規(guī)性,同時(shí)也可以更加快速、準(zhǔn)確地為業(yè)務(wù)提供數(shù)據(jù)支持和解決方案
• 數(shù)據(jù)發(fā)布:資產(chǎn)發(fā)布登記,目前報(bào)表資產(chǎn)、API 資產(chǎn)發(fā)布議程完成存量數(shù)據(jù) 100%梳理、增量數(shù)據(jù) 100%登記;DDL 變更通知已上線。
• 服務(wù)運(yùn)營(yíng):DDL 變更訂閱功能,目前已經(jīng)開(kāi)發(fā)完成,后續(xù)配合 DDL 變更通知共同進(jìn)行模型變化通知體系搭建;數(shù)據(jù)孤島、熱點(diǎn)模型、模型自循環(huán)等定期巡檢報(bào)告輸出。
相關(guān)企業(yè)介紹
·泰康養(yǎng)老保險(xiǎn)股份有限公司
泰康養(yǎng)老成立于2007年8月,注冊(cè)資本70億元,在全國(guó)設(shè)立了34家分公司,業(yè)務(wù)全面對(duì)接政府、企業(yè)、個(gè)人,為國(guó)家多層次社會(huì)保障體系建設(shè)貢獻(xiàn)力量。泰康養(yǎng)老致力于為廣大雇主和雇員提供企業(yè)/職業(yè)年金、團(tuán)體壽險(xiǎn)、意外傷害險(xiǎn)、團(tuán)體及個(gè)人健康保險(xiǎn)、團(tuán)體及個(gè)人養(yǎng)老保險(xiǎn)等一攬子員工福利保障解決方案,助力我國(guó)養(yǎng)老保障三支柱體系建設(shè),致力于滿足企事業(yè)職工群體的醫(yī)養(yǎng)保障需求。
·Fabarta
Fabarta 成立于 2021 年,是一家 AI 基礎(chǔ)設(shè)施公司,提供“一體兩翼”的產(chǎn)品矩陣(多模態(tài)智能引擎、數(shù)據(jù)編織平臺(tái)和企業(yè)智能分析平臺(tái)),通過(guò)探索和聯(lián)結(jié)數(shù)據(jù)資源,助力企業(yè)實(shí)現(xiàn)智能驅(qū)動(dòng)的持續(xù)創(chuàng)新。在引擎層,打造面向 AI 的數(shù)據(jù)基礎(chǔ)設(shè)施,提供支持圖、向量和 AI 推理能力融合的 ArcNeural 多模態(tài)智能引擎;在平臺(tái)層,通過(guò) ArcPilot 企業(yè)智能分析平臺(tái)加速可解釋圖智能和新一代 AI 技術(shù)在企業(yè)場(chǎng)景的落地,同時(shí)利用 ArcFabric 多模態(tài)數(shù)據(jù)編織平臺(tái)幫助企業(yè)梳理多模態(tài)的數(shù)據(jù)資產(chǎn),讓企業(yè)充分發(fā)揮數(shù)據(jù)流動(dòng)帶來(lái)的價(jià)值;此外,F(xiàn)abarta 可以基于多模態(tài)智能引擎、企業(yè)智能分析平臺(tái)和多模態(tài)數(shù)據(jù)編織平臺(tái)與客戶和伙伴一同構(gòu)建行業(yè)應(yīng)用,加速企業(yè)數(shù)智化轉(zhuǎn)型和 AI 技術(shù)的落地。
來(lái)源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
不容錯(cuò)過(guò)的資訊
-
1【金猿產(chǎn)品展】Transwarp Defensor——
-
2網(wǎng)絡(luò)安全驚天劇變!大公司集體裁員,行業(yè)
-
3「共營(yíng)」當(dāng)下,數(shù)見(jiàn)未來(lái)!2023第九屆GDMS
-
4OpenAI將于下周推出GPT Store;蘋(píng)果新專
-
5【金猿投融展】Aloudata大應(yīng)科技——自動(dòng)
-
6【金猿信創(chuàng)展】DataPipeline——成為中國(guó)
-
7【金猿產(chǎn)品展】上上參謀企業(yè)版——大數(shù)據(jù)
-
8AI Xiaoice settled in Taobao and
-
9【金猿產(chǎn)品展】Bonree ONE——一體化智
-
10【金猿信創(chuàng)展】奇點(diǎn)云——自研數(shù)據(jù)云操作
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
