巨杉應(yīng)用案例:大數(shù)據(jù)司法查詢平臺
【數(shù)據(jù)猿導(dǎo)讀】 司法查詢的數(shù)據(jù)是銀行存儲了幾十年的歷史數(shù)據(jù),且會涉及多個業(yè)務(wù)系統(tǒng),如核心系統(tǒng)、信用卡系統(tǒng)及網(wǎng)銀系統(tǒng)等。故其數(shù)據(jù)有以下特點(diǎn):數(shù)據(jù)量龐大、業(yè)務(wù)系統(tǒng)眾多及新舊系統(tǒng)更替等??淳奚紨?shù)據(jù)庫如何利用大數(shù)據(jù)建立更有效的司法查詢平臺

1、前言
公檢法機(jī)關(guān)因?qū)徖斫?jīng)濟(jì)糾紛案件或經(jīng)濟(jì)犯罪案件需要向銀行查詢企業(yè)事業(yè)單位、機(jī)關(guān)、團(tuán)體的銀行存款或者查閱與案件有關(guān)的會計憑證、賬冊、報表等檔案資料,銀行應(yīng)當(dāng)積極配合。在查詢或者查閱時,人民法院應(yīng)當(dāng)向銀行出具正式公函,由銀行行長(主任)指定具體的業(yè)務(wù)部門負(fù)責(zé)提供有關(guān)的情況和資料并派專人接待。查閱人對需要的資料可以抄錄、復(fù)制或照相,但不能借走。人民法院對銀行提供的資料應(yīng)當(dāng)保守秘密。
人民檢察院偵查機(jī)關(guān)在辦理職務(wù)犯罪案件時,尤其是貪污賄賂案件,到商業(yè)銀行查詢犯罪嫌疑人的賬戶相關(guān)交易流水和憑證是一個重要的獲取線索和證據(jù)的途徑,這也是商業(yè)銀行的一項(xiàng)法定義務(wù)。然而在實(shí)際操作過程中,偵查機(jī)關(guān)到商業(yè)銀行開展查詢工作時卻因?yàn)闅v史數(shù)據(jù)查詢上的困難,導(dǎo)致查詢工作效率低下。
對于歷史數(shù)據(jù)而言,超過三至五年的數(shù)據(jù),銀行會采用離線存儲的方式將數(shù)據(jù)歸檔至磁帶庫或光盤庫。當(dāng)偵查機(jī)關(guān)向銀行提出司法查詢請求時,銀行工作人員需要將帶庫中的離線數(shù)據(jù)導(dǎo)出成在線數(shù)據(jù),以供查詢使用。帶庫數(shù)據(jù)的導(dǎo)出操作是非常耗時,耗力的過程,故導(dǎo)致司法查詢進(jìn)展緩慢。
2、面臨的挑戰(zhàn)
因?yàn)樗痉ú樵冃枰榭磫挝换騻€人銀行賬戶的所有交易流水,所以銀行需要提供所有歷史數(shù)據(jù)用以查詢。針對此類需求,銀行均要安排相關(guān)系統(tǒng)工作人員導(dǎo)出離線數(shù)據(jù)以供查詢使用。在此需求環(huán)境下,銀行急需一種有效的解決方案將銀行工作人員從繁重的導(dǎo)數(shù)作業(yè)中解放出來。
司法查詢的數(shù)據(jù)是銀行存儲了幾十年的歷史數(shù)據(jù),且會涉及多個業(yè)務(wù)系統(tǒng),如核心系統(tǒng)、信用卡系統(tǒng)及網(wǎng)銀系統(tǒng)等。故其數(shù)據(jù)有以下特點(diǎn):數(shù)據(jù)量龐大、業(yè)務(wù)系統(tǒng)眾多及新舊系統(tǒng)更替等。
針對以上特點(diǎn),解決方案需要解決以下幾點(diǎn)需求:
離線數(shù)據(jù)在線化:整個解決方案的重點(diǎn)即在于消除司法查詢中的離線數(shù)據(jù)導(dǎo)出工作,而最效有效的解決之道則在于把離線的數(shù)據(jù)進(jìn)行在線化。離線數(shù)據(jù)在線化后,司法查詢則只用將在線數(shù)據(jù)查詢出來給到相應(yīng)檢查部門。因?yàn)樗痉ú樵儾幌窈诵慕灰撞樵內(nèi)绱祟l繁,所以也不可以使用大中型乃至小型機(jī)作為數(shù)據(jù)在線化的硬件存儲平臺。
各業(yè)務(wù)系統(tǒng)數(shù)據(jù)統(tǒng)一管理:因?yàn)樗痉ú樵兩婕氨姸鄻I(yè)務(wù)系統(tǒng),所以進(jìn)行司法查詢時,需要到各業(yè)務(wù)系統(tǒng)平臺進(jìn)行數(shù)據(jù)查詢。這種查詢方式帶來了極大的人力消耗成本。離線數(shù)據(jù)在線化需要將各業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行統(tǒng)一管理,后續(xù)的司法查詢只用在一個平臺即可查詢所有相關(guān)數(shù)據(jù)。
新舊系統(tǒng)數(shù)據(jù)整合:銀行的各系統(tǒng)在整個歷史中進(jìn)行了多次的升級改造,這就導(dǎo)致了新舊系統(tǒng)之間數(shù)據(jù)存儲設(shè)計上存在著極大的差異。為了能提供高效、便捷的司法查詢,新舊系統(tǒng)之間數(shù)據(jù)的整合也是必不可少。 提供高效的數(shù)據(jù)查詢:離線數(shù)據(jù)進(jìn)行在線化的同時,也要保證數(shù)據(jù)查詢的高效性。只有兩者均達(dá)到,司法查詢才能真正擺脫低效率查詢的境地。
3、解決方案
司法查詢平臺由下到上可分為數(shù)據(jù)采集層、數(shù)據(jù)存儲加工層和數(shù)據(jù)應(yīng)用層。數(shù)據(jù)存儲加工層是司法查詢平臺的核心,主要基于SequoiaDB分布式數(shù)據(jù)庫和Spark內(nèi)存分析框架構(gòu)成?;诖思軜?gòu),司法查詢的離線數(shù)據(jù)實(shí)現(xiàn)在線化及實(shí)時查詢。
3.1數(shù)據(jù)采集層
數(shù)據(jù)采集層的主要作用是為數(shù)據(jù)存儲加工層提供司法查詢所需的各業(yè)務(wù)系統(tǒng)數(shù)據(jù)。ODS取數(shù)平臺通過將新舊核心、新舊信用卡及網(wǎng)銀等業(yè)務(wù)系統(tǒng)準(zhǔn)備的歷史數(shù)據(jù)采集回來,將采集的數(shù)據(jù)統(tǒng)一格式,再通過SFTP、FTP和CD等網(wǎng)絡(luò)傳輸方式提供給數(shù)據(jù)存儲加工平臺。
3.2數(shù)據(jù)存儲加工層
數(shù)據(jù)存儲加工層主要工作是完成司法查詢數(shù)據(jù)的統(tǒng)一存儲和加工處理。數(shù)據(jù)采集層傳輸至數(shù)據(jù)存儲加工層的數(shù)據(jù)主要分為存量數(shù)據(jù)和增量數(shù)據(jù)。根據(jù)此兩類數(shù)據(jù),SequoiaDB+Spark構(gòu)建的存儲加工層完成數(shù)據(jù)的規(guī)劃、入庫以及加工處理。
存量數(shù)據(jù)存儲:存量數(shù)據(jù)是指截止某時間點(diǎn)已經(jīng)落盤存儲的數(shù)據(jù),主要作為各業(yè)務(wù)系統(tǒng)的初始化數(shù)據(jù)進(jìn)行存儲入庫。因?yàn)樗痉ú樵兊臍v史數(shù)據(jù)所存儲的量比較龐大,所以存量數(shù)據(jù)在入庫前會根據(jù)系統(tǒng)類別、數(shù)據(jù)類別(流水與非流水)及數(shù)據(jù)量等維度進(jìn)行數(shù)據(jù)規(guī)劃。SequoiaDB數(shù)據(jù)庫的Domain可根據(jù)系統(tǒng)類別完成數(shù)據(jù)規(guī)劃,如新舊核心使用Domain1,新舊信用卡使用Domain2。SequoiaDB的數(shù)據(jù)水平切分機(jī)制和時間序模型可根據(jù)數(shù)據(jù)類別及數(shù)據(jù)量等維度完成數(shù)據(jù)有序高效存儲,如流水?dāng)?shù)據(jù)可根據(jù)客戶交易日期采用時間序模型進(jìn)行數(shù)據(jù)存儲。數(shù)據(jù)規(guī)劃完成后,操作員使用SequoiaDB Import工具將各系統(tǒng)數(shù)據(jù)導(dǎo)入SequoiaDB數(shù)據(jù)庫。
數(shù)據(jù)模型去范式化:由于新舊系統(tǒng)的更替及舊系統(tǒng)設(shè)計的歷史性,同一套系統(tǒng)的新舊系統(tǒng)數(shù)據(jù)表結(jié)構(gòu)存在極大的差異,且舊系統(tǒng)數(shù)據(jù)在存儲大量歷史數(shù)據(jù)的情況下也不利用數(shù)據(jù)的查詢。眾所周知,歷史數(shù)據(jù)查詢的難度在于在數(shù)據(jù)量表的多表JOIN查詢。為了實(shí)現(xiàn)新舊系統(tǒng)數(shù)據(jù)統(tǒng)一和高效快速的查詢,存儲加工層需要根據(jù)司法查詢需求對存量數(shù)據(jù)進(jìn)行加工處理。數(shù)據(jù)加工通過Spark分析框架將存儲于SequoiaDB中的數(shù)據(jù)根據(jù)新舊系統(tǒng)結(jié)構(gòu)的統(tǒng)一規(guī)劃完成數(shù)據(jù)加工處理,如將所有數(shù)據(jù)打平成流水表及非流水表。
增量數(shù)據(jù)同步:增量數(shù)據(jù)指存量數(shù)據(jù)截止日期以后每日變更的數(shù)據(jù),如新核心每天增加的客戶及每天的交易流水?dāng)?shù)據(jù)等。SequoiaDB數(shù)據(jù)庫存儲的數(shù)據(jù)需要與在線交易系統(tǒng)(如新核心、新信用卡)保持T-2數(shù)據(jù)的一致。
3.3數(shù)據(jù)應(yīng)用層
離線數(shù)據(jù)完成在線化之后,數(shù)據(jù)的應(yīng)用并不局限于司法查詢(即公檢法查詢),也可以用于歷史數(shù)據(jù)定制查詢和管理員查詢等諸多用途。司法查詢因?yàn)槠涞皖l率的查詢使得在線數(shù)據(jù)在絕大部分時間里均未被使用。在不影響司法查詢的前提下,在線存儲數(shù)據(jù)的價值應(yīng)該被發(fā)揮出來,如銀行網(wǎng)點(diǎn)對歷史數(shù)據(jù)的查詢和銀行管理員查詢等。數(shù)據(jù)應(yīng)用層使用SequoiaDB API、SequoiaDB SQL和SparkSQL等方式從數(shù)據(jù)存儲加工層獲取數(shù)據(jù),并將獲取的數(shù)據(jù)在WEB前端頁面進(jìn)行數(shù)據(jù)展示。
4、項(xiàng)目成果
離線數(shù)據(jù)低成本在線存儲 :SequoiaDB數(shù)據(jù)庫采用分布式架構(gòu),只需要普通X86 PC Server即可完成海量數(shù)據(jù)的高效存儲。由于司法查詢使用的業(yè)務(wù)數(shù)據(jù)存在離線化、海量化、分散性及查詢低頻性等特點(diǎn),所以廉價的在線存儲架構(gòu)使離線數(shù)據(jù)實(shí)現(xiàn)在線化成為可能。
業(yè)務(wù)系統(tǒng)數(shù)據(jù)統(tǒng)一平臺管理:司法查詢涉及多個業(yè)務(wù)系統(tǒng),所以對多個業(yè)務(wù)系統(tǒng)數(shù)據(jù)的規(guī)劃存儲和統(tǒng)一管理則顯得非常重要。SequoiaDB的Domain功能及元數(shù)據(jù)信息的有效管理很好的實(shí)現(xiàn)了多系統(tǒng)數(shù)據(jù)的統(tǒng)一存儲及管理。
歷史數(shù)據(jù)的實(shí)時查詢:司法查詢的數(shù)據(jù)存儲在SequoiaDB分布式數(shù)據(jù)庫之后,歷史數(shù)據(jù)可以進(jìn)行實(shí)時查詢。SequoiaDB分布式存儲+多索引機(jī)制達(dá)成一個司法查詢請求任務(wù)秒級返回的結(jié)果。
來源:圖靈社區(qū)
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新