天云大數(shù)據(jù)最佳實(shí)踐案例:某大型股份制商業(yè)銀行歷史數(shù)據(jù)在線存儲查詢分析系統(tǒng)
【數(shù)據(jù)猿導(dǎo)讀】 基于大數(shù)據(jù)平臺的歷史數(shù)據(jù)在線存儲查詢分析系統(tǒng),是天云大數(shù)據(jù)公司依托自身強(qiáng)大的科研能力和實(shí)踐經(jīng)驗(yàn)而研發(fā)的,它是一套基于Hadoop技術(shù)自主研發(fā)的企業(yè)級大數(shù)據(jù)平臺--BDP(BeagleData Platform),并結(jié)合了HBase數(shù)據(jù)庫、Solr全文搜索引擎的系統(tǒng)。本文將分享天云在金融領(lǐng)域的最佳實(shí)踐案...

來源:數(shù)據(jù)猿 作者:天云大數(shù)據(jù)
查詢時(shí)效關(guān)乎客戶體驗(yàn)
經(jīng)過數(shù)年的發(fā)展,某大型股份制銀行已經(jīng)基本形成了客戶歷史交易數(shù)據(jù)查詢體系,其核心業(yè)務(wù)系統(tǒng)通常只能提供短則幾個(gè)月、多則一年左右的客戶歷史交易明細(xì),單次查詢時(shí)間段跨度最長為三個(gè)月,一年以前的客戶歷史交易數(shù)據(jù)多以光盤庫、磁帶庫的形式存放,查詢效率低且成本高。傳統(tǒng)銀行面臨互聯(lián)網(wǎng)金融挑戰(zhàn)的今天,對用戶需求響應(yīng)的時(shí)效性非常關(guān)鍵,是面向客戶轉(zhuǎn)型的重要基礎(chǔ)。但目前光盤查詢庫中數(shù)據(jù)不完整,光盤查詢系統(tǒng)提供的每次查詢時(shí)間段最長期限較短,客戶要求查詢歷史明細(xì)時(shí)間跨度較長(如5-10年)或賬戶較多時(shí)工作量過大。光盤查詢庫中數(shù)據(jù)來源于多個(gè)系統(tǒng),數(shù)據(jù)格式不統(tǒng)一,客戶感受度較差,這已經(jīng)嚴(yán)重影響了客戶體驗(yàn)。針對當(dāng)前客戶歷史交易數(shù)據(jù)原本存放在磁帶庫和光盤庫中,查詢效率較低、工作量較大的實(shí)際情況,為了能更好的滿足客戶和外部有權(quán)機(jī)構(gòu)等對于歷史交易數(shù)據(jù)的查詢要求,提高業(yè)務(wù)處理能力,縮短業(yè)務(wù)辦理時(shí)間,改善客戶體驗(yàn),天云大數(shù)據(jù)公司利用最新的大數(shù)據(jù)開發(fā)技術(shù),結(jié)合行業(yè)特點(diǎn),為該大型股份制銀行研制開發(fā)了一套基于Hadoop平臺技術(shù)的歷史數(shù)據(jù)在線存儲查詢分析系統(tǒng)。
大數(shù)據(jù)讓數(shù)據(jù)查詢插上翅膀
天云大數(shù)據(jù)公司的這套歷史數(shù)據(jù)在線存儲查詢分析系統(tǒng),很好地解決了傳統(tǒng)銀行客戶歷史數(shù)據(jù)查詢所遇到的問題,它是一套基于Hadoop技術(shù)自主研發(fā)的企業(yè)級大數(shù)據(jù)平臺--BDP(BeagleData Platform),并結(jié)合了HBase數(shù)據(jù)庫、Solr全文搜索引擎的系統(tǒng)。該系統(tǒng)通過對歷史存儲備份數(shù)據(jù)的數(shù)據(jù)治理,整合客戶多代應(yīng)用系統(tǒng)的歷史明細(xì)數(shù)據(jù),實(shí)現(xiàn)了歷史數(shù)據(jù)統(tǒng)一在線存儲備份;提供了在線實(shí)時(shí)/異步、長時(shí)間跨度和多條件的查詢功能;可提供全量數(shù)據(jù)建模分析,充分利用數(shù)據(jù)價(jià)值,方便客戶使用。
眾所周知,Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。 Hadoop 以一種可靠、高效、可伸縮的方式進(jìn)行數(shù)據(jù)處理。Hadoop是一個(gè)分布式基礎(chǔ)架構(gòu),作為一種大數(shù)據(jù)處理技術(shù),它具有低硬件成本、易擴(kuò)展、高性能、高可用性、高可靠性、高容錯(cuò)性等優(yōu)點(diǎn)?;贖adoop技術(shù)研發(fā)的BDP企業(yè)級大數(shù)據(jù)平臺,具有開放的架構(gòu),所有組件之間的交互利用標(biāo)準(zhǔn)的接口,具備很強(qiáng)的開放性。它對于開源Hadoop組件不進(jìn)行任何修改,只進(jìn)行參數(shù)調(diào)優(yōu),使BDP完美兼容任意版本的Hadoop,升級整個(gè)Hadoop版本或單一組件版本不會對整個(gè)平臺有任何影響。隨著集群的規(guī)模越來越大,在集群上線前期,部署需要占用的時(shí)間和精力也越來越多。Hadoop作為分布式計(jì)算平臺,雖然可以很容易的處理海量數(shù)據(jù),但是部署步驟較為繁瑣。BDP企業(yè)級大數(shù)據(jù)平臺的自動化部署不僅支持部署Hadoop,包括集群、主機(jī)、服務(wù)等在內(nèi)均可自動化部署完成。它的自動化部署,保障了版本的一致性,可以幫助用戶快速搭建Hadoop集群,大大提高了部署效率。它還對每類服務(wù)都提供了一些個(gè)性化的功能,如對Hadoop提供了配額、權(quán)限、機(jī)架感知、健康檢查、副本分布等個(gè)性化功能;針對HBase則提供了配額、權(quán)限、版本快照與恢復(fù)等功能。
BDP企業(yè)級大數(shù)據(jù)平臺是一套面向數(shù)據(jù)庫,中間件,安全等成熟計(jì)算環(huán)境,集成了幾十個(gè)成熟的Hadoop子項(xiàng)目,整合了資源運(yùn)維管理和數(shù)據(jù)處理的流程管理,融合了十幾個(gè)可直接調(diào)用的計(jì)算框架模版而最終形成的面對大數(shù)據(jù)進(jìn)行存儲、計(jì)算、查詢、建模四大應(yīng)用方向的基礎(chǔ)平臺產(chǎn)品??梢詾楦餍袠I(yè)用戶的大數(shù)據(jù)應(yīng)用場景提供穩(wěn)定、高效、安全、可擴(kuò)展、易使用、快速部署、便于維護(hù)的整體解決方案??梢詿o縫對接上層多種主流應(yīng)用產(chǎn)品,如SAS、Pentaho、Talend、Tableau、R Studio等先進(jìn)的商業(yè)智能和數(shù)據(jù)挖掘工具。它擁有兩大層功能特點(diǎn),一是基礎(chǔ)平臺功能,二是應(yīng)用支撐功能?;A(chǔ)平臺功能面向海量復(fù)雜數(shù)據(jù)的存儲、計(jì)算、查詢、挖掘;應(yīng)用支撐功能面向上層應(yīng)用開發(fā)的快速、簡單、兼容、創(chuàng)新。
產(chǎn)品技術(shù)架構(gòu):
以BDP企業(yè)級大數(shù)據(jù)平臺為基礎(chǔ),結(jié)合HBase數(shù)據(jù)庫、Solr全文搜索引擎技術(shù)研發(fā)的歷史數(shù)據(jù)在線存儲查詢分析系統(tǒng),不但繼承了BDP的優(yōu)良特性,同時(shí)也整合了HBase、Solr的相關(guān)特性。說到HBase,它是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫,不同于一般的關(guān)系數(shù)據(jù)庫,它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫;另一個(gè)不同是HBase是基于列而不是基于行的模式。它是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術(shù)可在廉價(jià)PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲集群;而Solr則是一個(gè)獨(dú)立的企業(yè)級搜索應(yīng)用服務(wù)器,它對外提供類似于Web-service的API接口。用戶可以通過http請求,向搜索引擎服務(wù)器提交一定格式的XML文件,生成索引;也可以通過Http Get操作提出查找請求,并得到XML格式的返回結(jié)果。Solr是一個(gè)高性能的全文搜索服務(wù)器。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結(jié)果,通過索引復(fù)制來提高可用性,提供一套強(qiáng)大Data Schema來定義字段,類型和設(shè)置文本分析,提供基于Web的管理界面等。
邏輯架構(gòu):
與傳統(tǒng)的基于關(guān)系型數(shù)據(jù)庫的解決方案相比,該系統(tǒng)解決方案成本更低、穩(wěn)定性更好、處理效率顯著提高,并很好地解決了海量數(shù)據(jù)處理的性能瓶頸問題,系統(tǒng)具備分布式系統(tǒng)所特有的良好的可擴(kuò)展性,該系統(tǒng)主要功能包括:全量數(shù)據(jù)存儲,實(shí)現(xiàn)離線數(shù)據(jù)全量匯總?cè)霂欤峁┙y(tǒng)一格式存儲;統(tǒng)一格式查詢,形成統(tǒng)一的報(bào)文查詢接口,支持多種格式報(bào)文查詢;模型化分析,針對特定業(yè)務(wù)場景,提煉分析模型,分析全量數(shù)據(jù),輸出分析結(jié)果。
數(shù)據(jù)入庫處理流程:
創(chuàng)新實(shí)現(xiàn)社會經(jīng)濟(jì)效益雙豐收
在這套歷史數(shù)據(jù)在線存儲查詢分析系統(tǒng)中,出現(xiàn)了不少技術(shù)創(chuàng)新和業(yè)務(wù)亮點(diǎn)。如在技術(shù)創(chuàng)新方面:分布式架構(gòu),帶來易擴(kuò)展、高性能、低硬件成本;雙中心、雙集群、雙活、雙Namenode,帶來系統(tǒng)高可用性;多數(shù)據(jù)副本均衡分布,帶來數(shù)據(jù)高可用性等。業(yè)務(wù)亮點(diǎn)有:大數(shù)據(jù)實(shí)時(shí)在線快速查詢,提高效率;PDF加水印防篡改,加強(qiáng)風(fēng)險(xiǎn)防控;多種查詢方式,提升服務(wù)水平;長時(shí)間跨度查詢,減少柜員工作量;整合數(shù)據(jù),提高數(shù)據(jù)質(zhì)量,統(tǒng)一客戶體驗(yàn);提供查詢?nèi)罩?,查詢留痕跡,控制風(fēng)險(xiǎn)等。
數(shù)據(jù)查詢處理流程:
社會效益:提高了業(yè)務(wù)辦理效率,也提升了客戶服務(wù)質(zhì)量,客戶或外部有權(quán)機(jī)構(gòu)查詢多個(gè)賬戶或長時(shí)間段查詢時(shí),從光盤庫查詢,一次交易只能查詢一個(gè)賬戶一個(gè)月的交易數(shù)據(jù),或通過技術(shù)手段從原陽光卡系統(tǒng)、原Minter系統(tǒng)、數(shù)據(jù)倉庫或者核心業(yè)務(wù)系統(tǒng)獲取,再經(jīng)人工核對完整性,通常需要數(shù)小時(shí)甚至幾天,到歷史數(shù)據(jù)查詢系統(tǒng)一個(gè)交易完成,1分鐘內(nèi)即可拿到結(jié)果的提升;線下數(shù)據(jù)線上化,盤活數(shù)據(jù)資產(chǎn),發(fā)揮數(shù)據(jù)價(jià)值,通過本系統(tǒng)的建設(shè),將躺在磁帶庫中的數(shù)據(jù)放到了線上,進(jìn)行了全量數(shù)據(jù)的完整性校驗(yàn),使其可以直接提供在線查詢服務(wù);國內(nèi)銀行業(yè)首家將Hadoop技術(shù)應(yīng)用落地,為銀行迎接“大數(shù)據(jù)時(shí)代”進(jìn)行了有益探索 ,對Hadoop技術(shù)的研討付諸于實(shí)踐,使Hadoop技術(shù)與銀行運(yùn)營體系深度結(jié)合,是對銀行數(shù)據(jù)支持平臺的一次勇敢創(chuàng)新,為銀行迎接“大數(shù)據(jù)”時(shí)代積累了寶貴經(jīng)驗(yàn)。
經(jīng)濟(jì)效益:做到了成本節(jié)約,人力成本+系統(tǒng)硬件成本,通過本系統(tǒng)建設(shè),可減少現(xiàn)有人員在歷史數(shù)據(jù)查詢方面所投入的時(shí)間和精力,從而達(dá)到降低投入成本的作用。根據(jù)業(yè)務(wù)價(jià)值評估,首年節(jié)省人力成本幾百萬元,隨著系統(tǒng)的長期使用,節(jié)省的人工成本將會更多。本系統(tǒng)的建設(shè),由傳統(tǒng)技術(shù)方案轉(zhuǎn)為使用分布式架構(gòu)方案,在保證性能,具備更好的擴(kuò)展性的基礎(chǔ)上,在硬件成本上節(jié)約90%;對于探索低成本高效率的新技術(shù)應(yīng)用,基于分布式架構(gòu)的Hadoop技術(shù)具備低硬件成本、易擴(kuò)展性、高性能、高可用性等特點(diǎn),并且其支持非結(jié)構(gòu)化數(shù)據(jù),在銀行大數(shù)據(jù)域建設(shè)中會有廣泛的應(yīng)用前景。
通過安裝部署天云大數(shù)據(jù)公司研發(fā)的歷史數(shù)據(jù)在線存儲查詢分析系統(tǒng),不但幫助該大型股份制銀行縮短了業(yè)務(wù)辦理時(shí)間,滿足了客戶及外部監(jiān)管機(jī)構(gòu)需求;還可減少查詢次數(shù)和人工操作,提高業(yè)務(wù)辦理效率;也可以減少數(shù)據(jù)傳輸和流轉(zhuǎn)環(huán)節(jié),防止泄密,同時(shí)提升安全控制能力;同時(shí)又可詳細(xì)記載查詢記錄,明確責(zé)任,提高管理能力。讓該大型股份制銀行獲得了良好的社會經(jīng)濟(jì)效益,而且還幫助該銀行榮獲了IDC中國金融行業(yè)最佳創(chuàng)新項(xiàng)目獎(jiǎng)的殊榮。
注:本文由 天云大數(shù)據(jù) 投稿數(shù)據(jù)猿發(fā)布
歡迎更多大數(shù)據(jù)企業(yè)、愛好者投稿數(shù)據(jù)猿,來稿請直接投遞至:tougao@datayuan.cn
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新