借助“湖倉一體”打造金融行業(yè)分布式數(shù)據(jù)庫的領頭羊
原創(chuàng) 陸易斯 | 2021-05-25 19:13
【數(shù)據(jù)猿導讀】 “湖倉一體”,就好像湖邊搭建了很多小房子,有的可以負責數(shù)據(jù)分析,有的來運轉機器學習,有的來檢索音視頻等等,而這些數(shù)據(jù)源流,都可以從數(shù)據(jù)湖里輕松取得

近日,領先的金融級分布式數(shù)據(jù)庫廠商SequoiaDB巨杉數(shù)據(jù)庫舉行了2021年春季發(fā)布會。在本次發(fā)布會中,巨杉數(shù)據(jù)庫重點推出基于“湖倉一體”架構,針對不同的業(yè)務需求場景細分出全新的產(chǎn)品線。
什么是“湖倉一體”
我們回想一下大學課堂學過的基礎數(shù)據(jù)庫,當時我們使用的表結構,處理的數(shù)據(jù)大都屬于結構化數(shù)據(jù),對結構化數(shù)據(jù)分析通常就會用到數(shù)據(jù)倉庫。而如今一方面數(shù)據(jù)量在加大;另一方面,數(shù)據(jù)的類型早已突破了結構化,現(xiàn)在有大量非結構化、半結構化數(shù)據(jù),包括圖片、音頻、視頻數(shù)據(jù),這些數(shù)據(jù)呈現(xiàn)出多樣性、高速度、大容量等特征。很顯然,傳統(tǒng)的數(shù)據(jù)倉庫并不適合這樣的場景,而且就成本而言,一定不是最具優(yōu)勢的方案。
大約十年前,數(shù)據(jù)湖出現(xiàn)了,它被定義為一種可以存儲各類格式的原始數(shù)據(jù)存儲。我們的那些各類數(shù)據(jù)可以存儲在數(shù)據(jù)湖里,但數(shù)據(jù)湖缺少一些關鍵功能,比如不支持事務、缺乏一致性、隔離性、不保證執(zhí)行數(shù)據(jù)質量等,這些短板決定了,讓數(shù)據(jù)湖來承載過去數(shù)據(jù)倉庫比較順暢的讀寫訪問、批處理、流作業(yè)是不現(xiàn)實的,過去在數(shù)據(jù)倉庫比較容易實現(xiàn)的BI數(shù)據(jù)分析由數(shù)據(jù)湖完成是很費勁的。
隨著企業(yè)從多種數(shù)據(jù)來源中大規(guī)模地收集數(shù)據(jù),此時架構師也開始考慮,如何構建一個單一的系統(tǒng),來實現(xiàn)數(shù)據(jù)的倉庫化存儲,還能比較輕松地完成多樣化的數(shù)據(jù)分析。另外,人工智能的需求,也讓統(tǒng)一的架構變得必要,需要數(shù)據(jù)訪問的靈活性、高性能并舉。
來源:Databricks官網(wǎng)
此時,“湖倉一體”應運而生,它是一種新型開放式架構,將數(shù)據(jù)湖和數(shù)據(jù)倉庫的優(yōu)勢充分結合,它構建在數(shù)據(jù)湖低成本的數(shù)據(jù)存儲架構之上,又繼承了數(shù)據(jù)倉庫的數(shù)據(jù)處理和管理功能。湖倉一體的英文名叫“Lakehouse”,有人把“湖倉一體”做了形象的比喻,就好像湖邊搭建了很多小房子,有的可以負責數(shù)據(jù)分析,有的來運轉機器學習,有的來檢索音視頻等等,而這些數(shù)據(jù)源流,都可以從數(shù)據(jù)湖里輕松取得。
巨杉數(shù)據(jù)庫聯(lián)合創(chuàng)始人兼CTO王濤表示,“湖倉一體”是一類技術架構的統(tǒng)稱,而不是某個產(chǎn)品。實際上,巨杉數(shù)據(jù)庫對這類技術架構的布局并不是現(xiàn)在,最早可追溯到2015年,在業(yè)界形成統(tǒng)一認知的概念之前,提前5年利用其特點協(xié)助客戶落地如今稱為“湖倉一體”的數(shù)據(jù)架構。
巨杉數(shù)據(jù)庫聯(lián)合創(chuàng)始人兼CTO王濤
巨杉數(shù)據(jù)庫與全球技術同期起步,自2011年起投入研發(fā),這個時間點甚至早于Google Spanner論文的發(fā)表,是國內最早起步研發(fā)分布式數(shù)據(jù)庫的廠商之一。如今,巨杉數(shù)據(jù)庫已經(jīng)在超過100家金融銀行客戶生產(chǎn)環(huán)境穩(wěn)定運行,當中更有多家客戶數(shù)據(jù)量超過100億行記錄,客戶生產(chǎn)環(huán)境下最大數(shù)據(jù)量的集群更是達到1萬2000億行。
比如我們耳熟能詳?shù)拿裆y行、廣發(fā)銀行、恒豐銀行、渤海銀行等股份制銀行;廣東省農(nóng)信、吉林省農(nóng)信、四川省農(nóng)信等省級農(nóng)信行;上海銀行、長沙銀行、廣州銀行等城商農(nóng)商行;以及PICC人保、中國結算等各類金融機構,都已經(jīng)在生產(chǎn)業(yè)務系統(tǒng)規(guī)模化上線巨杉數(shù)據(jù)庫產(chǎn)品。
我們來看看巨杉的Lakehouse可以為企業(yè)帶來哪些能力:
-事務支持:對事務的ACID支持,可確保數(shù)據(jù)并發(fā)訪問的一致性、正確性,尤其是在SQL的訪問模式下。
-數(shù)據(jù)的模型化和數(shù)據(jù)治理:支持各類數(shù)據(jù)模型的實現(xiàn)和轉變,支持DW模式架構,例如星型模型、雪花模型等。該系統(tǒng)應當保證數(shù)據(jù)完整性,并且具有健全的治理和審計機制。
-BI支持:支持直接在源數(shù)據(jù)上使用BI工具,這樣可以加快分析效率,降低數(shù)據(jù)延時。另外相比于在數(shù)據(jù)湖和數(shù)據(jù)倉庫中分別操作兩個副本的方式,更具成本優(yōu)勢。
-存算分離:存算分離的架構使得系統(tǒng)能夠擴展到更大規(guī)模的并發(fā)能力和數(shù)據(jù)容量。(一些新型的數(shù)據(jù)倉庫已經(jīng)采用了這種架構)
-開放性:采用開放、標準化的存儲格式(例如Parquet等),提供豐富的API支持,因此,各種工具和引擎(包括機器學習和Python / R庫)可以高效地對數(shù)據(jù)進行直接訪問。
-支持多種數(shù)據(jù)類型(結構化、非結構化和半結構化):可為許多應用程序提供數(shù)據(jù)的入庫、轉換、分析和訪問。數(shù)據(jù)類型包括圖像、視頻、音頻和文本等。
-支持各種工作負載:支持包括數(shù)據(jù)科學、機器學習、SQL查詢、分析等多種負載類型。這些工作負載可能需要多種工具來支持,但它們都由同一個數(shù)據(jù)庫來支撐。
-端到端流:實時報表已經(jīng)成為企業(yè)中的常態(tài)化需求,實現(xiàn)了對流的支持后,不再像以往一樣,為實時數(shù)據(jù)服務構建專用的系統(tǒng)。
來源:巨杉數(shù)據(jù)庫公司官網(wǎng)
可以拓展的功能還有很多,在“湖倉一體”架構下,這些企業(yè)級的需求功能,都可以在“湖倉一體”平臺中部署、測試和管理。更重要的一點,巨杉數(shù)據(jù)庫認為,“湖倉一體”平臺作為數(shù)據(jù)基礎設施,其真正的價值在于打通不同業(yè)務類型、不同數(shù)據(jù)類型之間的技術壁壘,實現(xiàn)交易分析一體化、流批一體化、多模數(shù)據(jù)一體化,最終降低數(shù)據(jù)流動帶來的開發(fā)成本及計算存儲開銷,提升企業(yè)的運作的“人效”和“能效”。
分布式數(shù)據(jù)庫不僅僅是傳統(tǒng)的替換
企業(yè)需求的變化除了自身需要、解決業(yè)務發(fā)展瓶頸以外,更多源自計算載體的變化、計算架構的變化以及計算環(huán)境的變化。過去是2G、3G產(chǎn)生的數(shù)據(jù)量,現(xiàn)在要考慮到5G產(chǎn)生的數(shù)據(jù)量;過去的信息主要是數(shù)字和文字,現(xiàn)在圖片、聲音、視頻等非結構化數(shù)據(jù)成為增量數(shù)據(jù)的主要類型;過去是單機架構,現(xiàn)在逐步過渡到云架構,數(shù)據(jù)庫也要隨時變化;還有正在興起的萬物互聯(lián)和人工智能,都會產(chǎn)生海量級數(shù)據(jù)。
根據(jù)IDC的報告,在2020年全球數(shù)據(jù)量大約有55ZB,而到2025年將達到175ZB。數(shù)據(jù)量上升,整體市場容量擴大,必定帶來新的機遇,所以從數(shù)據(jù)庫行業(yè)市場規(guī)模來看,將從2020年561億美元達到2024年的1021億美元。
來源:IDC
我們同時看到,分布式數(shù)據(jù)庫的未來并不意味著替換傳統(tǒng)關系型數(shù)據(jù)庫,而更注重增量市場。數(shù)據(jù)量增長的空間是無法估量的。過去很長一段時間業(yè)界所主張的“去IOE”,現(xiàn)在數(shù)據(jù)庫行業(yè)內部已很少提起。在巨杉看來,更關注的是與客戶一同發(fā)展高速增長的全新業(yè)務市場,從而形成與上一代集中式產(chǎn)品的迭代,而不是遷移替代。所以巨杉數(shù)據(jù)庫的目標是與客戶共同挖掘數(shù)字化轉型中的全新數(shù)據(jù)價值,建立全新的分布式技術賽道,超越傳統(tǒng)的架構邊界。
因此,相對Oracle、IBM DB2等傳統(tǒng)數(shù)據(jù)庫廠商,巨杉數(shù)據(jù)庫更加關注Snowflake、Databricks等一些新興數(shù)據(jù)庫國際領導者的腳步。而Databricks作為Lakehouse概念的提出者,旨在兼容數(shù)據(jù)倉庫和數(shù)據(jù)湖的優(yōu)勢。為客戶提供統(tǒng)一分析平臺提升效率。
不僅如此,相比商業(yè)智能(BI),人工智能(AI)發(fā)展的需求更能推動數(shù)據(jù)庫的演變。在Wikibon公司研究AI、數(shù)據(jù)科學和應用軟件開發(fā)的首席分析師James Kobielus看來,“數(shù)據(jù)湖”正在迅速發(fā)展成為下一代數(shù)據(jù)倉庫。新一代數(shù)據(jù)倉庫的首要任務是用來治理用于構建和訓練機器學習模型的清理、整合和認可。底層數(shù)據(jù)平臺將繼續(xù)演進,為基于云的AI管道提供核心的數(shù)據(jù)治理基礎。
跨多云部署,“中立”的數(shù)據(jù)庫廠商
Snowflake 創(chuàng)造性地提出DaaS(Data warehouse as a Service)概念,將存儲和計算徹底分離,從本質上解決了以往架構的痛點,最大化體現(xiàn)出了云原生架構的特點。它打破數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)集市等孤島,極大地改變了數(shù)據(jù)格局,并消除了為每個工作負載配備獨立系統(tǒng)的需求。其數(shù)據(jù)庫可在三大公有云 AWS、Azure 和 Google Cloud Platform 上部署,對于企業(yè)多云異構的復雜環(huán)境有適用性、中立性,同時亦提供數(shù)據(jù)交換功能,解決了過去用戶面臨著投入高、靈活度低等問題。
數(shù)據(jù)來源:snowflake官網(wǎng)
巨杉數(shù)據(jù)庫在這次發(fā)布會隆重推出的SequoiaDB Cloud,就是按照這種理念。我們知道,企業(yè)的云計算落地,往往會按自身的需求,選擇使用不同能力的云廠商。一些企業(yè)甚至會選擇多家云廠商的IaaS平臺作為基礎設施,這就好比以往我們選擇多家服務器廠商構建基礎設施一樣。
巨杉數(shù)據(jù)庫SequoiaDB Cloud因應企業(yè)的實際需求,它所提供的云的能力不是一個純粹在云上面去進行運維部署的能力,而是支持跨云的方式,面向不同的云廠商,提供跨公有云及私有云“跨多云”的部署能力。
聚焦金融行業(yè),構建行業(yè)通用數(shù)據(jù)庫產(chǎn)品
我國金融行業(yè)的監(jiān)管機構在“分布式數(shù)據(jù)庫”行業(yè)技術標準跟進速度也很快,為產(chǎn)業(yè)的發(fā)展指明了方向。2020年11月26日,中國人民銀行正式發(fā)布了《分布式數(shù)據(jù)庫技術金融應用規(guī)范技術架構》(JR/T 0203-2020)等3項金融行業(yè)標準,從技術方面、安全穩(wěn)定以及災備方面提出了具體技術要求,巨杉數(shù)據(jù)庫均參與了制定的工作。
作為面向金融級企業(yè)客戶的商業(yè)化產(chǎn)品,巨杉數(shù)據(jù)庫從設計之初就是面向企業(yè)級整體需求,也因此更能滿足行業(yè)技術頂層設計的需求?;诤}一體的分布式技術架構,巨杉數(shù)據(jù)庫提供多模數(shù)據(jù)類型的技術能力,及跨引擎事務一致性,為客戶的聯(lián)機交易及實時數(shù)據(jù)中臺構建了堅實的數(shù)據(jù)基礎設施,獲得了客戶眾多好評。
未來面對金融企業(yè)進一步的數(shù)據(jù)化轉型需求,數(shù)據(jù)量要求會更大,不同數(shù)據(jù)鏈條之間會有更多細節(jié)數(shù)據(jù)的溝通,對數(shù)字安全性要求也更高。面對未來數(shù)據(jù)量、算法與機器的交互、AI對數(shù)據(jù)使用的需求和變化,還有前面提到的從T+1到T+0的實時數(shù)據(jù)處理需求,都需要數(shù)據(jù)庫擴展、計算、一致性等諸多能力的進一步提升,這些需求將給未來巨杉數(shù)據(jù)庫團隊提出更高的要求。
打造業(yè)內一流的分布式數(shù)據(jù)庫團隊
王濤表示,巨杉數(shù)據(jù)庫能有今天的成就與市場地位,離不開整個團隊10年來的艱苦奮斗。我們長期持續(xù)堅持以客戶為中心、以技術為底蘊、以市場為導向,打造出全球頂尖的新一代分布式數(shù)據(jù)庫產(chǎn)品。
巨杉數(shù)據(jù)庫的兩位創(chuàng)始人都從海外大廠歸來。其中,巨杉數(shù)據(jù)庫的聯(lián)合創(chuàng)始人,CTO與總架構師王濤曾是北美 IBM DB2 Lab核心研發(fā)成員,全球最高顧問小組成員之一(全球僅15人),是最早接觸分布式數(shù)據(jù)庫的先行者之一。2011年,兩位創(chuàng)始人回國正式創(chuàng)立了巨杉數(shù)據(jù)庫。隨著團隊的擴張,吸引大量來自IBM DB2北美研發(fā)團隊、華為分布式儲存團隊以及Oracle的人才,天生具備企業(yè)級基因。同時引入包括阿里在內的國內創(chuàng)新型企業(yè)人才,可以說,如今的巨杉數(shù)據(jù)庫擁有業(yè)界最頂尖的企業(yè)級分布式數(shù)據(jù)庫團隊。
此外,巨杉數(shù)據(jù)庫在多倫多建立前沿實驗室,并在今年以最高級別鉆石級贊助全球數(shù)據(jù)庫領域頂級學術會議ACM SIGMOD,旨在與數(shù)據(jù)庫前沿領域建立更密切的聯(lián)系,跟頂級的研究團隊有更多的碰撞機會,吸引更多優(yōu)秀人才加入巨杉團隊。
技術生態(tài)方面,巨杉數(shù)據(jù)庫構建了被稱為“巨杉學”的認證與學習體系。目前,已有超180家金融機構,30余家知名技術服務開發(fā)商加入巨杉學計劃。截至2020年底,“巨杉學”已認證工程師超過1.8萬人,網(wǎng)站用戶注冊數(shù)量超過5萬人,為分布式技術業(yè)界發(fā)展提供堅實的人才積淀。
正如中國人民銀行副行長范一飛發(fā)表在《中國金融》上題為《譜寫新時代金融信息化發(fā)展新篇章》的文章中寫到,“建立健全與金融市場相適應、有利于吸引和留住人才、激勵和發(fā)展人才的薪酬和考核制度,激發(fā)人才創(chuàng)新創(chuàng)造活力,造就既懂金融又懂科技的新型復合型人才隊伍。”像巨杉數(shù)據(jù)庫這樣,與行業(yè)密切結合的領域,復合人才的吸引和培養(yǎng)至關重要,期待中國數(shù)據(jù)庫產(chǎn)業(yè)蓬勃發(fā)展,推動信創(chuàng)產(chǎn)業(yè)砥礪前行。
來源:數(shù)據(jù)猿
刷新相關文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術峰會2018”2018-06-14
不容錯過的資訊
-
1《2021中國數(shù)據(jù)智能產(chǎn)業(yè)發(fā)展報告》正式發(fā)
-
2數(shù)智驅動企業(yè)增長——2021第6屆GrowingIO
-
3DataPipeline宣布完成數(shù)千萬B輪融資,加
-
4專訪洞見科技總裁毛賽:為客戶提供更安全
-
5【附報告下載】將數(shù)據(jù)變成企業(yè)流動的“血
-
6易觀分析數(shù)據(jù)報告重磅發(fā)布,直擊數(shù)字經(jīng)濟
-
7第三屆零售銀行發(fā)展大會在滬閉幕
-
8數(shù)據(jù)猿獲中國信通院認可,榮獲“2021 RP
-
9數(shù)字經(jīng)濟時代,什么是關鍵資源?
-
10百分點大數(shù)據(jù)技術團隊:政務數(shù)據(jù)安全管理