借助“湖倉一體”打造金融行業(yè)分布式數(shù)據(jù)庫的領(lǐng)頭羊
原創(chuàng) 陸易斯 | 2021-05-25 19:11
【數(shù)據(jù)猿導(dǎo)讀】 “湖倉一體”,就好像湖邊搭建了很多小房子,有的可以負(fù)責(zé)數(shù)據(jù)分析,有的來運轉(zhuǎn)機器學(xué)習(xí),有的來檢索音視頻等等,而這些數(shù)據(jù)源流,都可以從數(shù)據(jù)湖里輕松取得

近日,領(lǐng)先的金融級分布式數(shù)據(jù)庫廠商SequoiaDB巨杉數(shù)據(jù)庫舉行了2021年春季發(fā)布會。在本次發(fā)布會中,巨杉數(shù)據(jù)庫重點推出基于“湖倉一體”架構(gòu),針對不同的業(yè)務(wù)需求場景細(xì)分出全新的產(chǎn)品線。
什么是“湖倉一體”
我們回想一下大學(xué)課堂學(xué)過的基礎(chǔ)數(shù)據(jù)庫,當(dāng)時我們使用的表結(jié)構(gòu),處理的數(shù)據(jù)大都屬于結(jié)構(gòu)化數(shù)據(jù),對結(jié)構(gòu)化數(shù)據(jù)分析通常就會用到數(shù)據(jù)倉庫。而如今一方面數(shù)據(jù)量在加大;另一方面,數(shù)據(jù)的類型早已突破了結(jié)構(gòu)化,現(xiàn)在有大量非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),包括圖片、音頻、視頻數(shù)據(jù),這些數(shù)據(jù)呈現(xiàn)出多樣性、高速度、大容量等特征。很顯然,傳統(tǒng)的數(shù)據(jù)倉庫并不適合這樣的場景,而且就成本而言,一定不是最具優(yōu)勢的方案。
大約十年前,數(shù)據(jù)湖出現(xiàn)了,它被定義為一種可以存儲各類格式的原始數(shù)據(jù)存儲。我們的那些各類數(shù)據(jù)可以存儲在數(shù)據(jù)湖里,但數(shù)據(jù)湖缺少一些關(guān)鍵功能,比如不支持事務(wù)、缺乏一致性、隔離性、不保證執(zhí)行數(shù)據(jù)質(zhì)量等,這些短板決定了,讓數(shù)據(jù)湖來承載過去數(shù)據(jù)倉庫比較順暢的讀寫訪問、批處理、流作業(yè)是不現(xiàn)實的,過去在數(shù)據(jù)倉庫比較容易實現(xiàn)的BI數(shù)據(jù)分析由數(shù)據(jù)湖完成是很費勁的。
隨著企業(yè)從多種數(shù)據(jù)來源中大規(guī)模地收集數(shù)據(jù),此時架構(gòu)師也開始考慮,如何構(gòu)建一個單一的系統(tǒng),來實現(xiàn)數(shù)據(jù)的倉庫化存儲,還能比較輕松地完成多樣化的數(shù)據(jù)分析。另外,人工智能的需求,也讓統(tǒng)一的架構(gòu)變得必要,需要數(shù)據(jù)訪問的靈活性、高性能并舉。
來源:Databricks官網(wǎng)
此時,“湖倉一體”應(yīng)運而生,它是一種新型開放式架構(gòu),將數(shù)據(jù)湖和數(shù)據(jù)倉庫的優(yōu)勢充分結(jié)合,它構(gòu)建在數(shù)據(jù)湖低成本的數(shù)據(jù)存儲架構(gòu)之上,又繼承了數(shù)據(jù)倉庫的數(shù)據(jù)處理和管理功能。湖倉一體的英文名叫“Lakehouse”,有人把“湖倉一體”做了形象的比喻,就好像湖邊搭建了很多小房子,有的可以負(fù)責(zé)數(shù)據(jù)分析,有的來運轉(zhuǎn)機器學(xué)習(xí),有的來檢索音視頻等等,而這些數(shù)據(jù)源流,都可以從數(shù)據(jù)湖里輕松取得。
巨杉數(shù)據(jù)庫聯(lián)合創(chuàng)始人兼CTO王濤表示,“湖倉一體”是一類技術(shù)架構(gòu)的統(tǒng)稱,而不是某個產(chǎn)品。實際上,巨杉數(shù)據(jù)庫對這類技術(shù)架構(gòu)的布局并不是現(xiàn)在,最早可追溯到2015年,在業(yè)界形成統(tǒng)一認(rèn)知的概念之前,提前5年利用其特點協(xié)助客戶落地如今稱為“湖倉一體”的數(shù)據(jù)架構(gòu)。
巨杉數(shù)據(jù)庫聯(lián)合創(chuàng)始人兼CTO王濤
巨杉數(shù)據(jù)庫與全球技術(shù)同期起步,自2011年起投入研發(fā),這個時間點甚至早于Google Spanner論文的發(fā)表,是國內(nèi)最早起步研發(fā)分布式數(shù)據(jù)庫的廠商之一。如今,巨杉數(shù)據(jù)庫已經(jīng)在超過100家金融銀行客戶生產(chǎn)環(huán)境穩(wěn)定運行,當(dāng)中更有多家客戶數(shù)據(jù)量超過100億行記錄,客戶生產(chǎn)環(huán)境下最大數(shù)據(jù)量的集群更是達到1萬2000億行。
比如我們耳熟能詳?shù)拿裆y行、廣發(fā)銀行、恒豐銀行、渤海銀行等股份制銀行;廣東省農(nóng)信、吉林省農(nóng)信、四川省農(nóng)信等省級農(nóng)信行;上海銀行、長沙銀行、廣州銀行等城商農(nóng)商行;以及PICC人保、中國結(jié)算等各類金融機構(gòu),都已經(jīng)在生產(chǎn)業(yè)務(wù)系統(tǒng)規(guī)?;暇€巨杉數(shù)據(jù)庫產(chǎn)品。
我們來看看巨杉的Lakehouse可以為企業(yè)帶來哪些能力:
• 事務(wù)支持:對事務(wù)的ACID支持,可確保數(shù)據(jù)并發(fā)訪問的一致性、正確性,尤其是在SQL的訪問模式下。
• 數(shù)據(jù)的模型化和數(shù)據(jù)治理:支持各類數(shù)據(jù)模型的實現(xiàn)和轉(zhuǎn)變,支持DW模式架構(gòu),例如星型模型、雪花模型等。該系統(tǒng)應(yīng)當(dāng)保證數(shù)據(jù)完整性,并且具有健全的治理和審計機制。
• BI支持:支持直接在源數(shù)據(jù)上使用BI工具,這樣可以加快分析效率,降低數(shù)據(jù)延時。另外相比于在數(shù)據(jù)湖和數(shù)據(jù)倉庫中分別操作兩個副本的方式,更具成本優(yōu)勢。
• 存算分離:存算分離的架構(gòu)使得系統(tǒng)能夠擴展到更大規(guī)模的并發(fā)能力和數(shù)據(jù)容量。(一些新型的數(shù)據(jù)倉庫已經(jīng)采用了這種架構(gòu))
• 開放性:采用開放、標(biāo)準(zhǔn)化的存儲格式(例如Parquet等),提供豐富的API支持,因此,各種工具和引擎(包括機器學(xué)習(xí)和Python / R庫)可以高效地對數(shù)據(jù)進行直接訪問。
• 支持多種數(shù)據(jù)類型(結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化):可為許多應(yīng)用程序提供數(shù)據(jù)的入庫、轉(zhuǎn)換、分析和訪問。數(shù)據(jù)類型包括圖像、視頻、音頻和文本等。
• 支持各種工作負(fù)載:支持包括數(shù)據(jù)科學(xué)、機器學(xué)習(xí)、SQL查詢、分析等多種負(fù)載類型。這些工作負(fù)載可能需要多種工具來支持,但它們都由同一個數(shù)據(jù)庫來支撐。
• 端到端流:實時報表已經(jīng)成為企業(yè)中的常態(tài)化需求,實現(xiàn)了對流的支持后,不再像以往一樣,為實時數(shù)據(jù)服務(wù)構(gòu)建專用的系統(tǒng)。
來源:巨杉數(shù)據(jù)庫公司官網(wǎng)
可以拓展的功能還有很多,在“湖倉一體”架構(gòu)下,這些企業(yè)級的需求功能,都可以在“湖倉一體”平臺中部署、測試和管理。更重要的一點,巨杉數(shù)據(jù)庫認(rèn)為,“湖倉一體”平臺作為數(shù)據(jù)基礎(chǔ)設(shè)施,其真正的價值在于打通不同業(yè)務(wù)類型、不同數(shù)據(jù)類型之間的技術(shù)壁壘,實現(xiàn)交易分析一體化、流批一體化、多模數(shù)據(jù)一體化,最終降低數(shù)據(jù)流動帶來的開發(fā)成本及計算存儲開銷,提升企業(yè)的運作的“人效”和“能效”。
分布式數(shù)據(jù)庫不僅僅是傳統(tǒng)的替換
企業(yè)需求的變化除了自身需要、解決業(yè)務(wù)發(fā)展瓶頸以外,更多源自計算載體的變化、計算架構(gòu)的變化以及計算環(huán)境的變化。過去是2G、3G產(chǎn)生的數(shù)據(jù)量,現(xiàn)在要考慮到5G產(chǎn)生的數(shù)據(jù)量;過去的信息主要是數(shù)字和文字,現(xiàn)在圖片、聲音、視頻等非結(jié)構(gòu)化數(shù)據(jù)成為增量數(shù)據(jù)的主要類型;過去是單機架構(gòu),現(xiàn)在逐步過渡到云架構(gòu),數(shù)據(jù)庫也要隨時變化;還有正在興起的萬物互聯(lián)和人工智能,都會產(chǎn)生海量級數(shù)據(jù)。
根據(jù)IDC的報告,在2020年全球數(shù)據(jù)量大約有55ZB,而到2025年將達到175ZB。數(shù)據(jù)量上升,整體市場容量擴大,必定帶來新的機遇,所以從數(shù)據(jù)庫行業(yè)市場規(guī)模來看,將從2020年561億美元達到2024年的1021億美元。
來源:IDC
我們同時看到,分布式數(shù)據(jù)庫的未來并不意味著替換傳統(tǒng)關(guān)系型數(shù)據(jù)庫,而更注重增量市場。數(shù)據(jù)量增長的空間是無法估量的。過去很長一段時間業(yè)界所主張的“去IOE”,現(xiàn)在數(shù)據(jù)庫行業(yè)內(nèi)部已很少提起。在巨杉看來,更關(guān)注的是與客戶一同發(fā)展高速增長的全新業(yè)務(wù)市場,從而形成與上一代集中式產(chǎn)品的迭代,而不是遷移替代。所以巨杉數(shù)據(jù)庫的目標(biāo)是與客戶共同挖掘數(shù)字化轉(zhuǎn)型中的全新數(shù)據(jù)價值,建立全新的分布式技術(shù)賽道,超越傳統(tǒng)的架構(gòu)邊界。
因此,相對Oracle、IBM DB2等傳統(tǒng)數(shù)據(jù)庫廠商,巨杉數(shù)據(jù)庫更加關(guān)注Snowflake、Databricks等一些新興數(shù)據(jù)庫國際領(lǐng)導(dǎo)者的腳步。而Databricks作為Lakehouse概念的提出者,旨在兼容數(shù)據(jù)倉庫和數(shù)據(jù)湖的優(yōu)勢。為客戶提供統(tǒng)一分析平臺提升效率。
不僅如此,相比商業(yè)智能(BI),人工智能(AI)發(fā)展的需求更能推動數(shù)據(jù)庫的演變。在Wikibon公司研究AI、數(shù)據(jù)科學(xué)和應(yīng)用軟件開發(fā)的首席分析師James Kobielus看來,“數(shù)據(jù)湖”正在迅速發(fā)展成為下一代數(shù)據(jù)倉庫。新一代數(shù)據(jù)倉庫的首要任務(wù)是用來治理用于構(gòu)建和訓(xùn)練機器學(xué)習(xí)模型的清理、整合和認(rèn)可。底層數(shù)據(jù)平臺將繼續(xù)演進,為基于云的AI管道提供核心的數(shù)據(jù)治理基礎(chǔ)。
跨多云部署,“中立”的數(shù)據(jù)庫廠商
Snowflake 創(chuàng)造性地提出DaaS(Data warehouse as a Service)概念,將存儲和計算徹底分離,從本質(zhì)上解決了以往架構(gòu)的痛點,最大化體現(xiàn)出了云原生架構(gòu)的特點。它打破數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)集市等孤島,極大地改變了數(shù)據(jù)格局,并消除了為每個工作負(fù)載配備獨立系統(tǒng)的需求。其數(shù)據(jù)庫可在三大公有云 AWS、Azure 和 Google Cloud Platform 上部署,對于企業(yè)多云異構(gòu)的復(fù)雜環(huán)境有適用性、中立性,同時亦提供數(shù)據(jù)交換功能,解決了過去用戶面臨著投入高、靈活度低等問題。
數(shù)據(jù)來源:snowflake官網(wǎng)
巨杉數(shù)據(jù)庫在這次發(fā)布會隆重推出的SequoiaDB Cloud,就是按照這種理念。我們知道,企業(yè)的云計算落地,往往會按自身的需求,選擇使用不同能力的云廠商。一些企業(yè)甚至?xí)x擇多家云廠商的IaaS平臺作為基礎(chǔ)設(shè)施,這就好比以往我們選擇多家服務(wù)器廠商構(gòu)建基礎(chǔ)設(shè)施一樣。
巨杉數(shù)據(jù)庫SequoiaDB Cloud因應(yīng)企業(yè)的實際需求,它所提供的云的能力不是一個純粹在云上面去進行運維部署的能力,而是支持跨云的方式,面向不同的云廠商,提供跨公有云及私有云“跨多云”的部署能力。
聚焦金融行業(yè),構(gòu)建行業(yè)通用數(shù)據(jù)庫產(chǎn)品
我國金融行業(yè)的監(jiān)管機構(gòu)在“分布式數(shù)據(jù)庫”行業(yè)技術(shù)標(biāo)準(zhǔn)跟進速度也很快,為產(chǎn)業(yè)的發(fā)展指明了方向。2020年11月26日,中國人民銀行正式發(fā)布了《分布式數(shù)據(jù)庫技術(shù)金融應(yīng)用規(guī)范技術(shù)架構(gòu)》(JR/T 0203-2020)等3項金融行業(yè)標(biāo)準(zhǔn),從技術(shù)方面、安全穩(wěn)定以及災(zāi)備方面提出了具體技術(shù)要求,巨杉數(shù)據(jù)庫均參與了制定的工作。
作為面向金融級企業(yè)客戶的商業(yè)化產(chǎn)品,巨杉數(shù)據(jù)庫從設(shè)計之初就是面向企業(yè)級整體需求,也因此更能滿足行業(yè)技術(shù)頂層設(shè)計的需求?;诤}一體的分布式技術(shù)架構(gòu),巨杉數(shù)據(jù)庫提供多模數(shù)據(jù)類型的技術(shù)能力,及跨引擎事務(wù)一致性,為客戶的聯(lián)機交易及實時數(shù)據(jù)中臺構(gòu)建了堅實的數(shù)據(jù)基礎(chǔ)設(shè)施,獲得了客戶眾多好評。
未來面對金融企業(yè)進一步的數(shù)據(jù)化轉(zhuǎn)型需求,數(shù)據(jù)量要求會更大,不同數(shù)據(jù)鏈條之間會有更多細(xì)節(jié)數(shù)據(jù)的溝通,對數(shù)字安全性要求也更高。面對未來數(shù)據(jù)量、算法與機器的交互、AI對數(shù)據(jù)使用的需求和變化,還有前面提到的從T+1到T+0的實時數(shù)據(jù)處理需求,都需要數(shù)據(jù)庫擴展、計算、一致性等諸多能力的進一步提升,這些需求將給未來巨杉數(shù)據(jù)庫團隊提出更高的要求。
打造業(yè)內(nèi)一流的分布式數(shù)據(jù)庫團隊
王濤表示,巨杉數(shù)據(jù)庫能有今天的成就與市場地位,離不開整個團隊10年來的艱苦奮斗。我們長期持續(xù)堅持以客戶為中心、以技術(shù)為底蘊、以市場為導(dǎo)向,打造出全球頂尖的新一代分布式數(shù)據(jù)庫產(chǎn)品。
巨杉數(shù)據(jù)庫的兩位創(chuàng)始人都從海外大廠歸來。其中,巨杉數(shù)據(jù)庫的聯(lián)合創(chuàng)始人,CTO與總架構(gòu)師王濤曾是北美 IBM DB2 Lab核心研發(fā)成員,全球最高顧問小組成員之一(全球僅15人),是最早接觸分布式數(shù)據(jù)庫的先行者之一。2011年,兩位創(chuàng)始人回國正式創(chuàng)立了巨杉數(shù)據(jù)庫。隨著團隊的擴張,吸引大量來自IBM DB2北美研發(fā)團隊、華為分布式儲存團隊以及Oracle的人才,天生具備企業(yè)級基因。同時引入包括阿里在內(nèi)的國內(nèi)創(chuàng)新型企業(yè)人才,可以說,如今的巨杉數(shù)據(jù)庫擁有業(yè)界最頂尖的企業(yè)級分布式數(shù)據(jù)庫團隊。
此外,巨杉數(shù)據(jù)庫在多倫多建立前沿實驗室,并在今年以最高級別鉆石級贊助全球數(shù)據(jù)庫領(lǐng)域頂級學(xué)術(shù)會議ACM SIGMOD,旨在與數(shù)據(jù)庫前沿領(lǐng)域建立更密切的聯(lián)系,跟頂級的研究團隊有更多的碰撞機會,吸引更多優(yōu)秀人才加入巨杉團隊。
技術(shù)生態(tài)方面,巨杉數(shù)據(jù)庫構(gòu)建了被稱為“巨杉學(xué)”的認(rèn)證與學(xué)習(xí)體系。目前,已有超180家金融機構(gòu),30余家知名技術(shù)服務(wù)開發(fā)商加入巨杉學(xué)計劃。截至2020年底,“巨杉學(xué)”已認(rèn)證工程師超過1.8萬人,網(wǎng)站用戶注冊數(shù)量超過5萬人,為分布式技術(shù)業(yè)界發(fā)展提供堅實的人才積淀。
正如中國人民銀行副行長范一飛發(fā)表在《中國金融》上題為《譜寫新時代金融信息化發(fā)展新篇章》的文章中寫到,“建立健全與金融市場相適應(yīng)、有利于吸引和留住人才、激勵和發(fā)展人才的薪酬和考核制度,激發(fā)人才創(chuàng)新創(chuàng)造活力,造就既懂金融又懂科技的新型復(fù)合型人才隊伍。”像巨杉數(shù)據(jù)庫這樣,與行業(yè)密切結(jié)合的領(lǐng)域,復(fù)合人才的吸引和培養(yǎng)至關(guān)重要,期待中國數(shù)據(jù)庫產(chǎn)業(yè)蓬勃發(fā)展,推動信創(chuàng)產(chǎn)業(yè)砥礪前行。
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1《2021中國數(shù)據(jù)智能產(chǎn)業(yè)發(fā)展報告》正式發(fā)
-
2數(shù)智驅(qū)動企業(yè)增長——2021第6屆GrowingIO
-
3DataPipeline宣布完成數(shù)千萬B輪融資,加
-
4專訪洞見科技總裁毛賽:為客戶提供更安全
-
5【附報告下載】將數(shù)據(jù)變成企業(yè)流動的“血
-
6易觀分析數(shù)據(jù)報告重磅發(fā)布,直擊數(shù)字經(jīng)濟
-
7第三屆零售銀行發(fā)展大會在滬閉幕
-
8數(shù)據(jù)猿獲中國信通院認(rèn)可,榮獲“2021 RP
-
9數(shù)字經(jīng)濟時代,什么是關(guān)鍵資源?
-
10百分點大數(shù)據(jù)技術(shù)團隊:政務(wù)數(shù)據(jù)安全管理