鏡舟科技客戶成功團(tuán)隊(duì)負(fù)責(zé)人孟慶歡:湖倉(cāng)一體將成為數(shù)據(jù)架構(gòu)的新范式
原創(chuàng) 十四 | 2024-02-02 21:32
【數(shù)據(jù)猿導(dǎo)讀】 2024年1月17日,由數(shù)據(jù)猿和上海大數(shù)據(jù)聯(lián)盟主辦,上海市經(jīng)濟(jì)和信息化委員會(huì)、上海市科學(xué)技術(shù)委員會(huì)指導(dǎo)的“第六屆金猿季&魔方論壇——大數(shù)據(jù)產(chǎn)業(yè)發(fā)展論壇”上,鏡舟科技客戶成功團(tuán)隊(duì)負(fù)責(zé)人孟慶歡在主題演講中與到場(chǎng)嘉賓和觀眾們探討了湖倉(cāng)架構(gòu)在數(shù)據(jù)價(jià)值釋放中的角色。

隨著數(shù)字化的概念逐步深入不同領(lǐng)域企業(yè)的運(yùn)營(yíng)中,業(yè)務(wù)形態(tài)和數(shù)字化路徑也越來(lái)越豐富。這也為企業(yè)數(shù)據(jù)處理、儲(chǔ)存的方式提出了更多要求。對(duì)于企業(yè),尤其是數(shù)據(jù)驅(qū)動(dòng)型企業(yè)來(lái)說(shuō),需要強(qiáng)大的解決方案來(lái)管理和分析整個(gè)組織中的大量數(shù)據(jù),這些系統(tǒng)必須具有可伸縮性、可靠性和安全性,并且必須具有足夠的靈活性以支持各種數(shù)據(jù)類型和使用場(chǎng)景。這些要求遠(yuǎn)遠(yuǎn)超出了任何傳統(tǒng)數(shù)據(jù)庫(kù)的能力,因此,數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖等多種不同的架構(gòu)逐漸成為了數(shù)據(jù)庫(kù)行業(yè)的熱門技術(shù)。
2024年1月17日,由數(shù)據(jù)猿和上海大數(shù)據(jù)聯(lián)盟主辦,上海市經(jīng)濟(jì)和信息化委員會(huì)、上海市科學(xué)技術(shù)委員會(huì)指導(dǎo)的“第六屆金猿季&魔方論壇——大數(shù)據(jù)產(chǎn)業(yè)發(fā)展論壇”上,鏡舟科技客戶成功團(tuán)隊(duì)負(fù)責(zé)人孟慶歡在主題演講中與到場(chǎng)嘉賓和觀眾們探討了湖倉(cāng)架構(gòu)在數(shù)據(jù)價(jià)值釋放中的角色。
鏡舟科技成立于2022年,致力于建立湖倉(cāng)架構(gòu)下的數(shù)據(jù)分析創(chuàng)新產(chǎn)品幫助企業(yè)提升效率。其研發(fā)的鏡舟分析型數(shù)據(jù)庫(kù)、湖倉(cāng)分析引擎,是基于StarRocks開發(fā)的國(guó)產(chǎn)企業(yè)級(jí)產(chǎn)品。鏡舟分析型數(shù)據(jù)庫(kù)在實(shí)時(shí)數(shù)倉(cāng)、OLAP報(bào)表、數(shù)據(jù)湖分析等場(chǎng)景中滿足客戶多維復(fù)雜、實(shí)時(shí)、高并發(fā)的數(shù)據(jù)分析需求,幫助客戶構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的全新業(yè)務(wù)和管理模式。
鏡舟湖倉(cāng)分析引擎采用的湖倉(cāng)架構(gòu)作為一種先進(jìn)的數(shù)據(jù)存儲(chǔ)和管理方式,通過(guò)集成多源、多格式、大規(guī)模的數(shù)據(jù),為企業(yè)提供了更靈活、高效的數(shù)據(jù)管理方案,成為釋放數(shù)據(jù)價(jià)值的強(qiáng)大引擎。
“四世同堂”的數(shù)據(jù)架構(gòu)
在當(dāng)前大數(shù)據(jù)分析架構(gòu)下有兩條主流的技術(shù)路線。一個(gè)是數(shù)據(jù)倉(cāng)庫(kù),另一個(gè)是數(shù)據(jù)湖。
數(shù)據(jù)倉(cāng)庫(kù)是一種企業(yè)系統(tǒng),用于分析和報(bào)告來(lái)自多個(gè)來(lái)源的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),例如銷售終端交易、營(yíng)銷自動(dòng)化、客戶關(guān)系管理等。數(shù)據(jù)倉(cāng)庫(kù)適用于點(diǎn)對(duì)點(diǎn)分析以及自定義報(bào)告。數(shù)據(jù)倉(cāng)庫(kù)可以將當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù)都存儲(chǔ)在一個(gè)地方,旨在提供長(zhǎng)期數(shù)據(jù)視圖,這使其成為商業(yè)智能的主要組成部分。
經(jīng)過(guò)幾十年的發(fā)展和產(chǎn)品更新迭代,數(shù)據(jù)倉(cāng)庫(kù)目前已經(jīng)“四世同堂”:從最早期的關(guān)系型數(shù)據(jù)庫(kù),到中期 Hadoop 等數(shù)據(jù)倉(cāng)庫(kù),一直延伸到云計(jì)算領(lǐng)域,包括云原生的數(shù)倉(cāng),和以 Snowflake 這類產(chǎn)品為代表的數(shù)倉(cāng)路線。數(shù)據(jù)倉(cāng)庫(kù)的主要優(yōu)點(diǎn)包括數(shù)據(jù)質(zhì)量較高、查詢性能較高、實(shí)時(shí)性強(qiáng)、數(shù)據(jù)治理難度低。
數(shù)據(jù)湖作為后起之秀,從2012年開始逐步發(fā)展,目前已經(jīng)成為許多前沿企業(yè)落地?cái)?shù)據(jù)應(yīng)用的新一代底座。
數(shù)據(jù)湖提供了一個(gè)可伸縮的安全平臺(tái),使企業(yè)能夠以任何速度從任何系統(tǒng)中提取任何數(shù)據(jù),無(wú)論數(shù)據(jù)來(lái)自本地、云還是邊緣計(jì)算系統(tǒng);以全保真的方式存儲(chǔ)任何類型或數(shù)量的數(shù)據(jù);實(shí)時(shí)或批量處理數(shù)據(jù);使用 SQL、Python、R 或任何其他語(yǔ)言、第三方數(shù)據(jù)或分析應(yīng)用分析數(shù)據(jù)。
與數(shù)據(jù)倉(cāng)庫(kù)相比,數(shù)據(jù)湖同時(shí)由其“不”是什么來(lái)定義。它不僅僅是存儲(chǔ)空間,也不完全等同于數(shù)據(jù)倉(cāng)庫(kù)。
在大模型快速發(fā)展的2023年,數(shù)據(jù)湖的應(yīng)用也變得更加頻繁。數(shù)據(jù)湖可以作為AI數(shù)據(jù)的底座,可以儲(chǔ)存大模型訓(xùn)練所需的數(shù)據(jù)——數(shù)據(jù)湖的架構(gòu)天然地支持AI訓(xùn)練。
雖然數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)都能夠存儲(chǔ)一定容量的數(shù)據(jù),但它們都針對(duì)不同用途進(jìn)行了優(yōu)化。總體來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)通常適用于存儲(chǔ)商業(yè)行為中常見(jiàn)的重復(fù)性報(bào)告和分析數(shù)據(jù),如月度銷售報(bào)告、每個(gè)區(qū)域的銷售跟蹤數(shù)據(jù)或網(wǎng)站流量。而數(shù)據(jù)湖主要是為處理大量大數(shù)據(jù)而開發(fā)的,公司通??梢詫⒃紨?shù)據(jù)通過(guò)批量傳輸和/或流式傳輸?shù)姆绞揭苿?dòng)到數(shù)據(jù)湖中,而無(wú)需對(duì)其進(jìn)行轉(zhuǎn)換。兩者之間是互補(bǔ)關(guān)系而非競(jìng)爭(zhēng)關(guān)系,因此企業(yè)可能需要同時(shí)使用這兩種技術(shù)。
“湖”與“倉(cāng)”怎樣結(jié)合?
同時(shí)使用兩種技術(shù)在落地過(guò)程中有兩種模式。
一種是“湖上建倉(cāng)”,即將數(shù)據(jù)錄入數(shù)據(jù)湖中,再在數(shù)據(jù)湖上疊加數(shù)據(jù)倉(cāng)庫(kù),按照數(shù)據(jù)倉(cāng)庫(kù)模式將數(shù)據(jù)湖中的數(shù)據(jù)源源不斷地放入倉(cāng)庫(kù)進(jìn)行加工應(yīng)用。這相當(dāng)于將數(shù)據(jù)湖作為數(shù)據(jù)源使用,只是將數(shù)據(jù)先放入數(shù)據(jù)湖,然后再按需放入倉(cāng)庫(kù)進(jìn)行應(yīng)用。
第二種方式是“倉(cāng)外掛湖”,即一部分?jǐn)?shù)據(jù)儲(chǔ)存在數(shù)據(jù)倉(cāng)庫(kù)中,一部分儲(chǔ)存在數(shù)據(jù)湖中。當(dāng)業(yè)務(wù)應(yīng)用需要進(jìn)行數(shù)據(jù)查詢時(shí),將數(shù)據(jù)放在湖里,利用數(shù)據(jù)倉(cāng)的能力查詢數(shù)據(jù)湖里的數(shù)據(jù)。
但是,無(wú)論是湖上建倉(cāng)還是倉(cāng)外掛湖,這兩種模式的整體數(shù)據(jù)仍然割裂,倉(cāng)庫(kù)和湖里都有與外界不相通的部分?jǐn)?shù)據(jù),這給后續(xù)數(shù)據(jù)運(yùn)維和管理增加了很多成本。
因此,一種將數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖結(jié)合的架構(gòu)就顯得非常有必要了。
StarRocks就是一種將兩者相結(jié)合的架構(gòu)。
孟慶歡介紹,用戶可以選擇現(xiàn)有的數(shù)據(jù)湖,或者直接選擇 StarRocks作為數(shù)據(jù)湖。在此基礎(chǔ)上,用戶可以通過(guò)StarRocks的引擎能力構(gòu)建BI報(bào)表應(yīng)用、數(shù)據(jù)探查應(yīng)用以及離線數(shù)據(jù)加工應(yīng)用等。
與之前湖上建倉(cāng)和倉(cāng)外掛湖的區(qū)別在于,這種架構(gòu)不再將數(shù)據(jù)和管理進(jìn)行分散,而是一體化管理,并且在此基礎(chǔ)上附加湖與倉(cāng)的能力,形成湖倉(cāng)一體的架構(gòu)。
目前,StarRocks 已經(jīng)在國(guó)內(nèi) 300 多家市值超過(guò) 70 億人民幣的大規(guī)模公司中落地,開始逐步實(shí)現(xiàn)湖倉(cāng)新范式。
企業(yè)在應(yīng)用這種模式時(shí),相當(dāng)于對(duì)原有數(shù)據(jù)架構(gòu)進(jìn)行了一次全新的升級(jí)和改造。在這個(gè)過(guò)程中有一部分能力可以利用舊有的大數(shù)據(jù)架構(gòu),另一部分可以利用StarRocks的能力開通數(shù)據(jù)實(shí)時(shí)分析領(lǐng)域的新場(chǎng)景。
作為一種全新的范式,數(shù)據(jù)鏈路與湖的方式、倉(cāng)的方式有了顯著的區(qū)別。所有數(shù)據(jù)源都可以把StarRocks作為統(tǒng)一的數(shù)據(jù)湖倉(cāng)入口進(jìn)行寫入。在這個(gè)過(guò)程中,如果業(yè)務(wù)應(yīng)用希望使用湖中或者倉(cāng)中的數(shù)據(jù),可以通過(guò)物化視圖能力,進(jìn)行數(shù)據(jù)模型構(gòu)建。這樣,就可以逐步將原始數(shù)據(jù)根據(jù)物化視圖的進(jìn)行簡(jiǎn)化,不再像以前更新、操作數(shù)據(jù)時(shí)那樣需要外置一個(gè)工具調(diào)度平臺(tái)進(jìn)行應(yīng)用。
在整個(gè)分析過(guò)程中,數(shù)據(jù)庫(kù)提供了統(tǒng)一的元數(shù)據(jù)管理模塊,用戶可以簡(jiǎn)單迅速的創(chuàng)建、維護(hù)不同數(shù)據(jù)源的原數(shù)據(jù),并自動(dòng)進(jìn)行更新。利用這種方式,在后續(xù)的數(shù)據(jù)處理過(guò)程中會(huì)有一個(gè)相對(duì)完善的入口,基于此進(jìn)行數(shù)據(jù)分析操作會(huì)非常方便。
在性能方面,以原有湖倉(cāng)分析中經(jīng)常用到的參數(shù)作為參照物,替換成StarRocks可以提升3倍以上的性能,資源和開發(fā)成本大幅度降低。
湖倉(cāng)一體的實(shí)際應(yīng)用
孟慶歡還分享了兩個(gè)湖倉(cāng)一體的實(shí)戰(zhàn)案例。
在攜程業(yè)務(wù)中,由于企業(yè)每天需要處理大量機(jī)票、酒店和旅行數(shù)據(jù),業(yè)務(wù)人員需要訪問(wèn)的報(bào)表數(shù)據(jù)量非常大。原有模式導(dǎo)入的成本非常高,并且在數(shù)據(jù)更新方面的支持并不完善,因此一旦數(shù)據(jù)發(fā)生變化,需要重新刷新整個(gè)數(shù)據(jù),成本相對(duì)較高。
另外,導(dǎo)入的數(shù)據(jù)與原始數(shù)據(jù)之間存在一定的數(shù)據(jù)時(shí)效性滯后,導(dǎo)致數(shù)據(jù)之間無(wú)法嚴(yán)格保持一致。這導(dǎo)致業(yè)務(wù)在訪問(wèn)時(shí)也會(huì)頻繁出現(xiàn)問(wèn)題。同時(shí),在查詢時(shí),原有的性能已經(jīng)無(wú)法滿足日益高漲的數(shù)據(jù)查詢性能要求。
因此基于這些痛點(diǎn),攜程實(shí)驗(yàn)了StarRocks替換原有架構(gòu)。首先能帶來(lái)的性能提升是查詢,查詢速度提高了7倍以上。StarRocks整體兼容了原有系統(tǒng),因此在整個(gè)業(yè)務(wù)切換過(guò)程中完全無(wú)感。前一天把數(shù)據(jù)整合好后,第二天直接進(jìn)行切換,業(yè)務(wù)只能體會(huì)到速度的增加,完全感覺(jué)不到使用習(xí)慣上的變化。
另一個(gè)案例是小紅書,小紅書是年輕人的社交分享平臺(tái),其后臺(tái)數(shù)據(jù)訪問(wèn)量非常巨大,有上萬(wàn)張的數(shù)據(jù)運(yùn)營(yíng)報(bào)表,每天要處理的數(shù)據(jù)量極高。原有架構(gòu)需要維護(hù)龐大的數(shù)據(jù)分析機(jī)器資源,替換為StarRocks后,企業(yè)節(jié)省了一半服務(wù)器的數(shù)據(jù)資源也可以實(shí)現(xiàn)原有需求。
在替換StarRocks之后,企業(yè)數(shù)據(jù)處理的整體性能和成本都發(fā)生了變化。總體而言,當(dāng)企業(yè)應(yīng)用湖倉(cāng)的分析架構(gòu)替換原有的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的架構(gòu)之后,整個(gè)應(yīng)用模式會(huì)更加簡(jiǎn)單,數(shù)據(jù)無(wú)需反復(fù)處理。整體服務(wù)器資源或應(yīng)用資源也會(huì)更加可控,無(wú)需為不可控成本付出時(shí)間和精力。企業(yè)可以按照業(yè)務(wù)邏輯加工的口徑,按需進(jìn)行數(shù)據(jù)加工和實(shí)際應(yīng)用。
鏡舟科技的產(chǎn)品鏡舟湖倉(cāng)分析引擎是基于 StarRocks 開發(fā)的企業(yè)級(jí)產(chǎn)品,致力于幫助企業(yè)建立“極速統(tǒng)一”的湖倉(cāng)分析新范式,滿足金融政企客戶對(duì)技術(shù)支持、解決方案、生態(tài)建設(shè)、售后保障等方面的極致要求。
鏡舟湖倉(cāng)分析引擎既支持從各類實(shí)時(shí)和離線的數(shù)據(jù)源高效導(dǎo)入數(shù)據(jù),也支持直接分析數(shù)據(jù)湖上各種格式的數(shù)據(jù)。鏡舟湖倉(cāng)分析引擎兼容 MySQL 協(xié)議,可使用 MySQL 客戶端并適配各類主流 BI 工具,同時(shí)擎具備水平擴(kuò)展、高可用、高可靠、易運(yùn)維等特性。
未來(lái)鏡舟科技計(jì)劃在湖倉(cāng)領(lǐng)域不斷探索,進(jìn)一步加強(qiáng)離線數(shù)據(jù)和批量數(shù)據(jù)處理能力,打造更加一體化的湖倉(cāng)產(chǎn)品平臺(tái)。
孟慶歡最后總結(jié),隨著技術(shù)的不斷發(fā)展,湖倉(cāng)架構(gòu)將進(jìn)一步演化,引領(lǐng)下一場(chǎng)數(shù)據(jù)革命。在技術(shù)的賦能下,湖倉(cāng)將不斷釋放更為豐富、有價(jià)值的數(shù)據(jù),為企業(yè)業(yè)務(wù)提供更強(qiáng)大的數(shù)據(jù)支持,推動(dòng)業(yè)務(wù)創(chuàng)新和發(fā)展。湖倉(cāng)架構(gòu)的未來(lái),將是數(shù)據(jù)與技術(shù)相互融合、協(xié)同發(fā)展的新時(shí)代。
來(lái)源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
不容錯(cuò)過(guò)的資訊
-
1字節(jié)版GPTs“扣子”上線;云從科技發(fā)布Da
-
2【金猿產(chǎn)品展】有數(shù)ChatBI——基于大模型
-
3分拆訊飛醫(yī)療上市,科大訊飛的新故事能打
-
4中國(guó)石油、中國(guó)石化、中國(guó)海油、國(guó)家管網(wǎng)
-
5Huawei sets up Yinwang Intelligenc
-
6Honor released self-developed 7 b
-
7【金猿產(chǎn)品展】ETLCloud—數(shù)據(jù)集成領(lǐng)域的
-
8數(shù)據(jù)資產(chǎn)入表攻略:數(shù)錢數(shù)到手軟的秘訣!
-
9《2023中國(guó)數(shù)據(jù)智能產(chǎn)業(yè)圖譜3.0版》重磅
-
10對(duì)話平頭哥: 突破SSD主控芯片,觸發(fā)新
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
