鏡舟科技孟慶歡:StarRocks 湖倉架構(gòu),AI數(shù)智化時代的數(shù)據(jù)驅(qū)動力
【數(shù)據(jù)猿導(dǎo)讀】 洞察時代先機,共鑄行業(yè)未來。7月24日,數(shù)據(jù)猿以“數(shù)智新質(zhì)·力拓未來”為主題,舉辦“2024企業(yè)數(shù)智化轉(zhuǎn)型升級發(fā)展論壇——暨AI大模型趨勢論壇”,與行業(yè)精英、學(xué)術(shù)專家、企業(yè)領(lǐng)袖共同探討在新質(zhì)生產(chǎn)力的大背景下,AI大模型在推動企業(yè)數(shù)智化轉(zhuǎn)型升級中的關(guān)鍵作用,深入剖析AI大模型的創(chuàng)...

數(shù)智化浪潮席卷全球,各行各業(yè)站上轉(zhuǎn)型升級的路口,迎接新的機遇與挑戰(zhàn)。進入2024年后,以智能科技為核心的新質(zhì)生產(chǎn)力全面爆發(fā),AI大模型作為新時代產(chǎn)業(yè)革新的領(lǐng)航者,為千行百業(yè)的數(shù)智化轉(zhuǎn)型創(chuàng)造出無限可能。
洞察時代先機,共鑄行業(yè)未來。7月24日,數(shù)據(jù)猿以“數(shù)智新質(zhì)·力拓未來”為主題,舉辦“2024企業(yè)數(shù)智化轉(zhuǎn)型升級發(fā)展論壇——暨AI大模型趨勢論壇”,與行業(yè)精英、學(xué)術(shù)專家、企業(yè)領(lǐng)袖共同探討在新質(zhì)生產(chǎn)力的大背景下,AI大模型在推動企業(yè)數(shù)智化轉(zhuǎn)型升級中的關(guān)鍵作用,深入剖析AI大模型的創(chuàng)新發(fā)展機遇、前沿技術(shù)應(yīng)用以及行業(yè)落地實踐。
作為本次論壇的主要嘉賓,鏡舟科技客戶成功團隊負責(zé)人孟慶歡分享了其對數(shù)智化時代數(shù)據(jù)驅(qū)動力的看法。
大多企業(yè)都在與數(shù)據(jù)“纏斗”
數(shù)智化時代,數(shù)據(jù)成為企業(yè)的寶貴資產(chǎn),亦是推動企業(yè)突破、創(chuàng)新的關(guān)鍵動力。孟慶歡在演講中提到,現(xiàn)在越來越多企業(yè)決策者已經(jīng)意識到,企業(yè)的高速發(fā)展要依靠數(shù)據(jù)來驅(qū)動和支撐。但同時有兩個數(shù)字不容忽視:一是85%的大數(shù)據(jù)項目最終以失敗告終;二是87%的數(shù)據(jù)科學(xué)項目僅僅停留在實驗室階段,并沒有被實際應(yīng)用到生產(chǎn)環(huán)境中。
企業(yè)在數(shù)據(jù)應(yīng)用中存在的困難,主要體現(xiàn)在基礎(chǔ)設(shè)施和數(shù)據(jù)工程層面。不同的數(shù)據(jù)應(yīng)用場景需要不同的數(shù)據(jù)技術(shù)能力和架構(gòu)。例如:
報表、數(shù)據(jù)大屏場景是典型的數(shù)倉場景,涉及結(jié)構(gòu)化數(shù)據(jù)的清洗和加工、應(yīng)用。
數(shù)據(jù)工程場景是企業(yè)內(nèi)部的各種類型數(shù)據(jù)(業(yè)務(wù)、機器、人為數(shù)據(jù)等)被匯總、轉(zhuǎn)換和加工,進一步挖掘價值的過程。
實時場景則是通過流式數(shù)據(jù)加工引擎,將數(shù)據(jù)送到實時數(shù)據(jù)庫中供業(yè)務(wù)調(diào)用。
機器學(xué)習(xí)與數(shù)據(jù)科學(xué)場景則需要結(jié)合AI計算和處理框架,在模型中進行訓(xùn)練、發(fā)布,最后落地應(yīng)用。
在這些典型場景都包含復(fù)雜的業(yè)務(wù)交互和處理,處理這些數(shù)據(jù)需要選擇不同的組件和工具,來適配企業(yè)內(nèi)部不同的數(shù)據(jù)流轉(zhuǎn)過程和架構(gòu)。
不同團隊在數(shù)據(jù)應(yīng)用過程中,形成了一道道無形的墻阻礙著企業(yè)內(nèi)部的數(shù)據(jù)共享、數(shù)據(jù)流通和數(shù)據(jù)的融合應(yīng)用,這才導(dǎo)致了企業(yè)內(nèi)部的“數(shù)據(jù)纏斗”現(xiàn)象。對于企業(yè)而言,要想讓數(shù)據(jù)、技術(shù)架構(gòu)以及團隊充分釋放價值,依舊面臨巨大的挑戰(zhàn)。
企業(yè)需要什么樣的數(shù)據(jù)架構(gòu)?
企業(yè)需要數(shù)據(jù)架構(gòu)來支撐不同業(yè)務(wù)、不同數(shù)據(jù)的處理,以便讓數(shù)據(jù)能更好地為一線人員應(yīng)用。數(shù)據(jù)倉庫和數(shù)據(jù)湖作為兩種不同的存儲、管理海量數(shù)據(jù)的架構(gòu),在當(dāng)下受到廣泛討論。
孟慶歡介紹,數(shù)據(jù)倉庫的發(fā)展時間很長,從上世紀80年代一直到現(xiàn)在,其不斷迭代更新,引入新的能力,賦能技術(shù)工程師挖掘數(shù)據(jù)價值。
通常,數(shù)據(jù)錄入到數(shù)據(jù)倉庫架構(gòu)中,需要經(jīng)歷很多清洗加工環(huán)節(jié),能過濾掉雜亂無章、沒有嚴格規(guī)劃或者定義過的數(shù)據(jù)。當(dāng)數(shù)據(jù)按照一定的格式進行組織后,更容易找到相應(yīng)的數(shù)據(jù)及數(shù)據(jù)之間的關(guān)聯(lián)。這也就意味著數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量、數(shù)據(jù)價值相對有保障。
同時,孟慶歡也指出了數(shù)據(jù)倉庫在數(shù)據(jù)多樣化、數(shù)據(jù)孤島問題、成本等方面的不足。他提到,數(shù)據(jù)倉庫主要聚焦于結(jié)構(gòu)化的數(shù)據(jù),對于企業(yè)內(nèi)的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如機器的日志、采集的信號、音視頻、圖片等,數(shù)據(jù)倉庫難以處理。
此外,由于數(shù)據(jù)倉庫的容量有限,在應(yīng)用過程中容易產(chǎn)生數(shù)據(jù)孤島。對于數(shù)據(jù)規(guī)模較為龐大的企業(yè)來說,若完全依賴于數(shù)據(jù)倉庫,通常要面對不小的成本。
孟慶歡還介紹了數(shù)據(jù)湖的發(fā)展歷程以及現(xiàn)代化數(shù)據(jù)湖的優(yōu)劣勢。他表示,數(shù)據(jù)湖是近年來興起的技術(shù)架構(gòu)概念,但其實數(shù)據(jù)湖在多年前已經(jīng)被提出,那時更多依托于底層的文件系統(tǒng)和磁盤的陣列系統(tǒng)來存儲各種各樣的業(yè)務(wù)數(shù)據(jù)。
他談到,現(xiàn)代化的數(shù)據(jù)湖具有統(tǒng)一的數(shù)據(jù)存儲,可以大批量地進行導(dǎo)入。有了統(tǒng)一的數(shù)據(jù)錄入、數(shù)據(jù)存儲口徑,再去加工不同業(yè)務(wù)所需要的數(shù)據(jù),門檻自然而然就降低了。此外,數(shù)據(jù)湖的架構(gòu)相對開放,通常以開源的文件格式供其他引擎調(diào)用。因此,企業(yè)不用擔(dān)心數(shù)據(jù)被鎖定在技術(shù)架構(gòu)中導(dǎo)致難以擴展和替換的問題。
但是,數(shù)據(jù)湖在數(shù)據(jù)分析性能、數(shù)據(jù)管理與治理方面也存在不足。孟慶歡指出,在目前的場景中,數(shù)據(jù)湖的分析處理性能以小時級和分鐘級為主,面對實時的處理需求,數(shù)據(jù)湖難以滿足。而在數(shù)據(jù)管理過程中,因為數(shù)據(jù)湖中包含各種各樣的數(shù)據(jù),對于大型企業(yè)而言,要對數(shù)據(jù)湖中的數(shù)據(jù)進行管理,難度相對較大。
總體來看,數(shù)據(jù)倉庫和數(shù)據(jù)湖在數(shù)據(jù)處理上各有優(yōu)劣。而隨著技術(shù)的不斷更迭,數(shù)據(jù)倉庫與數(shù)據(jù)湖的能力呈現(xiàn)明顯的融合趨勢,開辟出了一條湖倉一體的發(fā)展路線。
湖倉新范式有何能力?
在湖倉融合的架構(gòu)中,所有數(shù)據(jù)統(tǒng)一錄入到湖中,再按需供業(yè)務(wù)端進行數(shù)倉的應(yīng)用建設(shè)。在這個過程中,湖與倉不再割裂,充分融合并共享一份數(shù)據(jù),彼此之間互聯(lián)互通。
孟慶歡以開源產(chǎn)品StarRocks的湖倉能力為例,進一步介紹了其能力與特點。他表示,在StarRocks中,湖倉的概念再度被革新,主要體現(xiàn)在存算分離架構(gòu)、極速湖倉分析和物化視圖等三個方面。
首先,以存算分離的架構(gòu)去構(gòu)建湖倉,能兼顧成本和性能,同時在資源擴展上也能達到彈性的效果。
其次,StarRocks引入了先進的向量化執(zhí)行引擎和CBO查詢優(yōu)化器、實時更新的列式存儲等,可根據(jù)業(yè)務(wù)不同的分析需求自動進行優(yōu)化和加速,從而實現(xiàn)極速湖倉分析效果。
再者,在數(shù)倉的數(shù)據(jù)加工過程中,物化視圖能有效降低數(shù)據(jù)加工的門檻,減少對外部數(shù)據(jù)集成組件的依賴。
孟慶歡重點介紹了存算分離架構(gòu)的在實際應(yīng)用過程中的優(yōu)勢。他談到,存算分離架構(gòu),可以將計算資源和存儲資源進行解耦。應(yīng)用場景上,存算分離既能適應(yīng)私有化場景,也能適應(yīng)公有云環(huán)境,用戶在技術(shù)架構(gòu)選擇上更加靈活。計算性能上,存算分離引入了緩存機制,性能能達到與存算一體持平。
孟慶歡還提到,存算分離架構(gòu)能夠便利地進行數(shù)據(jù)資源隔離,不同業(yè)務(wù)團隊可單獨使用計算資源,不用擔(dān)心自己的數(shù)據(jù)查詢分析需求干擾到其他團隊。
依托于統(tǒng)一的元數(shù)據(jù)catalog體系,StarRocks內(nèi)部、外部數(shù)據(jù)實現(xiàn)統(tǒng)一管理。當(dāng)前數(shù)據(jù)庫里的數(shù)據(jù)和外部的數(shù)據(jù)分別有哪些、其業(yè)務(wù)口徑是如何定義的、權(quán)限是如何分配的等問題的答案一目了然。在這個過程中,通過對湖倉性能加速,其提供的服務(wù)性能也將有不同程度的提升,進而滿足業(yè)務(wù)對于秒級、毫秒級分析需求的響應(yīng)。
具體談到物化視圖的革新時,孟慶歡介紹,物化視圖在底層面對業(yè)務(wù)端是透明加速的,業(yè)務(wù)人員無需感知物化視圖的存即可享受更快的分析體驗,這個工作由業(yè)務(wù)分析師甚至是加工引擎來自動生成和推薦,讓業(yè)務(wù)數(shù)據(jù)根據(jù)原有的數(shù)據(jù)加工邏輯和模型,自動進行物化視圖的加載。
他表示,物化視圖中存儲的是業(yè)務(wù)所需要的結(jié)果數(shù)據(jù),通過結(jié)果數(shù)據(jù)的直接生成,可有效緩解線性計算過程中集群資源及數(shù)據(jù)量較大時導(dǎo)致的性能慢的問題。應(yīng)用物化視圖,不同業(yè)務(wù)人員可選擇其所關(guān)心的維度,從而降低數(shù)據(jù)存儲的冗余,提升業(yè)務(wù)靈活定義指標的擴展性。
基于StarRocks構(gòu)建的湖倉分析新范式,有助于業(yè)務(wù)進行更靈活、更具時效性的數(shù)據(jù)分析。無論是實時數(shù)據(jù)還是批量數(shù)據(jù),都能導(dǎo)入到StarRocks中,結(jié)合湖的能力完成數(shù)據(jù)分析。同時,利用物化視圖,可減少數(shù)據(jù)模型加工帶來的工作量和維護代價,提升業(yè)務(wù)體感,加速業(yè)務(wù)查詢。
孟慶歡透露,目前,湖倉新范式正在被廣泛實踐,日常生活中人們常用的微信視頻號、攜程預(yù)訂機票酒店等,底層都是依托于StarRocks來實現(xiàn)精準的內(nèi)容推薦。
伴隨AI不斷深入各種應(yīng)用場景,StarRocks在與AI的結(jié)合上也有諸多嘗試。孟慶歡表示,希望越來越多合作伙伴和用戶在StarRocks上實驗出更多基于AI的應(yīng)用,進而提供更有價值的數(shù)據(jù)驅(qū)動力。
鏡舟科技
北京鏡舟科技有限公司是一家專注開源商業(yè)化的中國公司,由 StarRocks 項目核心成員于2022年創(chuàng)立。
基于開源項目 StarRocks ,鏡舟打造了符合國家標準并適配國內(nèi)外生態(tài)體系的企業(yè)級分析型(OLAP)數(shù)據(jù)庫,在行業(yè)適配度、場景成熟度、產(chǎn)品穩(wěn)定性等方面有著卓越表現(xiàn)。
作為 StarRocks 社區(qū)中國最大貢獻者,鏡舟大力參與社區(qū)推廣工作,未來也將持續(xù)與各頭部廠商一起創(chuàng)造世界頂級的開源項目,為社區(qū)發(fā)展貢獻力量。
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評論
不容錯過的資訊
-
1新范式:AIGC推動的數(shù)據(jù)要素產(chǎn)業(yè)價值促進
-
2第十四屆智慧城市與智能經(jīng)濟博覽會 倒計
-
3“同風(fēng)雨,長相伴” 之 Wind媒體賦能計
-
4面壁智能開源MiniCPM-V 2.6模型;法國
-
5再攀高峰!漢王科技N10 Pro手寫電紙本震
-
6阿里云支撐!云計算首次超越衛(wèi)星成為奧運
-
7【邀請函】WDEC 2024世界數(shù)字經(jīng)濟大會暨
-
8重磅發(fā)布|WAIC 2024展位圖及參展企業(yè)名
-
9思邁特發(fā)布全新AI應(yīng)用,Smartbi AIChat
-
10進軍智能語音賽道 漢王科技發(fā)布首款智能
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
