【數(shù)智化人物展】白鯨開源CEO郭煒:大模型助力企業(yè)大數(shù)據(jù)治理“數(shù)智化”升級(jí)
原創(chuàng) 郭煒 | 2023-10-24 19:29
【數(shù)據(jù)猿導(dǎo)讀】 本文由白鯨開源CEO郭煒投遞并參與《2023中國企業(yè)數(shù)智化轉(zhuǎn)型升級(jí)先鋒人物》榜單/獎(jiǎng)項(xiàng)評(píng)選。

郭煒
本文由白鯨開源CEO郭煒投遞并參與《2023中國企業(yè)數(shù)智化轉(zhuǎn)型升級(jí)先鋒人物》榜單/獎(jiǎng)項(xiàng)評(píng)選。
隨著數(shù)據(jù)驅(qū)動(dòng)的理念深入人心,每個(gè)企業(yè)內(nèi)部積累越來越多紛繁復(fù)雜的大數(shù)據(jù),而這些新興數(shù)據(jù)源與快速敏捷開發(fā)過程給企業(yè)數(shù)據(jù)治理提出新的挑戰(zhàn):
● 應(yīng)用研發(fā)敏捷開發(fā)讓應(yīng)用/交易數(shù)據(jù)快速擴(kuò)張,數(shù)據(jù)管理部門無法快速處理和及時(shí)響應(yīng),傳統(tǒng)的數(shù)據(jù)治理流程產(chǎn)生巨大挑戰(zhàn);
● 新興數(shù)據(jù)源,多云、混合云、SaaS快速發(fā)展,企業(yè)“暗數(shù)據(jù)”越來越多,大數(shù)據(jù)領(lǐng)域新興數(shù)據(jù)孤島越來越多,根據(jù)Gartner統(tǒng)計(jì)目前企業(yè)的大數(shù)據(jù)有68%數(shù)據(jù)沒有被分析,82%企業(yè)出現(xiàn)數(shù)據(jù)孤島;
● 業(yè)務(wù)部門數(shù)據(jù)驅(qū)動(dòng)理念深入,為了滿足需求多數(shù)企業(yè)建立多個(gè)數(shù)據(jù)集市讓業(yè)務(wù)部門自己?jiǎn)为?dú)管理,結(jié)果是數(shù)據(jù)指標(biāo)爆炸增長,數(shù)據(jù)治理的工作量越做越多,數(shù)據(jù)治理的范圍卻越管越少;
● 龐大的數(shù)據(jù)體系讓數(shù)據(jù)越來越難找,數(shù)據(jù)治理越來越難,數(shù)據(jù)范圍已經(jīng)從DataOps擴(kuò)大到DevOps流程,分析師80%時(shí)間都在找數(shù)據(jù)和驗(yàn)證數(shù)據(jù)。
這些都是在這個(gè)大數(shù)據(jù)時(shí)代下每個(gè)企業(yè)在數(shù)據(jù)治理方面提出的挑戰(zhàn)。而大模型的出現(xiàn),讓企業(yè)通過智能化方法快速理解企業(yè)內(nèi)部數(shù)據(jù)資產(chǎn)并幫助企業(yè)內(nèi)部數(shù)據(jù)自發(fā)現(xiàn)、自分類、自關(guān)聯(lián),從而加速企業(yè)產(chǎn)生數(shù)據(jù)到數(shù)據(jù)產(chǎn)生信息最終轉(zhuǎn)化成知識(shí)的效率,實(shí)現(xiàn)企業(yè)在數(shù)據(jù)管理方面全面數(shù)智化升級(jí)。
傳統(tǒng)數(shù)據(jù)治理方式下智能化技術(shù)挑戰(zhàn)
智能化數(shù)據(jù)治理的目標(biāo)是讓數(shù)據(jù)自發(fā)現(xiàn),最終實(shí)現(xiàn)業(yè)務(wù)部門的自服務(wù),這個(gè)目標(biāo)很美好,但是技術(shù)落地實(shí)踐非常復(fù)雜。過去Gartner曾經(jīng)評(píng)估過DataFabric的實(shí)現(xiàn)難度,很多黃色(中成熟度)和紅色(低成熟度)部分。
而具體智能化數(shù)據(jù)治理在企業(yè)落地過程中也遇到很多挑戰(zhàn):
● 傳統(tǒng)元數(shù)據(jù)采集和映射,只有技術(shù)元數(shù)據(jù),業(yè)務(wù)元數(shù)據(jù)獲取方式大部分采取人工方式,大數(shù)據(jù)爆發(fā)的時(shí)代人工處理不過來;
● 知識(shí)圖譜,傳統(tǒng)用戶畫像現(xiàn)有的技術(shù)已經(jīng)過時(shí),數(shù)據(jù)目錄型態(tài)無法滿足查詢和找到用戶所需的數(shù)據(jù);
● 數(shù)據(jù)虛擬化技術(shù)性能不足,而全部同步代價(jià)又大,何時(shí)自動(dòng)遷移,何時(shí)源庫查詢?如何不影響OLTP環(huán)境很難判斷。
●DataOps是基礎(chǔ)(代碼,需求,測(cè)試,ETL,數(shù)據(jù)質(zhì)量,鏈路血緣)+數(shù)據(jù)源元數(shù)據(jù)整理并不完善。
大模型促進(jìn)大數(shù)據(jù)數(shù)據(jù)治理“數(shù)智化”升級(jí)
過去傳統(tǒng)的元數(shù)據(jù)分析和數(shù)據(jù)治理技術(shù)是基于圖數(shù)據(jù)庫、NLP語義分析,所以存在著技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)無法對(duì)應(yīng),數(shù)據(jù)管理工具無法理解行業(yè)屬性和行業(yè)文檔等問題,所以面對(duì)需要加企業(yè)業(yè)務(wù)理解(業(yè)務(wù)元數(shù)據(jù))和數(shù)據(jù)資產(chǎn)(技術(shù)元數(shù)據(jù))幾乎無法實(shí)現(xiàn)。而大模型的自然語言理解力,結(jié)合向量數(shù)據(jù)庫的知識(shí)儲(chǔ)備能力已經(jīng)遠(yuǎn)超過傳統(tǒng)NLP、圖數(shù)據(jù)庫這些能力,將大數(shù)據(jù)數(shù)據(jù)治理“數(shù)智化”成為可能:
大模型的出現(xiàn)完全顛覆了以前數(shù)據(jù)治理智能化的技術(shù)框架架構(gòu),下圖是過去傳統(tǒng)的數(shù)據(jù)治理技術(shù)架構(gòu):
將企業(yè)的業(yè)務(wù)定義、行業(yè)理解,企業(yè)業(yè)務(wù)口徑定義,企業(yè)內(nèi)部數(shù)據(jù)庫的結(jié)構(gòu),甚至數(shù)據(jù)畫像都通過灌入大模型最終實(shí)現(xiàn)對(duì)企業(yè)內(nèi)部數(shù)據(jù)的全面“自動(dòng)化”最終實(shí)現(xiàn)數(shù)據(jù),所以在大模型體系下,數(shù)智化數(shù)據(jù)治理技術(shù)框架是這樣的:
大模型數(shù)據(jù)數(shù)據(jù)治理“數(shù)智化”實(shí)踐
下圖就是我在白鯨開源訓(xùn)練的私有化大模型WhaleLLM的效果,我們可以驚喜的發(fā)現(xiàn)大模型可以迅速理解表述的語義,特殊的業(yè)務(wù)術(shù)語,并可以快速理解用戶企業(yè)自己的數(shù)據(jù)庫表結(jié)構(gòu),甚至可以把用戶需求可以用SQL直接表述出來。在這個(gè)體系下,讓DataFabric落地成為了可能。用一張A40顯卡就可以讓私有化大模型理解你的業(yè)務(wù)定義、表結(jié)構(gòu),并可以告訴你數(shù)據(jù)怎么來使用,甚至可以幫你把SQL準(zhǔn)備好。
所以,在企業(yè)環(huán)境下,通過DevOps快速迭代開發(fā)應(yīng)用,這些應(yīng)用會(huì)遠(yuǎn)遠(yuǎn)不斷的產(chǎn)生數(shù)據(jù)和新的業(yè)務(wù)流程以及業(yè)務(wù)知識(shí),這些數(shù)據(jù)通過DataOps快速開發(fā)迭代反哺應(yīng)用開發(fā)和企業(yè)決策。而在DevOps和DataOps之間,源源不斷在學(xué)習(xí)業(yè)務(wù)知識(shí)、業(yè)務(wù)信息、數(shù)據(jù)治理的業(yè)務(wù)知識(shí)同時(shí)也源源不斷學(xué)習(xí)企業(yè)數(shù)據(jù)湖、云、數(shù)據(jù)查詢規(guī)則的大模型,將會(huì)成為一個(gè)企業(yè)內(nèi)部的數(shù)據(jù)“萬能顧問”,最終讓智能化的數(shù)據(jù)治理落地。
大模型在數(shù)據(jù)治理的應(yīng)用最終實(shí)現(xiàn)DataFabric
早在2000年初Forrester面對(duì)紛繁復(fù)雜的數(shù)據(jù)定義和數(shù)據(jù)治理體系就提出了智能化的概念DataFabric。
而什么是DataFabric?中文翻譯有人叫數(shù)據(jù)編織,也有人叫做數(shù)據(jù)經(jīng)緯,從詞面分析可知它的目標(biāo)是把錯(cuò)綜復(fù)雜的數(shù)據(jù)變?yōu)榭煽焖俦环治鰩熓褂每衫斫獾臄?shù)據(jù),而且無論從“經(jīng)緯”還是“編織”來看,都可以快速尋找到你所需要的數(shù)據(jù),目前在Gartner和Forrester是這樣定義的:
Data Fabric是以一種智能和安全的并且是自服務(wù)的方式,動(dòng)態(tài)地協(xié)調(diào)分布式的數(shù)據(jù)源,跨數(shù)據(jù)平臺(tái)地提供集成和可信賴的數(shù)據(jù),支持廣泛的不同應(yīng)用的分析和使用場(chǎng)景。”其專注于對(duì)數(shù)據(jù)集成、轉(zhuǎn)換、準(zhǔn)備、策展、安全、治理和編排的自動(dòng)化,從而實(shí)現(xiàn)了快速的數(shù)據(jù)分析和洞察,幫助業(yè)務(wù)獲得成功。
——Forrester
Data Fabric是一種新興的數(shù)據(jù)管理設(shè)計(jì)理念,可實(shí)現(xiàn)跨異構(gòu)數(shù)據(jù)源的增強(qiáng)數(shù)據(jù)集成和共享,通過對(duì)現(xiàn)有的、可發(fā)現(xiàn)和可推斷的元數(shù)據(jù)資產(chǎn)進(jìn)行持續(xù)分析,來支持?jǐn)?shù)據(jù)系統(tǒng)跨平臺(tái)的設(shè)計(jì)、部署和使用,從而實(shí)現(xiàn)靈活的數(shù)據(jù)交付。通過散落各處的數(shù)據(jù)孤島都能被統(tǒng)一發(fā)現(xiàn)和使用,并基于主動(dòng)元數(shù)據(jù)進(jìn)行建設(shè)和持續(xù)分析,認(rèn)為數(shù)據(jù)編織的真正價(jià)值在于它能夠通過內(nèi)置的分析技術(shù)動(dòng)態(tài)改進(jìn)數(shù)據(jù)的使用,同時(shí)通過將自動(dòng)化能力添加到整體數(shù)據(jù)管理中,使數(shù)據(jù)管理工作量減少 70% 并加快價(jià)值實(shí)現(xiàn)速度。
——Gartner
而大模型在數(shù)據(jù)治理和數(shù)據(jù)管理方面的力度,我最終認(rèn)為會(huì)實(shí)現(xiàn)最終的DataFabric:
Data Fabric是一套新興的數(shù)據(jù)管理自服務(wù)方式,通過智能化手段對(duì)企業(yè)的整體數(shù)據(jù)資源、元數(shù)據(jù)、業(yè)務(wù)規(guī)則等實(shí)現(xiàn)自發(fā)現(xiàn)、自分類、自關(guān)聯(lián),并提供手段可以快速異構(gòu)同步/查詢的方式快速完成數(shù)據(jù)獲取和分析,從而實(shí)現(xiàn)企業(yè)數(shù)據(jù)資產(chǎn)全覆蓋和高效的數(shù)據(jù)洞察。
——郭大俠
不止步于數(shù)智化的數(shù)據(jù)治理,
Chat with Your Data最終目標(biāo)!
這就是結(jié)束了么?并不是。我認(rèn)為最終智能化的數(shù)據(jù)治理和DataFabric,Chat with Your Data才是目標(biāo),也就是讓每個(gè)有權(quán)限的員工,直接可以和企業(yè)大模型對(duì)話,從而實(shí)現(xiàn)對(duì)企業(yè)數(shù)據(jù)的訪問和分析。
而這也正在一步一步成為現(xiàn)實(shí),現(xiàn)在的ChatGPT,其實(shí)是互聯(lián)網(wǎng)數(shù)據(jù)通過大量數(shù)據(jù)訓(xùn)練而成,所以你每次和ChatGPT對(duì)話的時(shí)候,你是在和整個(gè)互聯(lián)網(wǎng)對(duì)話。而現(xiàn)在有很多開源工具,可以讓你更簡(jiǎn)單的接入企業(yè)數(shù)據(jù),自己訓(xùn)練自己的大模型。如下圖,我前面的舉例白鯨開源的WhaleLLM的大模型例子就是利用Apache SeaTunnel去獲得多大150多種企業(yè)數(shù)據(jù)庫同步和訪問的權(quán)限,利用Apache DolphinScheduler來訓(xùn)練出來自己的DataFabric大模型。每個(gè)企業(yè)都可以簡(jiǎn)單的使用這些開源大模型生態(tài)來通過比較小的代價(jià)(GPU可以使用4090、A40、V100等)來訓(xùn)練自己的大模型。
當(dāng)然,這些開源大模型的訓(xùn)練生態(tài)還在迭代,還有很多需要進(jìn)一步提高的地方,而DataFabric這個(gè)概念也是和大模型一樣剛開始落地,不過我相信有大模型的助力和DataFabric理念框架的指引,最終在每個(gè)企業(yè)里都可以擁有自己的人工智能大數(shù)據(jù)管理平臺(tái)。
未來幾年,企業(yè)的“數(shù)智化”升級(jí)是離不開大模型的助攻,數(shù)據(jù)治理的“數(shù)智化”升級(jí)只是開始,私有化開源大模型的進(jìn)一步普及會(huì)讓企業(yè)各方面的傳統(tǒng)軟件流程再重新構(gòu)建一次,讓我們拭目以待!
·關(guān)于郭煒
郭煒先生,白鯨開源CEO,畢業(yè)于北京大學(xué),現(xiàn)任中國通信學(xué)會(huì)開源技術(shù)委員會(huì)委員,中國軟件行業(yè)協(xié)會(huì)智能應(yīng)用服務(wù)分會(huì)副主任委員,Apache基金會(huì)成員, Apache孵化器導(dǎo)師,全球中小企業(yè)創(chuàng)業(yè)聯(lián)合會(huì)副會(huì)長,TGO鯤鵬會(huì)北京分會(huì)會(huì)長,ApacheCon Asia DataOps論壇主席,波蘭DataOps峰會(huì)、北美Big Data Day演講嘉賓,虎嘯十年杰出數(shù)字技術(shù)人物,中國開源社區(qū)最佳33人,中國2021年開源杰出人物。
郭煒先生曾任易觀CTO,聯(lián)想研究院大數(shù)據(jù)總監(jiān),萬達(dá)電商數(shù)據(jù)部總經(jīng)理,先后在中金、IBM、Teradata任大數(shù)據(jù)方重要職位,對(duì)大數(shù)據(jù)前沿研究做出卓越貢獻(xiàn)。同時(shí)郭先生參與多個(gè)技術(shù)社區(qū)工作,Presto, Alluxio,Hbase等,是國內(nèi)開源社區(qū)領(lǐng)軍人物。
★以上由郭煒投遞申報(bào)的觀點(diǎn)性文章,最終將會(huì)角逐由數(shù)據(jù)猿與上海大數(shù)據(jù)聯(lián)盟聯(lián)合推出的《2023中國企業(yè)數(shù)智化轉(zhuǎn)型升級(jí)先鋒人物》榜單/獎(jiǎng)項(xiàng)。
該榜單獎(jiǎng)項(xiàng)最終將于11月14日以下活動(dòng)中進(jìn)行榜單的首發(fā)與獎(jiǎng)項(xiàng)的頒發(fā),歡迎報(bào)名蒞臨現(xiàn)場(chǎng)
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
不容錯(cuò)過的資訊
-
1恒生電子金融大模型LightGPT能力全面升級(jí)
-
2京東副總裁高禮強(qiáng)離職;智譜AI完成超25億
-
3蔚來汽車申請(qǐng)自研芯片;OpenAI死磕通用人
-
42023中國智能運(yùn)維領(lǐng)域最具商業(yè)合作價(jià)值企
-
5臨陣換帥!爭(zhēng)搶AI生態(tài)入口,百度在下什么
-
6我國科學(xué)家實(shí)現(xiàn)全被動(dòng)量子密鑰分發(fā);Open
-
7【公益案例展】聯(lián)想集團(tuán)青梅計(jì)劃
-
8StarRocks 年度峰會(huì)來了!現(xiàn)在報(bào)名,與
-
9WMC2023第二屆世界元宇宙大會(huì)圓滿收官
-
10當(dāng)汽車開始“聊天”,這才是無人駕駛的殺
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
