【數(shù)智化人物展】白鯨開源CEO郭煒:大模型時(shí)代下DataOps驅(qū)動(dòng)企業(yè)數(shù)智化升級(jí)
原創(chuàng) 郭煒 | 2024-06-03 19:58
【數(shù)據(jù)猿導(dǎo)讀】 在海外,Salesforce 以110億美金鯨吞傳統(tǒng)DataOps領(lǐng)域廠商Informatica,IBM 23億歐元收購(gòu)StreamSets的母公司以重新打造新一代的DataOps體系,從中我們就可以感受到數(shù)智化升級(jí)的潮流。本文將從DataOps的核心能力、DataOps在大模型時(shí)代的價(jià)值,以及大模型時(shí)代下DataOps的挑戰(zhàn)與機(jī)遇三個(gè)方...

郭煒
本文由白鯨開源CEO郭煒投遞并參與由數(shù)據(jù)猿聯(lián)合上海大數(shù)據(jù)聯(lián)盟共同推出的《2024中國(guó)數(shù)智化轉(zhuǎn)型升級(jí)先鋒人物》榜單/獎(jiǎng)項(xiàng)評(píng)選。
隨著大數(shù)據(jù)、人工智能技術(shù)的飛速發(fā)展,我們已邁入了一個(gè)全新的時(shí)代——大模型時(shí)代。在這個(gè)時(shí)代背景下,企業(yè)提高自身的及時(shí)處理數(shù)據(jù)能力、敏捷開發(fā)能力以及相應(yīng)的數(shù)據(jù)治理能力以應(yīng)對(duì)新環(huán)境的挑戰(zhàn)成為新的熱點(diǎn)。
在海外,Salesforce 以110億美金鯨吞傳統(tǒng)DataOps領(lǐng)域廠商Informatica,IBM 23億歐元收購(gòu)StreamSets的母公司以重新打造新一代的DataOps體系,從中我們就可以感受到數(shù)智化升級(jí)的潮流。本文將從DataOps的核心能力、DataOps在大模型時(shí)代的價(jià)值,以及大模型時(shí)代下DataOps的挑戰(zhàn)與機(jī)遇三個(gè)方面進(jìn)行闡述。
DataOps的核心能力
DataOps作為一套融合了數(shù)據(jù)管理、數(shù)據(jù)開發(fā)和運(yùn)維的實(shí)踐和工具,其核心能力在于能夠高效地集成、處理和分析企業(yè)內(nèi)部各種復(fù)雜場(chǎng)景的數(shù)據(jù),并提供敏捷的開發(fā)功能能力,以支持企業(yè)的數(shù)據(jù)分析和決策制定。在大模型時(shí)代,已經(jīng)出現(xiàn)的新突破和能力要求:
●大模型的Transformer vs 大數(shù)據(jù) Transform
在DataOps領(lǐng)域里,曾經(jīng)流行的ETL(提取、轉(zhuǎn)換、加載)架構(gòu)是很常見(jiàn)的數(shù)據(jù)處理架構(gòu),但是大模型出現(xiàn)后,復(fù)雜的數(shù)據(jù)處理已經(jīng)不是結(jié)構(gòu)化數(shù)據(jù)了,往往是更復(fù)雜的自然語(yǔ)言理解。所以,DataOps的架構(gòu)也從ETL“蛻變成”EtLT架構(gòu),復(fù)雜的數(shù)據(jù)處理交給大模型,而簡(jiǎn)單的數(shù)據(jù)映射和處理由DataOps來(lái)進(jìn)行處理,結(jié)合起來(lái)比較典型的就是《企業(yè)大模型如何成為自己數(shù)據(jù)的“百科全書”》里面提到的例子:使用新一代的DataOps工具白鯨開源的WhaleTunnel,把數(shù)據(jù)庫(kù)當(dāng)中的數(shù)據(jù)做輕量級(jí)的轉(zhuǎn)化(小t),放到數(shù)據(jù)庫(kù)當(dāng)中,然后使用大模型的API做復(fù)雜的轉(zhuǎn)化(大T)的向量數(shù)據(jù)庫(kù)當(dāng)中,然后用戶就可以直接使用自然語(yǔ)言來(lái)查詢過(guò)去圖書當(dāng)中提到的內(nèi)容或者中心思想。
在這個(gè)時(shí)代,DataOps的趨勢(shì)是把重的轉(zhuǎn)化留給了更專業(yè)的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖或者大模型,自己只保留比較輕量級(jí)轉(zhuǎn)化的部分,大模型的Transformer一定是比大數(shù)據(jù)的Transform針對(duì)復(fù)雜的場(chǎng)景更專業(yè)的,未來(lái)DataOps要做的就是做好自己數(shù)據(jù)獲取和復(fù)雜數(shù)據(jù)源支持等這些事情。
●實(shí)時(shí)數(shù)據(jù)獲取與反饋
大模型對(duì)數(shù)據(jù)的實(shí)時(shí)性要求極高,DataOps通過(guò)自動(dòng)化的數(shù)據(jù)集成和處理流程,能夠快速響應(yīng)數(shù)據(jù)變化,為大模型提供即時(shí)的數(shù)據(jù)支持,從而實(shí)現(xiàn)實(shí)時(shí)分析和決策。在這個(gè)場(chǎng)景下,EtLT數(shù)據(jù)處理架構(gòu)逐步替代ETL和ELT架構(gòu)成為主流。
在數(shù)據(jù)倉(cāng)庫(kù)時(shí)代,ETL(提取、轉(zhuǎn)換、加載)架構(gòu)是數(shù)據(jù)處理的主流模式。然而,隨著大數(shù)據(jù)的興起,ELT(提取、加載、轉(zhuǎn)換)架構(gòu)開始受到重視,它允許數(shù)據(jù)首先被加載到數(shù)據(jù)倉(cāng)庫(kù)中,然后再進(jìn)行轉(zhuǎn)換,這在處理大數(shù)據(jù)量時(shí)更為高效。
但隨著數(shù)據(jù)湖和實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)的流行,ELT架構(gòu)的局限性開始顯現(xiàn)。為了解決這些問(wèn)題,EtLT(提取、輕量轉(zhuǎn)換、加載、轉(zhuǎn)換)架構(gòu)應(yīng)運(yùn)而生。EtLT架構(gòu)在提取階段增加了實(shí)時(shí)數(shù)據(jù)獲取和非結(jié)構(gòu)化數(shù)據(jù)的能力,在轉(zhuǎn)換階段增加了輕量級(jí)的數(shù)據(jù)清洗和轉(zhuǎn)換,以適應(yīng)實(shí)時(shí)數(shù)據(jù)處理的需求,同時(shí)目標(biāo)端的加載也增加了對(duì)于大模型、數(shù)據(jù)湖和實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)等新一代數(shù)據(jù)環(huán)境的支持。
總之,EtLT架構(gòu),能夠支持復(fù)雜結(jié)構(gòu)化(數(shù)據(jù)庫(kù),日志,文件)和非結(jié)構(gòu)化(視頻、二進(jìn)制文本、語(yǔ)音)實(shí)時(shí)數(shù)據(jù)抽取和轉(zhuǎn)換,快速響應(yīng)市場(chǎng)變化,為企業(yè)提供即時(shí)的業(yè)務(wù)洞察。
●復(fù)雜數(shù)據(jù)源的支持
隨著大模型和實(shí)時(shí)大數(shù)據(jù)的普及,現(xiàn)代企業(yè)的數(shù)據(jù)源日益多樣化,從大模型、云服務(wù)、SaaS應(yīng)用、本地?cái)?shù)據(jù)庫(kù)Binlog到傳統(tǒng)SAP、CRM系統(tǒng)實(shí)時(shí)API等等。這就要求DataOps在新時(shí)代需要具備強(qiáng)大的數(shù)據(jù)源兼容性,以實(shí)現(xiàn)數(shù)據(jù)的無(wú)縫集成,目前在全球范圍里,美國(guó)的Fivetran和Airbyte、源自中國(guó)開源的Apache SeaTunnel以及其白鯨開源的商業(yè)版WhaleTunnel,都是支持100-200種以上數(shù)據(jù)源的實(shí)時(shí)獲取和批量獲取。而且,支持獲取非結(jié)構(gòu)數(shù)據(jù),例如圖片、語(yǔ)音對(duì)話,或者是數(shù)據(jù)庫(kù)的Binlog,而數(shù)據(jù)集成的目標(biāo),也不是過(guò)去的數(shù)據(jù)庫(kù),而是復(fù)雜的混合云(阿里、華為、本地K8s、AWS),加上大模型API,向量數(shù)據(jù)庫(kù)等新時(shí)代軟件產(chǎn)品。因此,要支持好這些數(shù)據(jù)源,一定也是新一代DataOps產(chǎn)品的基本要求。
DataOps的價(jià)值
在大模型時(shí)代,DataOps的價(jià)值越來(lái)越凸顯,無(wú)論是在技術(shù)架構(gòu)上,還是在成本和靈活性上,都會(huì)幫助企業(yè)快速實(shí)現(xiàn)新一代的邏輯數(shù)據(jù)湖或者大模型數(shù)據(jù)準(zhǔn)備工作。
●成本效益與靈活性
在上述架構(gòu)當(dāng)中,DataOps通過(guò)減少數(shù)據(jù)的重復(fù)存儲(chǔ)和不必要的轉(zhuǎn)換,降低了存儲(chǔ)和計(jì)算成本。同時(shí),它允許數(shù)據(jù)在加載后進(jìn)行二次轉(zhuǎn)換,提供了更高的靈活性和可擴(kuò)展性。
DataOps通過(guò)減少數(shù)據(jù)的重復(fù)存儲(chǔ)和不必要的數(shù)據(jù)轉(zhuǎn)換,降低存儲(chǔ)和計(jì)算成本。同時(shí),類似像白鯨開源的WhaleTunnel這樣的工具,可以利用SQL-Like的腳本和可視化工具進(jìn)行數(shù)據(jù)轉(zhuǎn)換,降低了人員上手難度和人員成本。
同時(shí),DataOps支持?jǐn)?shù)據(jù)在加載到數(shù)據(jù)湖或數(shù)據(jù)倉(cāng)庫(kù)之前進(jìn)行初步轉(zhuǎn)換,然后在需要時(shí)進(jìn)行更深入的分析和二次轉(zhuǎn)換,提供了更高的靈活性和可擴(kuò)展性。
●數(shù)據(jù)質(zhì)量和治理
大模型時(shí)代的DataOps更加注重?cái)?shù)據(jù)的質(zhì)量和治理,通過(guò)在數(shù)據(jù)集成過(guò)程中進(jìn)行初步清洗和轉(zhuǎn)換,提高數(shù)據(jù)質(zhì)量,并在數(shù)據(jù)存儲(chǔ)后進(jìn)行進(jìn)一步的數(shù)據(jù)治理,確保大模型訓(xùn)練和推理的數(shù)據(jù)準(zhǔn)確性和可靠性。
類似像開源免費(fèi)的Apache DolphinScheduler在大數(shù)據(jù)調(diào)度和大模型訓(xùn)練過(guò)程中就可以統(tǒng)計(jì)相關(guān)數(shù)據(jù)質(zhì)量,并可以快速控制下一步的相關(guān)工作,避免浪費(fèi)大模型算力和生成錯(cuò)誤的大模型。
●DataOps的自動(dòng)化與智能化
自動(dòng)化是DataOps的另一大特點(diǎn)。通過(guò)自動(dòng)化的數(shù)據(jù)集成流程,企業(yè)可以減少人工干預(yù),降低錯(cuò)誤率,提高數(shù)據(jù)處理的效率。
同時(shí),智能化的工具和平臺(tái),如機(jī)器學(xué)習(xí)和人工智能算法,可以進(jìn)一步優(yōu)化DataOps流程,實(shí)現(xiàn)更高級(jí)的數(shù)據(jù)管理和分析。
●多云與跨平臺(tái)集成
在多云和混合云環(huán)境日益普及的今天,DataOps需要支持跨云平臺(tái)的數(shù)據(jù)集成。這不僅要求DataOps工具具備高度的靈活性和可擴(kuò)展性,還要求它們能夠適應(yīng)不同云平臺(tái)的特性和接口。
多云和混合云是未來(lái)企業(yè)使用的趨勢(shì),固定業(yè)務(wù)使用IDC機(jī)房降低成本,快速增長(zhǎng)業(yè)務(wù)使用云來(lái)進(jìn)行彈性支撐,加上大模型的云上API或者私有API的支持,DataOPs必須既支持云還支持私有化,這點(diǎn)在開源免費(fèi)的Apache SeaTunnel支持的120種數(shù)據(jù)接口中就可以看到,1/4的接口是云接口,1/5接口是大模型和SaaS接口,其它的是大數(shù)據(jù)和非結(jié)構(gòu)化接口。
當(dāng)然在中國(guó)跨平臺(tái)還有一個(gè)特殊性,那就是信創(chuàng)環(huán)境的支持,這點(diǎn)上白鯨開源的WhaleTunnel支持得更好一些。
DataOps的挑戰(zhàn)與機(jī)遇
挑戰(zhàn)
1. 技術(shù)復(fù)雜性
EtLT架構(gòu)的實(shí)施需要更多的技術(shù)知識(shí)和專業(yè)技能。企業(yè)需要投入相應(yīng)的資源進(jìn)行技術(shù)團(tuán)隊(duì)的培訓(xùn)和建設(shè),以應(yīng)對(duì)技術(shù)復(fù)雜性的挑戰(zhàn)。
2. 依賴目標(biāo)系統(tǒng)的處理能力
EtLT架構(gòu)依賴于目標(biāo)系統(tǒng)的處理能力,對(duì)性能和穩(wěn)定性有較高要求。企業(yè)需要選擇合適的數(shù)據(jù)平臺(tái)和工具,確保系統(tǒng)的高性能和穩(wěn)定性。
3. 管理和監(jiān)控挑戰(zhàn)
DataOps的多階段處理需要更復(fù)雜的管理和監(jiān)控工具。企業(yè)應(yīng)采用先進(jìn)的監(jiān)控和報(bào)警系統(tǒng),確保數(shù)據(jù)流程的穩(wěn)定性和可靠性。
4. 數(shù)據(jù)變更管理復(fù)雜性提高
EtLT架構(gòu)中數(shù)據(jù)轉(zhuǎn)換的分離增加了數(shù)據(jù)變更管理的復(fù)雜性。企業(yè)需要建立有效的數(shù)據(jù)變更管理機(jī)制,以應(yīng)對(duì)源系統(tǒng)變化帶來(lái)的挑戰(zhàn)。
5. 對(duì)工具和平臺(tái)的依賴
EtLT架構(gòu)的實(shí)施通常依賴于先進(jìn)的數(shù)據(jù)處理工具和平臺(tái),如Apache SeaTunnel、Apache Spark、Apache Flink等。企業(yè)需要進(jìn)行額外的投資和集成工作,以實(shí)現(xiàn)DataOps的自動(dòng)化和智能化。
機(jī)遇
1. 數(shù)據(jù)處理能力的增強(qiáng)
大模型的引入,要求DataOps能夠處理更大規(guī)模、更復(fù)雜的數(shù)據(jù)集,以支持模型的訓(xùn)練和推理。
2. 自動(dòng)化治理的興起
隨著數(shù)據(jù)源和實(shí)時(shí)數(shù)據(jù)的增加,傳統(tǒng)的數(shù)據(jù)治理流程已經(jīng)無(wú)法滿足需求,自動(dòng)化治理成為必然趨勢(shì)。
3. 多云集成與ETL一體化
多云集成能力和ETL一體化設(shè)計(jì),是適應(yīng)大模型時(shí)代下數(shù)據(jù)集成需求的關(guān)鍵。
4. DataFabric與數(shù)據(jù)虛擬化
DataFabric和數(shù)據(jù)虛擬化技術(shù),為DataOps提供了新的解決方案,盡管目前仍處于發(fā)展階段,但未來(lái)潛力巨大。
未來(lái)大模型與DataOps的結(jié)合
1. 數(shù)據(jù)集成與大模型的對(duì)接
選擇支持EtLT架構(gòu)的數(shù)據(jù)集成工具,確保能夠處理實(shí)時(shí)數(shù)據(jù)和復(fù)雜數(shù)據(jù)源,直接為大模型提供所需數(shù)據(jù)。工具應(yīng)具備良好的擴(kuò)展性和靈活性,以適應(yīng)大模型不斷變化的數(shù)據(jù)處理需求。
2. 數(shù)據(jù)治理與大模型的協(xié)同
建立嚴(yán)格的數(shù)據(jù)治理框架,確保數(shù)據(jù)的質(zhì)量和一致性,為大模型提供準(zhǔn)確可靠的數(shù)據(jù)輸入。通過(guò)自動(dòng)化的數(shù)據(jù)質(zhì)量檢查和反饋機(jī)制,及時(shí)發(fā)現(xiàn)并糾正數(shù)據(jù)問(wèn)題,優(yōu)化大模型的輸出結(jié)果。
3. 構(gòu)建以大模型為核心的協(xié)作機(jī)制
打破部門壁壘,建立以大模型為核心的數(shù)據(jù)共享和協(xié)作的文化。通過(guò)DataOps平臺(tái),實(shí)現(xiàn)數(shù)據(jù)科學(xué)家、工程師和業(yè)務(wù)分析師之間的無(wú)縫協(xié)作,共同推動(dòng)大模型的創(chuàng)新和應(yīng)用。
4. 大模型的持續(xù)集成和持續(xù)部署(CI/CD)
將數(shù)據(jù)集成流程納入CI/CD管道,實(shí)現(xiàn)數(shù)據(jù)流程的快速迭代和部署。這有助于快速響應(yīng)業(yè)務(wù)需求變化,加速大模型的創(chuàng)新和應(yīng)用。
5. 大模型性能優(yōu)化和成本控制
通過(guò)性能優(yōu)化,確保數(shù)據(jù)處理的速度和效率,滿足大模型對(duì)數(shù)據(jù)實(shí)時(shí)性的需求。同時(shí),通過(guò)合理的資源分配和成本控制,實(shí)現(xiàn)經(jīng)濟(jì)效益的最大化,支持大模型的可持續(xù)發(fā)展。
結(jié)語(yǔ)
隨著技術(shù)的不斷進(jìn)步,DataOps將繼續(xù)演化,以適應(yīng)新的數(shù)據(jù)處理挑戰(zhàn)。多云集成、自動(dòng)化治理、大模型支持等新興趨勢(shì),將進(jìn)一步推動(dòng)DataOps的發(fā)展。同時(shí),新技術(shù)如ZeroETL、DataFabric、數(shù)據(jù)虛擬化等,雖然在某些方面提供了替代方案,但在可預(yù)見(jiàn)的未來(lái),DataOps仍將是企業(yè)數(shù)智化升級(jí)的核心驅(qū)動(dòng)力,特別是在大模型的助力下,DataOps將更加智能化、自動(dòng)化,成為企業(yè)數(shù)字化轉(zhuǎn)型的重要支撐。
在大模型時(shí)代,DataOps不僅是企業(yè)數(shù)智化升級(jí)的重要驅(qū)動(dòng)力,也是企業(yè)保持競(jìng)爭(zhēng)力的關(guān)鍵。企業(yè)需要不斷優(yōu)化和升級(jí)DataOps實(shí)踐,以適應(yīng)不斷變化的技術(shù)環(huán)境和業(yè)務(wù)需求。通過(guò)DataOps,企業(yè)可以更高效地處理和分析數(shù)據(jù),從而實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的決策制定,推動(dòng)企業(yè)的持續(xù)創(chuàng)新和發(fā)展。隨著技術(shù)的不斷進(jìn)步,DataOps也將繼續(xù)演化,以滿足企業(yè)在大模型時(shí)代下的數(shù)智化需求。
·申報(bào)人“郭煒”簡(jiǎn)介:
郭煒,人稱“郭大俠”,白鯨開源CEO,Apache 基金會(huì)成員, Apache DolphinScheduler PMC Member, Apache SeaTunnel Mentor,ClickHouse 中國(guó)開源社區(qū)發(fā)起人和首席布道師。
郭煒先生畢業(yè)于北京大學(xué),現(xiàn)任中國(guó)通信學(xué)會(huì)開源技術(shù)委員會(huì)委員,中國(guó)軟件行業(yè)協(xié)會(huì)智能應(yīng)用服務(wù)分會(huì)副主任委員,全球中小企業(yè)創(chuàng)業(yè)聯(lián)合會(huì)副會(huì)長(zhǎng),TGO鯤鵬會(huì)北京分會(huì)會(huì)長(zhǎng),ApacheCon Asia DataOps論壇主席,全球中小企業(yè)創(chuàng)業(yè)聯(lián)合會(huì)副會(huì)長(zhǎng),人民大學(xué)大數(shù)據(jù)商業(yè)分析研究中心客座研究員。
郭煒曾作為演講嘉賓出席波蘭DataOps峰會(huì)、北美Big Data Day,并被評(píng)為虎嘯十年 杰出數(shù)字技術(shù)人物,中國(guó)開源社區(qū)最佳33人,中國(guó)2021年開源杰出人物。郭煒先生曾任易觀CTO,聯(lián)想研究院大數(shù)據(jù)總監(jiān),萬(wàn)達(dá)電商數(shù)據(jù)部總經(jīng)理,先后在中金、IBM、Teradata任大數(shù)據(jù)方重要職位,對(duì)大數(shù)據(jù)前沿研究做出卓越貢獻(xiàn)。同時(shí)郭先生參與多個(gè)技術(shù)社區(qū)工作,Presto, Alluxio,Hbase等,是國(guó)內(nèi)開源社區(qū)領(lǐng)軍人物。
白鯨開源
白鯨開源是一家開源原生的 DataOps公司,主要運(yùn)營(yíng)2個(gè) Apache 頂級(jí)開源項(xiàng)目(DolphinScheduler和SeaTunnel),提供相應(yīng)的商業(yè)版本解決企業(yè)多數(shù)據(jù)源、多云及信創(chuàng)環(huán)境的數(shù)據(jù)集成、調(diào)度開發(fā)和生產(chǎn)運(yùn)維等問(wèn)題。
★以上由郭煒投遞申報(bào)的觀點(diǎn)性文章,最終將會(huì)角逐由數(shù)據(jù)猿與上海大數(shù)據(jù)聯(lián)盟聯(lián)合推出的《2024中國(guó)數(shù)智化轉(zhuǎn)型升級(jí)先鋒人物》榜單/獎(jiǎng)項(xiàng)。
該榜單最終將于7月24日北京舉辦的“2024企業(yè)數(shù)智化轉(zhuǎn)型升級(jí)發(fā)展論壇——暨AI大模型趨勢(shì)論壇”現(xiàn)場(chǎng)首次揭曉榜單,并舉行頒獎(jiǎng)儀式,歡迎報(bào)名蒞臨現(xiàn)場(chǎng)
來(lái)源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
不容錯(cuò)過(guò)的資訊
-
1《2024中國(guó)AI大模型產(chǎn)業(yè)圖譜1.0版》重磅
-
2《2024中國(guó)數(shù)據(jù)要素產(chǎn)業(yè)圖譜1.0版》重磅
-
3喜訊|預(yù)策科技獲得阿里巴巴前參謀長(zhǎng)曾鳴
-
4CBDT 2024第二屆中國(guó)出海品牌數(shù)字科技峰
-
5中國(guó)石油、中國(guó)移動(dòng)、華為、科大訊飛共建
-
6字節(jié)AI Bot扣子底層已接入通義千問(wèn)、Min
-
7內(nèi)容與出海,熱點(diǎn)創(chuàng)造焦點(diǎn)——2024虎嘯盛
-
8Huasheng Tiancheng officially join
-
9有贊2024春季發(fā)布會(huì):通過(guò)智能化的營(yíng)銷轉(zhuǎn)
-
10百度第一季度營(yíng)收315億元;MiniMax上線海
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
