以數(shù)據(jù)編織,重構(gòu)數(shù)據(jù)管理新范式
原創(chuàng) 俊馳 | 2024-07-11 19:42
【數(shù)據(jù)猿導(dǎo)讀】 在這樣的背景下,亞馬遜云科技解決方案架構(gòu)師許曉亮、深圳市伊登軟件有限公司CTO孫軍遠(yuǎn)、丹諾德軟件渠道銷售總監(jiān)張博,與數(shù)據(jù)猿聯(lián)合創(chuàng)始人兼主編張艷飛進(jìn)行了一場對話,暢談“以數(shù)據(jù)編織,重構(gòu)數(shù)據(jù)管理新范式”,從不同視角解析數(shù)據(jù)編織對產(chǎn)業(yè)的變革。

人工智能幾乎統(tǒng)一了全球最頂尖科技公司的認(rèn)知:這個時代,除了AI,沒有第二條路可走。
人工智能的技術(shù)邏輯頗有一種“暴力美學(xué)”,它依托于海量大數(shù)據(jù)和超高算力的訓(xùn)練和推理,進(jìn)而實現(xiàn)智能分析、“智慧涌現(xiàn)”。但在實際應(yīng)用中,創(chuàng)造一個智能模型的過程并不美妙,整個過程涉及到數(shù)據(jù)處理、模型搭建、模型訓(xùn)練、測試以及最終部署等多個繁瑣的環(huán)節(jié),往往要大量數(shù)據(jù)分析、算法等方面技術(shù)人員的高度手工參與,業(yè)界一直流傳著有多少“人工”,就有多少“智能”的說法。
而在諸多的環(huán)節(jié)中,數(shù)據(jù)處理是較為麻煩的,大約6-7成的時間成本都花費在了數(shù)據(jù)處理環(huán)節(jié)。數(shù)據(jù)、算力和算法是人工智能這座偉岸大廈的三根支柱?,F(xiàn)在談到人工智能,讓人興奮的多是算力和算法的進(jìn)步;讓人沮喪的多是數(shù)據(jù)相關(guān)的問題,比如數(shù)據(jù)管理、合規(guī)安全,精準(zhǔn)性等。
毫不夸張的說,人工智能發(fā)展遇到的挑戰(zhàn),一半可能都與數(shù)據(jù)處理相關(guān)。正如同我們難以想象沒有石油革命的工業(yè)革命,沒有數(shù)據(jù)革命的AI革命可能也將舉步維艱。在這樣的背景下,作為數(shù)據(jù)管理的全新技術(shù)理念--數(shù)據(jù)編織,開始走進(jìn)了人們的視線之中。
在這樣的背景下,亞馬遜云科技解決方案架構(gòu)師許曉亮、深圳市伊登軟件有限公司CTO孫軍遠(yuǎn)、丹諾德軟件渠道銷售總監(jiān)張博,與數(shù)據(jù)猿聯(lián)合創(chuàng)始人兼主編張艷飛進(jìn)行了一場對話,暢談“以數(shù)據(jù)編織,重構(gòu)數(shù)據(jù)管理新范式”,從不同視角解析數(shù)據(jù)編織對產(chǎn)業(yè)的變革。
為什么是數(shù)據(jù)編織?
數(shù)據(jù)編織是什么?為什么會在近幾年異軍突起,受到業(yè)界的廣泛關(guān)注?
張博認(rèn)為:“數(shù)據(jù)編織不是一種產(chǎn)品而是一種治理理念,或者說是一種數(shù)據(jù)架構(gòu)、治理理念和落地軟件的結(jié)合體。”
數(shù)據(jù)編織能提供自動編織、動態(tài)集成的能力,兼容各種數(shù)據(jù)集成方式,實現(xiàn)對數(shù)據(jù)的統(tǒng)一化、集約化、合規(guī)化管理。同時,數(shù)據(jù)編織還有一個核心能力,就是“數(shù)據(jù)虛擬化”。數(shù)據(jù)虛擬化是指建立一個虛擬層來實時連接數(shù)據(jù),虛擬層記錄了數(shù)據(jù)的關(guān)鍵要素,將數(shù)據(jù)實現(xiàn)虛擬化,這樣無需像數(shù)據(jù)倉庫那般物理地復(fù)制、移動數(shù)據(jù)。
張博形象地指出,我們可以把數(shù)據(jù)編織理解成一個網(wǎng)狀結(jié)構(gòu),這張網(wǎng)是由不同數(shù)據(jù)源的點構(gòu)成的。而點與點之間的連接,不是通過一個實際存在的物理管道實現(xiàn)的。數(shù)據(jù)編織提供了一種虛擬連接的方式,也正是這種虛擬的連接,不需要格式或者標(biāo)準(zhǔn)的統(tǒng)一,每個節(jié)點可以來自不同系統(tǒng),不同系統(tǒng)間的數(shù)據(jù)在這張網(wǎng)上都可以被迅速定位和發(fā)現(xiàn)。。從技術(shù)邏輯的角度看,數(shù)據(jù)編織改變了傳統(tǒng)的數(shù)據(jù)管理模式,能夠把正確的數(shù)據(jù),在精準(zhǔn)的時間,傳遞給正確的人,把傳統(tǒng)模式下的人找數(shù)據(jù)變成了數(shù)據(jù)找人。
數(shù)據(jù)編織技術(shù)的出現(xiàn)不是偶然。大約十幾年前,互聯(lián)網(wǎng)上流傳著這樣一種說法:軟件正在吞噬一切。以現(xiàn)在的形勢來看,這句話可以改寫成:數(shù)據(jù)正在吞噬一切。人工智能時代,數(shù)據(jù)就像我們的呼吸一樣,每個人每一秒無不在產(chǎn)出大量數(shù)據(jù),哪怕我們只是躺在家里什么都不做,在這個時代這也是一種有一定價值的數(shù)據(jù),更不要說諸如線上購物、金融交易、交通出行、瀏覽短視頻等各種“強數(shù)據(jù)相關(guān)”行為了。
這些源源不絕而又無處不在的數(shù)據(jù),使得企業(yè)數(shù)據(jù)管理的環(huán)境變得越來越復(fù)雜。來自企業(yè)內(nèi)外部的多源頭數(shù)據(jù)、結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),實時的和批量化的數(shù)據(jù),而且這些數(shù)據(jù)還可能分散在不同系統(tǒng),多云環(huán)境中。數(shù)據(jù)的復(fù)雜化、多樣化、規(guī)?;忍卣髑八从?,對于企業(yè)管理能力和使用能力提出了巨大的挑戰(zhàn)。
一直以來,面對日益復(fù)雜的數(shù)據(jù)問題,產(chǎn)業(yè)界不斷地尋找各種解決方案。數(shù)據(jù)編織技術(shù)路線的出現(xiàn)會帶來新的曙光嗎?真正落實到產(chǎn)業(yè),數(shù)據(jù)編織能為數(shù)據(jù)處理帶來哪些變化呢??從國內(nèi)市場上首批嘗鮮者的反饋來看,數(shù)據(jù)編織的能力主要體現(xiàn)在三個層面:降本增效,多源異構(gòu)數(shù)據(jù)的集成和強大的擴展性。
降本增效
數(shù)據(jù)編織能夠減少一部分?jǐn)?shù)據(jù)物理集成的工作,降低一些不必要的開銷和成本。同時也加快了數(shù)據(jù)到價值之間的進(jìn)程,縮短數(shù)據(jù)價值實現(xiàn)的時間。
張博表示:“我們把模型運行在數(shù)據(jù)編織的框架下,在三年之內(nèi),整體的投資效益會提升300%~500%。一年之內(nèi),數(shù)據(jù)集成的工作量和耗時都會減少到原來的1/3,在業(yè)務(wù)端的降本增效是立竿見影的。”
多源異構(gòu)數(shù)據(jù)的集成
很多企業(yè)的數(shù)據(jù)要在終端、應(yīng)用、云上、數(shù)據(jù)中心之間流動和運轉(zhuǎn),這些數(shù)據(jù)可能存在于ERP系統(tǒng)、CRM系統(tǒng)或人力資源系統(tǒng)。這些數(shù)據(jù)也可能是非結(jié)構(gòu)化數(shù)據(jù),如音頻、視頻、PDF或者報表等。面對這種多源異構(gòu)的數(shù)據(jù),數(shù)據(jù)編織可以通過虛擬連接的方式,自由連接各種數(shù)據(jù)源,還可以從公共數(shù)據(jù)(如社交媒體)等外部系統(tǒng)中提取數(shù)據(jù),高效實現(xiàn)多源異構(gòu)的數(shù)據(jù)集成。
高擴展性
隨著業(yè)務(wù)的快速增長,企業(yè)數(shù)據(jù)量必將隨之增長。這意味著ETL作業(yè)數(shù)量將會大幅增加,然而一家企業(yè)的工程師是有限的,工程師的工作量也是有限的,靠著人力永遠(yuǎn)追不上飛速增長的數(shù)據(jù)處理工作需求。
孫軍遠(yuǎn)表示,在現(xiàn)實條件下,企業(yè)擴展業(yè)務(wù)要妥協(xié)于當(dāng)前的應(yīng)用系統(tǒng)及架構(gòu),因為企業(yè)不可能把原來的數(shù)據(jù)倉庫或者大數(shù)據(jù)系統(tǒng)給推倒重來,或者重復(fù)建設(shè)。而通過ETL的方式進(jìn)行拓展成本將不堪重負(fù),我們可以用數(shù)據(jù)編織來改善這一現(xiàn)狀。
數(shù)據(jù)編織超越了傳統(tǒng)的ETL技術(shù)邏輯。ETL側(cè)重于數(shù)據(jù)的抽取和轉(zhuǎn)換,數(shù)據(jù)編織則側(cè)重多元數(shù)據(jù)資產(chǎn)的融合,強調(diào)自動化的集成和智能數(shù)據(jù)編排。
孫軍遠(yuǎn)形象地指出,基于數(shù)據(jù)編織,企業(yè)就好像站在山頂上俯瞰山腳下的各個樓宇,每個樓宇就像一個數(shù)據(jù)的原始系統(tǒng),站在山頂?shù)钠髽I(yè)能把所有樓宇盡收眼底,站在頂樓構(gòu)建整個邏輯視圖,為不同的應(yīng)用人員、決策人員或者數(shù)據(jù)科學(xué)家,通過訪問控制的方式,構(gòu)建他們專屬的業(yè)務(wù)視圖,進(jìn)而再去建立起樓宇之間的一系列關(guān)系。
“在不影響原有系統(tǒng)的同時,數(shù)據(jù)編織能夠集成各種各樣的數(shù)據(jù)源。還能基于現(xiàn)有的湖倉一體化架構(gòu)構(gòu)建未來的業(yè)務(wù)視圖,像應(yīng)用視圖、決策視圖、分析視圖等,為企業(yè)未來業(yè)務(wù)的擴展帶來非常大的想象空間。
我認(rèn)為從技術(shù)理念的視角來看,數(shù)據(jù)編織是對ETL的取代,但從實際應(yīng)用的角度來看,兩者實際上是互相補償?shù)年P(guān)系。”孫軍遠(yuǎn)說。
生于多云、服務(wù)于多云
當(dāng)前,多云、混合云已經(jīng)是大勢所趨。任何上了規(guī)模的企業(yè)可能都是類似的布局:一部分業(yè)務(wù)數(shù)據(jù)放在亞馬遜云上、一部分放在微軟云上、一部分放在阿里云上、還有一部分放在自建的本地云上。
許曉亮認(rèn)為:“在合規(guī)的基礎(chǔ)上,我建議企業(yè)盡可能把數(shù)據(jù)放到云上。事實上,越核心的數(shù)據(jù)數(shù)據(jù)量反倒越不大,比如關(guān)系型數(shù)據(jù),這些數(shù)據(jù)可以存儲在本地。大部分的行為數(shù)據(jù),單條數(shù)據(jù)的價值都很低,但這些數(shù)據(jù)具有規(guī)模效應(yīng),規(guī)模上來后價值就會浮現(xiàn)出來。這些數(shù)量巨大但暫時沒有價值的數(shù)據(jù),要找一個成本低、性能穩(wěn)定、吞吐量大的地方存起來,公有云就是天然之選。”
在日益興起的混合云和多云環(huán)境中,這些彼此孤立,但又互相關(guān)聯(lián)的數(shù)據(jù)散落在不同環(huán)境中。企業(yè)必須找到能高效實現(xiàn)數(shù)據(jù)價值化,促進(jìn)業(yè)務(wù)轉(zhuǎn)型的關(guān)鍵工具。
數(shù)據(jù)編織能夠在所有環(huán)境(包括混合云和多云平臺、本地平臺)中設(shè)計、部署和利用數(shù)據(jù)??梢哉f,數(shù)據(jù)編織生于多云環(huán)境,也服務(wù)于多云環(huán)境。在傳統(tǒng)模式下,無論是數(shù)據(jù)倉庫還是數(shù)據(jù)湖技術(shù),都需要把數(shù)據(jù)匯總到一起進(jìn)行分析。但在多云時代,要想將分布在不同云上的數(shù)據(jù)集中在一起不僅成本奇高,而且工程量巨大。而通過數(shù)據(jù)編織,無需數(shù)據(jù)的集中處理就可以實現(xiàn)價值的釋放。
張博舉了一個例子,一個澳大利亞的礦業(yè)公司,在亞太、美洲、歐洲都建有數(shù)據(jù)中心。數(shù)據(jù)中心中存儲了大量的非交易型、非關(guān)鍵數(shù)據(jù),比如環(huán)保相關(guān)的數(shù)據(jù)。由于企業(yè)擔(dān)心在各國當(dāng)?shù)厥艿江h(huán)保處罰,需要這些數(shù)據(jù)實現(xiàn)全球洞察,實現(xiàn)環(huán)保合規(guī)經(jīng)營。
在這樣的數(shù)據(jù)架構(gòu)下,丹諾德聯(lián)合亞馬遜云科技為這家礦業(yè)公司搭建了公有云和私有云系統(tǒng),幫助其實現(xiàn)全球性的數(shù)據(jù)洞察。
張博說道,“在安全合規(guī)的約束下,企業(yè)不可能把全量數(shù)據(jù)都分享出來,它只會對我們開放一些訪問權(quán)限。這個時候,數(shù)據(jù)編織的價值就體現(xiàn)出來了。通過數(shù)據(jù)編織,數(shù)據(jù)依然留在本地,我們將數(shù)據(jù)價值從全球不同的地方提取出來,匯總到分析師。這樣既滿足了客戶本身的數(shù)據(jù)合規(guī)要求,同時也幫助他實現(xiàn)了業(yè)務(wù)的訴求。”
大模型與數(shù)據(jù)編織,互相成就和需要
如開頭所言,數(shù)據(jù)處理是人工智能發(fā)展的重要一環(huán),而數(shù)據(jù)編織同樣與人工智能緊密相關(guān)。一方面,數(shù)據(jù)編織的誕生就是為了促進(jìn)人工智能的發(fā)展。另一方面,人工智能也能促進(jìn)數(shù)據(jù)編織技術(shù)的完善。兩者之間互相影響、彼此成就,其中一方的技術(shù)進(jìn)步,也勢必將帶來另一方的變化。當(dāng)下大模型時代正撲面而來,這將為數(shù)據(jù)編織帶來哪些變化?
許曉亮表示,原來傳統(tǒng)數(shù)據(jù)庫的迭代周期大約是三年,但是進(jìn)入大模型時代,迭代周期可能要以月為單位了。大模型帶來了多模態(tài)場景,也帶來了多模態(tài)數(shù)據(jù),這對于數(shù)據(jù)編織而言有了絕佳的用武之地,同時大模型的自身發(fā)展也產(chǎn)生了多模態(tài)數(shù)據(jù)的處理需求。在大模型時代,數(shù)據(jù)編織將會扮演重要角色。
孫軍遠(yuǎn)指出:“我們在企業(yè)內(nèi)部構(gòu)建了自己的垂直大模型,但即使這樣,也沒有辦法直接跟大數(shù)據(jù)系統(tǒng)或者相關(guān)的各個數(shù)據(jù)庫系統(tǒng)直接進(jìn)行互聯(lián)。因為大模型需要構(gòu)建一個上下文字段的關(guān)系描述,以及一系列業(yè)務(wù)的定義,需要像數(shù)據(jù)編織這樣的技術(shù)進(jìn)行完善。”
張博表示:“毋庸置疑,大模型是大勢所趨,但其實有時候機會反而藏在小趨勢里,小趨勢跟自身業(yè)務(wù)息息相關(guān)。比如今天所談到的數(shù)據(jù)編織的概念,在這種小的趨勢里反而更能快速找到大趨勢的突破口。”
值得一提的是,數(shù)據(jù)編織作為一種新興的數(shù)據(jù)管理理念,在國內(nèi)市場仍處于起步階段,能否編織起千絲萬縷的數(shù)字世界,仍待時間和市場的檢驗。
來源:數(shù)據(jù)猿