2025年,沒有數(shù)據(jù)編織的AI公司可能會被淘汰
原創(chuàng) 火焰翼人 | 2024-05-31 21:48
【數(shù)據(jù)猿導讀】 尤其是在當下 AI 應(yīng)用場景在企業(yè)端落地的過程中,需要把企業(yè)本地數(shù)據(jù)組織起來,結(jié)合大模型的能力進行場景智能化。數(shù)據(jù)孤島會很大程度限制企業(yè)本地數(shù)據(jù)知識化的進程,從而制約 AI 場景化落地的進程。

導語
1.越來越多的公司出現(xiàn)數(shù)據(jù)孤島,尤其是AI公司
2.基于數(shù)據(jù)虛擬化,數(shù)據(jù)編織將會為企業(yè)帶來全新的架構(gòu)
3.數(shù)據(jù)編織也是云原生的必經(jīng)之路
4.數(shù)據(jù)編織雖然目前來看存在不足,但今后會成為企業(yè)的infra
在AI呈指數(shù)級發(fā)展的當下,企業(yè)經(jīng)常會忽視一個非常嚴重的問題,那就是數(shù)據(jù)孤島。
數(shù)據(jù)孤島是指在組織內(nèi)部或不同組織之間,由于系統(tǒng)、管理或流程的原因,數(shù)據(jù)被孤立存儲在不同的數(shù)據(jù)庫、應(yīng)用程序或部門中,彼此之間缺乏有效的連接和整合。這種情況導致數(shù)據(jù)難以共享、分析和利用,就像是海洋中的孤島一樣,各自獨立,互不相通。
事實上,就算企業(yè)擁有非常完善的數(shù)據(jù)管理流程,依然會出現(xiàn)數(shù)據(jù)孤島的情況。畢竟在實際作業(yè)中,數(shù)據(jù)的生產(chǎn)以及管理,其實是非常難統(tǒng)一合規(guī)的。
Sinequa在《信息驅(qū)動的合規(guī)性和洞察力報告》(The Information-driven compliance and insight report)中寫到,25%的企業(yè)存在50多個數(shù)據(jù)孤島。數(shù)據(jù)孤島的情況會隨著企業(yè)的信息化程度增加而愈發(fā)嚴重。
在高度發(fā)達的信息技術(shù)公司里,尤其是互聯(lián)網(wǎng)公司、AI公司,40%的企業(yè)存在50多個數(shù)據(jù)孤島。同時隨著時間的發(fā)展,會有越來越多的公司出現(xiàn)數(shù)據(jù)孤島。
數(shù)據(jù)孤島造成的問題是十分嚴重的,尤其是對AI公司,幾乎可以說是“致命傷”。首先,缺乏統(tǒng)一的數(shù)據(jù)管理標準和流程可能導致數(shù)據(jù)不準確、過時或不完整。
而數(shù)據(jù)質(zhì)量問題越難被發(fā)現(xiàn)和糾正,那么基于數(shù)據(jù)的分析和決策就會越不可靠。
傳統(tǒng)上來講,通過數(shù)據(jù)清洗,對數(shù)據(jù)進行去噪、填補缺失值、標準化等手段,可以減緩數(shù)據(jù)孤島的產(chǎn)生。不過在大模型技術(shù)廣泛應(yīng)用的今天,這樣的做法其實幫不上什么忙。
打破數(shù)據(jù)孤島,實現(xiàn)數(shù)據(jù)的統(tǒng)一管理和共享,是一個現(xiàn)在就要去實現(xiàn)的事情。
楓清科技(Fabarta)CEO的高雪峰是這么看待數(shù)據(jù)孤島的,他認為對于 AI 企業(yè)來說,數(shù)據(jù)孤島的影響尤其顯著。
AI 模型的訓練和應(yīng)用需要大量高質(zhì)量、多樣化的數(shù)據(jù)支持。同時,在數(shù)據(jù)工程化的過程中,梳理好數(shù)據(jù)之間的復雜關(guān)系也是非常重要的。而數(shù)據(jù)孤島限制了這些數(shù)據(jù)的獲取和利用,從而影響了 AI 模型的性能和效果。
尤其是在當下 AI 應(yīng)用場景在企業(yè)端落地的過程中,需要把企業(yè)本地數(shù)據(jù)組織起來,結(jié)合大模型的能力進行場景智能化。數(shù)據(jù)孤島會很大程度限制企業(yè)本地數(shù)據(jù)知識化的進程,從而制約 AI 場景化落地的進程。
數(shù)據(jù)編織為何是必須的?
為了解決數(shù)據(jù)孤島問題,此前也有一些相應(yīng)的對策,比如數(shù)據(jù)湖(Data Lake),這是一種集中式存儲庫,設(shè)計用于以原始、未經(jīng)過高度處理的格式存儲大量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)湖的核心理念在于“先存儲,后結(jié)構(gòu)化”,即在數(shù)據(jù)被具體使用或分析之前,不需要預先定義其結(jié)構(gòu)或用途。
不過數(shù)據(jù)湖并不能真正意義上解決數(shù)據(jù)孤島,只是暫緩了數(shù)據(jù)孤島所產(chǎn)生的問題。于是,一種更為有效的方法誕生了,那就是數(shù)據(jù)編織(Data Fabric)。
數(shù)據(jù)編織是一種現(xiàn)代化的架構(gòu)理念,它的核心目標是通過創(chuàng)建一個無縫的數(shù)據(jù)生態(tài)系統(tǒng),解決數(shù)據(jù)孤島問題,加速數(shù)據(jù)的流動,以及確保數(shù)據(jù)的可用性、一致性和安全性。
簡單來講,數(shù)據(jù)編織的邏輯是提供一個抽象層,叫做數(shù)據(jù)虛擬化層。這個層能讓用戶和應(yīng)用程序能夠以一致的方式訪問和操作存儲在不同地理位置、不同系統(tǒng)(如數(shù)據(jù)庫、數(shù)據(jù)湖、數(shù)據(jù)倉庫)中的數(shù)據(jù),而無需關(guān)心底層數(shù)據(jù)的具體存儲位置或格式。
當然,這個數(shù)據(jù)虛擬化層的功能不單單是存儲。它還擁有數(shù)據(jù)治理(Data Governance)的功能,通過監(jiān)測工具,來確保數(shù)據(jù)的準確性、完整性、一致性及時效性。
數(shù)據(jù)虛擬化技術(shù)的一個重要前提就是企業(yè)數(shù)據(jù)的動態(tài)圖譜建設(shè),也稱為主動元數(shù)據(jù)的管理。數(shù)據(jù)編織產(chǎn)品當中的企業(yè)元數(shù)據(jù)知識化能力可以幫助企業(yè)構(gòu)建這張動態(tài)的數(shù)據(jù)資產(chǎn)圖譜。
基于企業(yè)元數(shù)據(jù)圖譜,通過數(shù)據(jù)虛擬化技術(shù),企業(yè)能夠?qū)崿F(xiàn)對多源異構(gòu)數(shù)據(jù)的統(tǒng)一訪問和管理,無需對數(shù)據(jù)進行物理整合。這不僅降低了數(shù)據(jù)管理的復雜性,還提高了數(shù)據(jù)訪問的靈活性和效率,實現(xiàn)了企業(yè)數(shù)據(jù)真正意義上的面向分析和智能化場景的整合。
從楓清科技(Fabarta)的客戶案例來看,有了企業(yè)數(shù)據(jù)的主動元數(shù)據(jù)構(gòu)建的圖譜,數(shù)據(jù)虛擬化技術(shù)才能真正做到企業(yè)數(shù)據(jù)管理架構(gòu)中。高雪峰管這個過程叫做:”從原本的 ‘應(yīng)用’ 追著 ‘數(shù)據(jù)’跑,到‘數(shù)據(jù)’跟隨者‘應(yīng)用’走的轉(zhuǎn)換。“這是企業(yè)新一代數(shù)據(jù)管理與治理的架構(gòu)。
當然在實現(xiàn)的路徑上還有非常多的挑戰(zhàn),構(gòu)建企業(yè)異構(gòu)數(shù)據(jù)的主動元數(shù)據(jù)圖譜就是其中的第一道難關(guān)。
數(shù)據(jù)編織最關(guān)鍵的一環(huán)是,讓數(shù)據(jù)在數(shù)據(jù)虛擬化層上不斷地進行“編排”。根據(jù)業(yè)務(wù)需求、合規(guī)性要求和性能指標,自動將數(shù)據(jù)移動到最適合的位置,優(yōu)化數(shù)據(jù)處理和分析的效率。
“編排”的目的是讓數(shù)據(jù)織網(wǎng)能夠適應(yīng)不斷變化的業(yè)務(wù)需求和IT環(huán)境,確保數(shù)據(jù)策略和流程能夠隨著技術(shù)堆棧的變化而靈活調(diào)整。整個“編排”的過程是自動完成的,這就使得整個數(shù)據(jù)編織的過程無需人工干預。
另外一點,企業(yè)通常會因為不同地區(qū)、業(yè)務(wù),從而使用不同的云服務(wù)商的不同云服務(wù),包括公有云、私有云、混合云。這個時候,數(shù)據(jù)編織另外一大優(yōu)勢就能體現(xiàn)出來了,它無縫集成不同云服務(wù)商,使企業(yè)能夠靈活選擇最合適的云服務(wù),同時保持數(shù)據(jù)的一體化管理。
數(shù)據(jù)編織如何影響企業(yè)收入?
2023年的時候,僅有5%的企業(yè)能提供完整的數(shù)據(jù)編織方案。比如K2view、Denodo、Talend、Inforatica、IBM。而分析公司Gartner認為,數(shù)據(jù)編織在2024年是頂級戰(zhàn)略,將會有25%的數(shù)據(jù)公司能夠提供完整的數(shù)據(jù)編織方案。
數(shù)據(jù)編織也是商業(yè)智能(Business Intelligence)的一種,除了節(jié)省數(shù)據(jù)集成的費用和精力外,數(shù)據(jù)編織還能為企業(yè)提供基于數(shù)據(jù)的洞察力,進而幫助企業(yè)完成符合大模型時代的策略制定。
因為數(shù)據(jù)編織強調(diào)主動的元數(shù)據(jù)管理,這意味著它可以自動發(fā)現(xiàn)、分類和管理數(shù)據(jù)及數(shù)據(jù)之間的關(guān)系,使得數(shù)據(jù)的上下文更為清晰,便于理解和使用。這有助于快速定位到關(guān)鍵數(shù)據(jù),優(yōu)化決策過程。
還有一點,數(shù)據(jù)編織有別于傳統(tǒng)數(shù)據(jù)集成的地方在于,它是動態(tài)的。通過構(gòu)建動態(tài)的數(shù)據(jù)流通網(wǎng)絡(luò),數(shù)據(jù)編織支持實時或近實時的數(shù)據(jù)分析能力,使得企業(yè)能夠迅速響應(yīng)市場變化,及時調(diào)整運營策略。
數(shù)據(jù)編織也是云原生的指南針
除了AI外,云原生(Cloud Native)也是最近興起的技術(shù)體系,旨在充分利用云計算的優(yōu)勢,實現(xiàn)快速迭代、彈性伸縮、持續(xù)交付和DevOps協(xié)同工作。
云原生中有一個概念叫做服務(wù)網(wǎng)格(Service Mesh),它是指在服務(wù)間通信提供了一個用來管理的抽象層,管理服務(wù)間交互的復雜性,如負載均衡、服務(wù)發(fā)現(xiàn)、監(jiān)控和安全控制。
另外,云原生會使用Docker這樣的工具,把應(yīng)用及其依賴通過輕量級容器進行打包,實現(xiàn)應(yīng)用的標準化和隔離性,使得應(yīng)用可以在任何支持容器的平臺上無差異運行。
而在這個容器之中,就需要用到容器編排工具,進而實現(xiàn)應(yīng)用部署、擴展和管理的自動化,提高資源利用率和故障恢復能力。
看到這里就會發(fā)現(xiàn),其實這個概念和數(shù)據(jù)編織是如出一轍的。換句話說,現(xiàn)在部署數(shù)據(jù)編織,就是在為以后全面啟用云原生鋪路。
現(xiàn)階段數(shù)據(jù)編織碰到的問題
雖然數(shù)據(jù)編織聽起來非常美好,不過和其他所有的新技術(shù)一樣,它在當下,也有著這樣那樣的問題。
第一,數(shù)據(jù)編織不單單是一個“數(shù)據(jù)”技術(shù),同時它也是一種”業(yè)務(wù)“技術(shù)。一個好的數(shù)據(jù)編織解決方案是需要對行業(yè)垂直有足夠理解,才能在抽象層上完成數(shù)據(jù)的”編排“。
第二,目前的數(shù)據(jù)編織方案在管理和操作上普遍比較復雜。誠然,這種復雜是雙向的,對于客戶企業(yè)來說,數(shù)據(jù)編織是一個”新玩具“,不熟悉、不精通是很正常的。
然而依然要給數(shù)據(jù)編織服務(wù)商們提個醒,操作越是復雜的方案,其推廣能力就越低。企業(yè)客戶十分需要”一鍵編織“這個按鈕。
第三,由于”編排“正處于起步階段,對一些復雜數(shù)據(jù)的處理能力略顯不足。尤其對于一些AI企業(yè)客戶,經(jīng)常會涉及圖片、音頻等非連續(xù)的數(shù)據(jù)結(jié)構(gòu),這就要求了數(shù)據(jù)編織服務(wù)商所提供的解決方案必須具備”編排“復雜數(shù)據(jù)的能力。
第四,加強數(shù)據(jù)虛擬化的能力。直白地說,數(shù)據(jù)編織整合的異構(gòu)數(shù)據(jù)源越多,對應(yīng)的虛擬化能力就越強。
在數(shù)據(jù)虛擬化層中,應(yīng)該避免預先進行復雜的ETL過程,直接根據(jù)需要動態(tài)查詢和組合數(shù)據(jù),進而加速整個數(shù)據(jù)探索和決策過程。否則沒辦法體現(xiàn)出數(shù)據(jù)編織的動態(tài)能力。
目前來看,AI公司的infra并不包括數(shù)據(jù)編織,但是仍然有許多數(shù)據(jù)管理工具。
不可否認的是,數(shù)據(jù)編織對AI公司的影響深遠且具有變革性,其核心在于通過構(gòu)建一個高度集成、靈活且智能的數(shù)據(jù)生態(tài)系統(tǒng),為AI模型的訓練、優(yōu)化及應(yīng)用部署提供了堅實的基礎(chǔ)。
行業(yè)目前有個共識,數(shù)據(jù)編織將會成為AI企業(yè)的infra(基礎(chǔ)設(shè)施,infrastructure)。
這是因為傳統(tǒng)的數(shù)據(jù)處理架構(gòu)難以有效組織企業(yè)的多源異構(gòu)數(shù)據(jù),以供 AI 使用。而當前,以大模型為代表的人工智能技術(shù)在預訓練或推理過程中,卻都需要結(jié)合企業(yè)數(shù)據(jù),而且是需要經(jīng)過知識化的數(shù)據(jù)。
由此可見,數(shù)據(jù)編織正是一種可以有效將企業(yè)數(shù)據(jù)知識化的數(shù)據(jù)架構(gòu),幫助 AI 更好地利用企業(yè)數(shù)據(jù)。
來源:火焰翼人 數(shù)據(jù)猿
刷新相關(guān)文章
我要評論
不容錯過的資訊
-
1《2024中國數(shù)據(jù)要素產(chǎn)業(yè)圖譜1.0版》重磅
-
2《2024中國AI大模型產(chǎn)業(yè)圖譜1.0版》重磅
-
3喜訊|預策科技獲得阿里巴巴前參謀長曾鳴
-
4CBDT 2024第二屆中國出海品牌數(shù)字科技峰
-
5中國石油、中國移動、華為、科大訊飛共建
-
6字節(jié)AI Bot扣子底層已接入通義千問、Min
-
7《2024中國企業(yè)數(shù)智化轉(zhuǎn)型升級服務(wù)全景圖
-
8Huasheng Tiancheng officially join
-
9Inspur Information released the "
-
10馬斯克計劃推出xAI超級計算機;中國移動
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
