【數(shù)智化人物展】天云數(shù)據(jù)CEO雷濤:大模型連接數(shù)據(jù)庫(kù) 為數(shù)智化提供高價(jià)值數(shù)據(jù)
原創(chuàng) 雷濤 | 2024-07-06 12:03
【數(shù)據(jù)猿導(dǎo)讀】 本文由天云數(shù)據(jù)CEO雷濤投遞并參與由數(shù)據(jù)猿聯(lián)合上海大數(shù)據(jù)聯(lián)盟共同推出的《2024中國(guó)數(shù)智化轉(zhuǎn)型升級(jí)先鋒人物》榜單/獎(jiǎng)項(xiàng)評(píng)選。

雷濤
本文由天云數(shù)據(jù)CEO雷濤投遞并參與由數(shù)據(jù)猿聯(lián)合上海大數(shù)據(jù)聯(lián)盟共同推出的《2024中國(guó)數(shù)智化轉(zhuǎn)型升級(jí)先鋒人物》榜單/獎(jiǎng)項(xiàng)評(píng)選。
這幾天,奧特曼講SQL數(shù)據(jù)庫(kù)和大模型結(jié)合起來(lái)會(huì)產(chǎn)生什么樣的化學(xué)變化引起行業(yè)關(guān)注。為什么大模型要接數(shù)據(jù)庫(kù)?
大模型訓(xùn)練通常需要大量的數(shù)據(jù)。這些數(shù)據(jù)往往存儲(chǔ)在各種數(shù)據(jù)庫(kù)中。數(shù)據(jù)庫(kù)提供了結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)源,供大模型在訓(xùn)練過(guò)程中使用。數(shù)據(jù)庫(kù)系統(tǒng)能夠高效地存儲(chǔ)、檢索和管理大量數(shù)據(jù),使得大模型能夠從中獲取所需的信息。例如,訓(xùn)練語(yǔ)言模型時(shí),數(shù)據(jù)庫(kù)可以存儲(chǔ)大規(guī)模的文本數(shù)據(jù),方便模型進(jìn)行訪問(wèn)和處理。
要實(shí)現(xiàn)數(shù)智化,大模型需要連接價(jià)值密度最高、邏輯性強(qiáng)、動(dòng)態(tài)且鮮活的數(shù)據(jù),這些數(shù)據(jù)都跟生產(chǎn)經(jīng)營(yíng)的交易相關(guān),比如股票信息、金融賬戶、醫(yī)院里掛號(hào)信息,我們知道這些數(shù)據(jù)都不在靜態(tài)的文檔、文獻(xiàn)或報(bào)告里,而是在數(shù)據(jù)庫(kù)里。但是目前大模型所依賴的數(shù)據(jù)資源局限于靜態(tài)文獻(xiàn)中的知識(shí),這在一定程度上限制了其對(duì)于高價(jià)值數(shù)據(jù)的全面獲取,尤其是那些存儲(chǔ)在客戶私域中的寶貴數(shù)據(jù)。目前普遍采用的RAG技術(shù)將信息檢索和生成兩個(gè)階段結(jié)合起來(lái),通過(guò)檢索數(shù)據(jù)庫(kù)中的相關(guān)信息來(lái)輔助生成過(guò)程,解決大模型數(shù)據(jù)滯后帶來(lái)的幻覺(jué)問(wèn)題,提高生成內(nèi)容的質(zhì)量。
此外,大模型每走一步都觀察人類反饋,朝著人類期望的方向迭代。通過(guò)條件概率找到最清晰的意圖,大幅提升了結(jié)果的準(zhǔn)確性。因此大模型學(xué)習(xí)了人類的語(yǔ)言及說(shuō)話方式以后,它還要了解人類的商業(yè)邏輯,對(duì)數(shù)據(jù)庫(kù)的數(shù)據(jù)做知識(shí)的封裝,進(jìn)一步服務(wù)數(shù)智化。
那么,大模型如何為數(shù)智化提供高價(jià)值的數(shù)據(jù)?
這就需要對(duì)數(shù)據(jù)庫(kù)里的數(shù)據(jù)做快速的服務(wù)和封裝。大模型對(duì)數(shù)據(jù)庫(kù)里的數(shù)據(jù)做服務(wù)和封裝并不僅僅是一個(gè)NL2SQL自然語(yǔ)言轉(zhuǎn)換的問(wèn)題,也不是直接從已經(jīng)寫(xiě)好的SQL里去檢索出答案。那我們?nèi)绾蚊嫦騽?dòng)態(tài)的彈性的業(yè)務(wù)邏輯,從動(dòng)態(tài)的生成類SQL邏輯從數(shù)據(jù)庫(kù)中拿到準(zhǔn)確的結(jié)果。
要實(shí)現(xiàn)這個(gè)目標(biāo),需要應(yīng)對(duì)幾個(gè)挑戰(zhàn):
1、如何把模糊的意圖理解token語(yǔ)句轉(zhuǎn)變成精確的SQL?
很多人都嘗試使用各種國(guó)內(nèi)外大模型編寫(xiě) SQL,但生成的SQL大多無(wú)法直接運(yùn)行成功,所以市場(chǎng)上形成了大模型總在一本正經(jīng)的胡說(shuō)八道的認(rèn)知。不少人放棄并恢復(fù)到手動(dòng)編寫(xiě)SQL的方式。我們用100個(gè)場(chǎng)景做了實(shí)驗(yàn),目前最好的大模型真正能夠直接生成可以運(yùn)行且結(jié)果準(zhǔn)確的SQL只有3%左右,得出的結(jié)論是目前大模型僅僅只能做分析師的副駕駛。
既然要盯到一個(gè)強(qiáng)邏輯的體系,光靠RAG肯定不夠,增加向量索引也只是把邏輯結(jié)果就已經(jīng)做好SQL的表的結(jié)果反饋出來(lái),但它不能夠動(dòng)態(tài)地生成彈性的業(yè)務(wù)邏輯。那么怎么能夠動(dòng)態(tài)地生成業(yè)務(wù)邏輯,天云數(shù)據(jù)進(jìn)一步通過(guò)基于表的Schema、相關(guān)的實(shí)例SQL、業(yè)務(wù)邏輯上下文相關(guān)示例,通過(guò)上下文邏輯的方式進(jìn)行優(yōu)化準(zhǔn)確率大幅提升。可以使模糊的意圖經(jīng)過(guò)多個(gè)上下文的提醒做到了精準(zhǔn)的SQL的轉(zhuǎn)換。
2、組織數(shù)據(jù)需要數(shù)據(jù)編織才能快速地把基于意圖的數(shù)據(jù)在底層表達(dá)出來(lái)。
僅僅通過(guò)上下文邏輯實(shí)現(xiàn)精準(zhǔn)SQL優(yōu)化還不夠,還需要數(shù)據(jù)編織技術(shù)進(jìn)一步加強(qiáng)。用傳統(tǒng)的主數(shù)據(jù)管理,強(qiáng)邏輯性的內(nèi)容是不能夠適應(yīng)動(dòng)態(tài)的token意圖表達(dá)的,因此數(shù)據(jù)編織是一個(gè)非常核心的內(nèi)容。多種不同類型的數(shù)據(jù)源共同編織到一起,在編織之上定義數(shù)據(jù)產(chǎn)品。數(shù)據(jù)產(chǎn)品是一組業(yè)務(wù)的表達(dá),它是一個(gè)虛擬物化視圖,與傳統(tǒng)物化視圖不同,他們儲(chǔ)在緩存中,并能夠動(dòng)態(tài)更新。在數(shù)據(jù)產(chǎn)品之上,我們通過(guò)算法可以動(dòng)態(tài)為數(shù)據(jù)產(chǎn)品自行打標(biāo)簽,這個(gè)標(biāo)簽,是從數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)中提取的多個(gè)標(biāo)簽,實(shí)時(shí)動(dòng)態(tài)的標(biāo)簽可以為大模型的提供更加實(shí)時(shí)、豐富的上下文,使意圖理解更加精確。數(shù)據(jù)編織使數(shù)據(jù)不局限于一個(gè)業(yè)務(wù)系統(tǒng),也不用關(guān)心底層的存儲(chǔ),無(wú)論Mysql、Oracle還是國(guó)產(chǎn)數(shù)據(jù)庫(kù)都可以納入一套SQL邏輯來(lái)管理。
3、大模型連數(shù)據(jù)庫(kù)是強(qiáng)高并發(fā)任務(wù),底層HTAP數(shù)據(jù)庫(kù)是最佳選項(xiàng)。
數(shù)據(jù)倉(cāng)庫(kù)里的批處理操作演變成了高并發(fā)的交互性、實(shí)時(shí)性內(nèi)容。所以這底層的數(shù)據(jù)庫(kù)不是一個(gè)簡(jiǎn)單的NewSQL就能完成的而是需要HTAP這樣的同時(shí)擁有TP的高并發(fā)能力、AP的海量數(shù)據(jù)快速響應(yīng)能力。
數(shù)據(jù)倉(cāng)庫(kù)發(fā)展了這么多年,技術(shù)上大多以大規(guī)模并行處理(MPP)、內(nèi)存計(jì)算、列式存儲(chǔ)為核心,也就是離線數(shù)倉(cāng)互聯(lián)網(wǎng)化后的替代方案。但是比較大的實(shí)時(shí)表進(jìn)來(lái)以后,數(shù)據(jù)倉(cāng)庫(kù)無(wú)法支撐,必須得放到一個(gè)大的庫(kù)里來(lái)做實(shí)時(shí)。當(dāng)然,另一種技術(shù)路線是,采用存算一體,或者可以像Facebook一樣,采用存算分離架構(gòu)。以金融行業(yè)數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)化為例,如果要對(duì)傳統(tǒng)數(shù)倉(cāng)進(jìn)行實(shí)時(shí)化升級(jí),會(huì)分兩部分工作,那就是在數(shù)據(jù)入口和出口端分別做改造。以權(quán)益類服務(wù)為例,之前的用戶積分都是隔夜算,用戶可能幾個(gè)月后到商場(chǎng)拿積分去兌換一份商品,后端只需要做一次離線服務(wù),就可以了。但是現(xiàn)在服務(wù)變了,用戶刷完卡,到底是給一張電影票,還是一個(gè)電動(dòng)牙刷?這是個(gè)性化服務(wù),必須實(shí)時(shí)計(jì)算,并且要嵌套在整個(gè)服務(wù)場(chǎng)景里。這時(shí),入口端就可以采用類似于Flink這樣的架構(gòu),但是很快又發(fā)現(xiàn),銀行的一個(gè)核心業(yè)務(wù)就有上千張表,很難用一個(gè)簡(jiǎn)單的 Flink 架構(gòu)支撐傳統(tǒng)的大型銀行系統(tǒng),所以MPP +Hadoop這種奇葩的架構(gòu)才會(huì)出現(xiàn),而基于新興技術(shù)的HTAP,則對(duì)MPP +Hadoop這種架構(gòu)徹底做了一個(gè)洗牌。對(duì)于銀行業(yè)務(wù)場(chǎng)景來(lái)說(shuō),一個(gè)用戶身份會(huì)涉及到卡片、賬戶、人三層結(jié)構(gòu),而核實(shí)一個(gè)用戶的建權(quán)和授權(quán),就要通過(guò)三張這個(gè)幾千萬(wàn)、上億記錄的表結(jié)構(gòu)完成,很難通過(guò)單表的形式拉寬表來(lái)操作。而HTAP在銀行業(yè)務(wù)互聯(lián)網(wǎng)場(chǎng)景里,或者說(shuō)在傳統(tǒng)信息化向產(chǎn)業(yè)互聯(lián)網(wǎng)升級(jí)過(guò)程中,就表現(xiàn)出獨(dú)特優(yōu)勢(shì),既滿足了MPP 的特性,又能覆蓋掉Hadoop能力。
通過(guò)以上三點(diǎn),實(shí)現(xiàn)大模型為數(shù)智化提供高價(jià)值的數(shù)據(jù)。
大模型連接數(shù)據(jù)庫(kù)的連接,能更快地推動(dòng)行業(yè)數(shù)智化,但廠商必須同時(shí)要做數(shù)據(jù)庫(kù)和機(jī)器學(xué)習(xí)才能干這種事兒?,F(xiàn)在市場(chǎng)上出現(xiàn)了很多同時(shí)做數(shù)據(jù)庫(kù)和AI的公司,Databricks是其中的代表。Databricks基于Spark從批處理開(kāi)始向下做湖倉(cāng)一體向上延伸至AI。天云數(shù)據(jù)同時(shí)做數(shù)據(jù)庫(kù)和AI是因?yàn)?0年前在云基地時(shí),我就發(fā)現(xiàn)了數(shù)據(jù)供給側(cè)和消費(fèi)側(cè)最小閉環(huán)的存在。當(dāng)時(shí)運(yùn)營(yíng)商的內(nèi)容平臺(tái)項(xiàng)目需要做動(dòng)漫、游戲、音樂(lè)小說(shuō)的客戶畫(huà)像分解,傳統(tǒng)的Oracle數(shù)據(jù)庫(kù)無(wú)法支撐億級(jí)用戶帶來(lái)的海量上網(wǎng)日志,數(shù)據(jù)供給側(cè)升級(jí),轉(zhuǎn)而用HBase等分布式開(kāi)源組件處理。而數(shù)據(jù)消費(fèi)側(cè)也不是SQL、可視化、報(bào)表、表盤等,而是升級(jí)為機(jī)器學(xué)習(xí)(ML)等新興的數(shù)據(jù)處理方法。當(dāng)看到數(shù)據(jù)的供給和消費(fèi)升級(jí),我便帶著團(tuán)隊(duì)從云基地出來(lái)創(chuàng)立天云數(shù)據(jù)完成最小級(jí)閉環(huán)時(shí),自然而然會(huì)做供給側(cè)的數(shù)據(jù)庫(kù)和消費(fèi)側(cè)的AI兩條產(chǎn)品線,我們是市場(chǎng)上最早同時(shí)做數(shù)據(jù)庫(kù)和機(jī)器學(xué)習(xí)賽道的。
為什么OpenAI要收購(gòu)Rockset?近期,OpenAI花了5億美元(約36億人民幣)收購(gòu)了企業(yè)搜索和分析初創(chuàng)公司Rockset。數(shù)據(jù)庫(kù)作為企業(yè)級(jí)數(shù)據(jù)價(jià)值密度最高的基礎(chǔ)設(shè)施,它是生成式智能繞不開(kāi)的技術(shù)壁壘,所以O(shè)penAI才會(huì)打破自己的收購(gòu)記錄購(gòu)買高并發(fā)的混合搜索產(chǎn)品。但是企業(yè)級(jí)數(shù)據(jù)庫(kù)的賽道并不僅僅要解決IO問(wèn)題,更要解決數(shù)據(jù)編織的存算分離、物化視圖、虛擬數(shù)倉(cāng)、聯(lián)邦計(jì)算等一系列業(yè)務(wù)邏輯的技術(shù)實(shí)踐才能夠支撐大語(yǔ)言模型更為Native的人機(jī)交互邏輯對(duì)數(shù)據(jù)的服務(wù)方法。這些都需要科創(chuàng)公司就緒全棧AI的能力,尤其是LLM之上的AI Infra,沒(méi)有所謂秘方和捷徑。
·申報(bào)人“雷濤”簡(jiǎn)介:
博士后工作站企業(yè)導(dǎo)師,中關(guān)村高聚人才,兩度CAAI人工智能獎(jiǎng)項(xiàng)“吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)”獲得者,智能投研技術(shù)聯(lián)盟(ITL)“高級(jí)技術(shù)顧問(wèn)”,北京科技協(xié)理事;新華社媒體融合生產(chǎn)與技術(shù)系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室特約研究員
天云大數(shù)據(jù)
獲取機(jī)器智能像讀書(shū)一樣簡(jiǎn)單
★以上由雷濤投遞申報(bào)的觀點(diǎn)性文章,最終將會(huì)角逐由數(shù)據(jù)猿與上海大數(shù)據(jù)聯(lián)盟聯(lián)合推出的《2024中國(guó)數(shù)智化轉(zhuǎn)型升級(jí)先鋒人物》榜單/獎(jiǎng)項(xiàng)。
該榜單最終將于7月24日北京舉辦的“2024企業(yè)數(shù)智化轉(zhuǎn)型升級(jí)發(fā)展論壇——暨AI大模型趨勢(shì)論壇”現(xiàn)場(chǎng)首次揭曉榜單,并舉行頒獎(jiǎng)儀式,歡迎報(bào)名蒞臨現(xiàn)場(chǎng)
來(lái)源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
不容錯(cuò)過(guò)的資訊
-
1現(xiàn)場(chǎng)Live震撼!OmAgent框架強(qiáng)勢(shì)開(kāi)源!行
-
2打造“懂你的AI助手”,訊飛星火V4.0首
-
3AI+數(shù)據(jù)管理 | 英方軟件精彩亮相WAIC
-
4WAIC特別專訪|金山辦公章慶元:大模型正
-
5WAIC特別專訪|達(dá)觀數(shù)據(jù)陳運(yùn)文:垂直大模
-
6特色活動(dòng)|WAIC 2024人工智能頂尖出版物
-
7論壇預(yù)告|人工智能+低空經(jīng)濟(jì)產(chǎn)業(yè)創(chuàng)新論
-
8【公益案例展】AI暖“凍”——商湯AI智能
-
9論壇預(yù)告|聯(lián)合國(guó)AI for Good峰會(huì)首次
-
10論壇預(yù)告 | 立即報(bào)名WAIC啟明創(chuàng)投·創(chuàng)
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
