【金猿人物展】香港科技園公司董事車品覺:大數(shù)據(jù)揭示了大語言模型的特征與趨勢(shì)
車品覺 | 2023-12-20 18:50
【數(shù)據(jù)猿導(dǎo)讀】 本文由香港科技園公司董事車品覺撰寫并投遞參與“數(shù)據(jù)猿年度金猿策劃活動(dòng)——2023大數(shù)據(jù)產(chǎn)業(yè)年度趨勢(shì)人物榜單及獎(jiǎng)項(xiàng)”評(píng)選。

2023年正好是大數(shù)據(jù)發(fā)展至今的第十三年,過程中大數(shù)據(jù)的發(fā)展深深地塑造了大型AI模型的進(jìn)步與應(yīng)用,如深度學(xué)習(xí)和機(jī)器學(xué)習(xí)模型。隨著大數(shù)據(jù)資源及技術(shù)的普及與可訪問性的提升,大規(guī)模模型訓(xùn)練已不再是天方夜談。在大數(shù)據(jù)時(shí)代前,海量數(shù)據(jù)的收集和存儲(chǔ)是一項(xiàng)巨大挑戰(zhàn),這限制了大規(guī)模模型訓(xùn)練的可能性。記得在大數(shù)據(jù)時(shí)代的初期,算力及穩(wěn)定性是行家們都很疼苦的經(jīng)歷,但隨著云計(jì)算平臺(tái)及數(shù)據(jù)分析技術(shù)的提升,使得我們現(xiàn)在能夠處理和分析以往無法處理的非結(jié)構(gòu)性數(shù)據(jù)(例如文章、影像等),從而后來可以訓(xùn)練出更復(fù)雜的大語言模型,回頭看來這都是隨著技術(shù)的逐步迭代自然發(fā)展的路徑。
前阿里巴巴首席參謀長(zhǎng)最近在一個(gè)演講“下一個(gè)十年”里提到,“語言讓我們可以溝通,語言的背后天然就蘊(yùn)含著人類的智慧,而且人類海量的知識(shí),1萬年左右的知識(shí),基本上都被最近二十年的IT通過文字、音頻、視頻給沉淀下來了。所以,你掌握了文字,掌握了語言,基本上就破解了人類到今天為止“所有”的“知識(shí)”。
這段話正好也幫助我更確定大語言模型的明線是類似GPT的智能產(chǎn)品,但暗線是把人類的思想邏輯數(shù)據(jù)化,通過對(duì)大量的語料上下文的分析,形成龐大的向量數(shù)據(jù)厙(另一種大數(shù)據(jù))。這個(gè)超級(jí)數(shù)據(jù)厙可以幫助人類開發(fā)聊天機(jī)械人, 但同時(shí)也可以作為大數(shù)據(jù)的底層,因此向量數(shù)據(jù)厙的可能性還有待開發(fā)。需然大模型的發(fā)展還在起步階段,但如果把過去大數(shù)據(jù)的Volume(體量)、Velocity(速度)、Variety(多樣性)和Veracity(真實(shí)性)作為框架。不難發(fā)現(xiàn)4V特性同時(shí)也在大型語言模型(Large Language Models,簡(jiǎn)稱LLM)中得到體現(xiàn),也許會(huì)對(duì)未來的大語言大模型有所啟發(fā)。
1、Volume(體量):
大數(shù)據(jù)和LLM都需要處理大量數(shù)據(jù),這是一項(xiàng)巨大的挑戰(zhàn),但也是模型實(shí)現(xiàn)深入的洞察并展現(xiàn)有意義結(jié)果的關(guān)鍵。如OpenAI的GPT,通過大量數(shù)據(jù)訓(xùn)練,讓模型理解和學(xué)習(xí)從大量文本中獲得的復(fù)雜信息,從而生成連貫、相關(guān)和有深度的文本。這需要投入巨大的資源,數(shù)據(jù)處理的成本,不僅包括存儲(chǔ)和處理這些數(shù)據(jù)的硬體和軟件成本,還包括獲取、清洗、管理和保護(hù)數(shù)據(jù)的人力成本。同時(shí),對(duì)數(shù)據(jù)的安全和隱私保護(hù)投入也是處理大數(shù)據(jù)和LLM的重要成本組成。組織需要確保他們的數(shù)據(jù)存儲(chǔ)和處理方式符合各種隱私法規(guī),這需要在安全技術(shù)和專業(yè)人員等方面進(jìn)行投入,以防止數(shù)據(jù)泄露和濫用。因此,大數(shù)據(jù)和LLM之間的一個(gè)重要的共通點(diǎn)是,它們都需要投資大量的資源來處理海量數(shù)據(jù)。當(dāng)然更值得我們深刻思考的是,數(shù)據(jù)量真是越大越好嗎?還是也會(huì)出現(xiàn)邊際效應(yīng)
2、Velocity(速度):
處理速度在大數(shù)據(jù)和LLM中都起著至關(guān)重要的作用。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)以前所未有的速度產(chǎn)生和流動(dòng),需要在短時(shí)間內(nèi)獲取、存儲(chǔ)、處理和分析這些數(shù)據(jù)。比如,實(shí)時(shí)交易系統(tǒng)、社交媒體監(jiān)控、在線推薦引擎等場(chǎng)景都需要快速處理龐大的數(shù)據(jù)。正如LLM也需要能夠快速處理和理解輸入的文本數(shù)據(jù)。這是因?yàn)?,用戶期望能在短時(shí)間內(nèi)得到模型的答案,以滿足用戶的實(shí)時(shí)需要。但追求速度的背后,伴隨著的是高昂的成本,追求投資回報(bào)平衡是技術(shù)得到普及的重要因素。
3、Variety(多樣性):
數(shù)據(jù)的多樣性是大數(shù)據(jù)和LLM的另一個(gè)核心特性。大數(shù)據(jù)來自多種不同的來源,包括結(jié)構(gòu)化數(shù)據(jù)(如數(shù)據(jù)庫中的表格數(shù)據(jù))和非結(jié)構(gòu)化數(shù)據(jù)(如社交媒體上的文本數(shù)據(jù))。處理和分析不同類型的數(shù)據(jù),可以讓我們從多個(gè)角度理解一個(gè)問題,從而獲得更全面的洞悉。LLM也需要處理和理解多種類型的文本數(shù)據(jù),包括新聞文章、社交媒體帖子、科學(xué)論文等。通過在這些不同類型的文本上進(jìn)行訓(xùn)練,模型可以學(xué)習(xí)到各種語言模式和知識(shí),從而使得LLM能夠處理各種語義情境和上下文關(guān)系。它們可以從多個(gè)角度理解一個(gè)問題,提供更全面和準(zhǔn)確的結(jié)果。然而,處理這種多樣性的數(shù)據(jù)也是一項(xiàng)挑戰(zhàn),由于數(shù)據(jù)的來源和類型的不同,數(shù)據(jù)質(zhì)量和準(zhǔn)確性也可能存在差異。因此,數(shù)據(jù)清洗和驗(yàn)證也是處理這種多樣性數(shù)據(jù)的一個(gè)重要環(huán)節(jié)。那么大模型是否會(huì)像大數(shù)據(jù)一樣,需要有很多小模型作為連接點(diǎn),從而產(chǎn)出價(jià)值
4、Veracity(真實(shí)性):
大數(shù)據(jù)的價(jià)值在很大程度上取決于數(shù)據(jù)的質(zhì)量。如果數(shù)據(jù)包含錯(cuò)誤、重復(fù)或者過時(shí)的信息,那么基于這些數(shù)據(jù)的分析和決策就會(huì)出現(xiàn)偏差。因此,數(shù)據(jù)清洗(也稱為數(shù)據(jù)清理或數(shù)據(jù)修正)是大數(shù)據(jù)分析的一個(gè)重要步驟。這包括找出和修正數(shù)據(jù)中的錯(cuò)誤,刪除重復(fù)的數(shù)據(jù),以及處理缺失的數(shù)據(jù)。同樣,LLM的表現(xiàn)也取決于其訓(xùn)練數(shù)據(jù)的質(zhì)量。模型是通過從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)來生成文本,因此如果訓(xùn)練數(shù)據(jù)包含錯(cuò)誤或誤導(dǎo)性的信息,那么模型可能會(huì)生成不準(zhǔn)確或誤導(dǎo)性的文本。進(jìn)而,對(duì)訓(xùn)練數(shù)據(jù)的清洗和驗(yàn)證也非常重要的。這可能包括刪除錯(cuò)誤或不相關(guān)的文本,以及確保數(shù)據(jù)的代表性和公正性。但因?yàn)槎嘣串悩?gòu)的關(guān)系,數(shù)據(jù)質(zhì)量是無法通過像處理小數(shù)據(jù)一樣的模式進(jìn)行清洗及驗(yàn)證,使用的時(shí)候要格外小心及進(jìn)行多方驗(yàn)證,甚至僅可以作為大方向的指引,或者與傳統(tǒng)分析方法混合使用。
然而在大數(shù)據(jù)和LLM的監(jiān)管上存在一些區(qū)別。這些區(qū)別主要源于兩種技術(shù)的使用方式,以及它們所引發(fā)的潛在問題。雖然大數(shù)據(jù)和LLM都涉及數(shù)據(jù)隱私和安全問題,但重點(diǎn)可能有所不同。對(duì)于大數(shù)據(jù),監(jiān)管主要關(guān)注的收集、存儲(chǔ)和使用數(shù)據(jù)過程中數(shù)據(jù)的安全保護(hù)和隱私泄露風(fēng)險(xiǎn)。對(duì)于LLM,雖然亦需要關(guān)注訓(xùn)練過程中數(shù)據(jù)安全及隱私泄露風(fēng)險(xiǎn),但更重要的是如何確保模型生成的文本,即模型輸出的結(jié)果不會(huì)泄露敏感信息,例如,如果模型在訓(xùn)練過程中接觸到了某些敏感信息,那么它可能會(huì)在生成文本時(shí)泄露這些信息。另一方面,大數(shù)據(jù)和LLM都需要提高模型的透明度和可解釋性,但挑戰(zhàn)來源有所不同。對(duì)于大數(shù)據(jù),監(jiān)管主要關(guān)注如何理解和解釋數(shù)據(jù)分析的結(jié)果。對(duì)于LLM,監(jiān)管可能更加關(guān)注如何理解和解釋模型的決策過程,例如,如果模型做出了一個(gè)重要的決策,那么人們需要能夠理解和解釋這個(gè)決策是如何做出的。
那么以上的觀點(diǎn)對(duì)于大語言模型有什么啟發(fā)?
毋庸置疑LLM具有巨大的潛力,可以提高生產(chǎn)力,甚至幫助獲取新的知識(shí)和技能。我們需要在創(chuàng)新與效率之間找到平衡。早期階段,大數(shù)據(jù)經(jīng)常被描述為一種“炒作”,原因是人們過度夸大了大數(shù)據(jù)的潛力,而對(duì)于其實(shí)施的復(fù)雜性和挑戰(zhàn)性理解不足。同一道理,現(xiàn)在有些人也把LLM描述為一種“幻覺”(Hallucination), 原因可能在大家對(duì)LLM的能力有過高的期望,過分夸大其在理解和生成復(fù)雜語言結(jié)構(gòu)上的能力,而忽略了它仍然依賴大量的數(shù)據(jù)訓(xùn)練,而且在一些復(fù)雜的語義理解和推理任務(wù)上可能仍然表現(xiàn)不佳。
如果我們把2023年作為L(zhǎng)LM的元年,那么我相信2024年將會(huì)是LLM落地很關(guān)鍵的一年。大家開始會(huì)更關(guān)注它的實(shí)際價(jià)值而非一時(shí)的沖動(dòng),企業(yè)會(huì)發(fā)現(xiàn)使用成本其實(shí)不低,衍生出來的問題也難以控制。相比于大數(shù)據(jù),大語言模型的透明度及可解釋性更低。這意味著大語言模型的穩(wěn)定性將是它需求全面爆發(fā)之前,大家必須面對(duì)的困難。因此2024年我們可能會(huì)見到各式各樣的技術(shù)解決方案,甚至替代品。建議企業(yè)可以多觀察一段時(shí)間,才確定投入的力度和方向亦未為晚。
·關(guān)于車品覺:
太平紳士;香港致公協(xié)會(huì)成員;香港科技園公司董事;香港特區(qū)政府?dāng)?shù)字經(jīng)濟(jì)發(fā)展委員會(huì)委員。
車品覺先生擁有十多年豐富的數(shù)據(jù)實(shí)戰(zhàn)經(jīng)驗(yàn),并在實(shí)踐中形成了獨(dú)特的數(shù)據(jù)化思考及管理方式。他親自領(lǐng)導(dǎo)阿里數(shù)據(jù)團(tuán)隊(duì)在大數(shù)據(jù)實(shí)踐領(lǐng)域取得了一系列重要成果,包括為阿里建立集團(tuán)各事業(yè)群的業(yè)務(wù)及決策分析框架,開發(fā)智能化的數(shù)據(jù)產(chǎn)品,成立了驅(qū)動(dòng)集團(tuán)數(shù)據(jù)化的營運(yùn)團(tuán)隊(duì),成功發(fā)起了公共與數(shù)據(jù)資產(chǎn)管理體系,還發(fā)布了數(shù)據(jù)安全規(guī)范等。
車先生2010年8月加入阿里巴巴,曾任阿里巴巴集團(tuán)副總裁兼首任數(shù)據(jù)委員會(huì)會(huì)長(zhǎng)。2014年在任職阿里期間領(lǐng)導(dǎo)阿里數(shù)據(jù)團(tuán)隊(duì)獲得Top CIO評(píng)選為中國最佳信息化團(tuán)隊(duì),2017年被國家信息中心選為中國十大最具影響力大數(shù)據(jù)企業(yè)家。2018年,榮獲“中囯大數(shù)據(jù)科技領(lǐng)軍人獎(jiǎng)”。2016年加入紅杉中國基金,曾任紅杉中國基金的專家合伙人,在紅杉期間,對(duì)多家投資企業(yè)進(jìn)行經(jīng)營分析的指導(dǎo),數(shù)據(jù)平臺(tái)建設(shè)的技術(shù)指導(dǎo)和幫助企業(yè)解決大數(shù)據(jù)上的問題。著有:暢銷書《決戰(zhàn)大數(shù)據(jù)》、《數(shù)據(jù)的本質(zhì)》及《數(shù)循環(huán)》。并譯有《數(shù)據(jù)驅(qū)動(dòng)的智能城市》。
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
不容錯(cuò)過的資訊
-
1以大數(shù)據(jù)和AI技術(shù)賦能商業(yè)智能決策,數(shù)據(jù)
-
2第二屆商業(yè)銀行CIO戰(zhàn)略大會(huì)將于2024年1月
-
3容聯(lián)云發(fā)布“容犀智能”:生成式應(yīng)用容犀
-
4Gemini偷師文心一言?這一局,百度給中國
-
5對(duì)話平頭哥: 突破SSD主控芯片,觸發(fā)新
-
6【金猿投融展】琢學(xué)科技——發(fā)揚(yáng)數(shù)據(jù)工匠
-
7第四屆國際科創(chuàng)節(jié)暨2023數(shù)服會(huì)在京舉行,
-
8馬斯克回應(yīng)Grok抄ChatGPT作業(yè);甲骨文第
-
9第四屆保險(xiǎn)數(shù)字化發(fā)展大會(huì)于12月7-8日在
-
10智加科技將分拆中國團(tuán)隊(duì)至滿幫;T3出行聯(lián)
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
