拿什么樣的大數(shù)據(jù)來“喂飽”狂飆的大模型
原創(chuàng) 俊馳 | 2024-01-30 19:51
【數(shù)據(jù)猿導(dǎo)讀】 當(dāng)前,大模型的發(fā)展處于一場充滿無限可能的大變革前夜,而作為核心要素的大數(shù)據(jù)也被賦予了全新的意涵。大模型技術(shù)的出現(xiàn)對(duì)大數(shù)據(jù)而言意味著什么,大數(shù)據(jù)又將如何影響大模型的發(fā)展,這兩者又如何能更好雙向奔赴,帶來新質(zhì)生產(chǎn)力,進(jìn)入2024年又會(huì)出現(xiàn)哪些技術(shù)的引爆點(diǎn)和殺手級(jí)應(yīng)用?

當(dāng)前,大模型的發(fā)展處于一場充滿無限可能的大變革前夜,而作為核心要素的大數(shù)據(jù)也被賦予了全新的意涵。大模型技術(shù)的出現(xiàn)對(duì)大數(shù)據(jù)而言意味著什么,大數(shù)據(jù)又將如何影響大模型的發(fā)展,這兩者又如何能更好雙向奔赴,帶來新質(zhì)生產(chǎn)力,進(jìn)入2024年又會(huì)出現(xiàn)哪些技術(shù)的引爆點(diǎn)和殺手級(jí)應(yīng)用
帶著縈繞在大模型與大數(shù)據(jù)之間的種種問題,在“第六屆金猿季&魔方論壇——大數(shù)據(jù)產(chǎn)業(yè)發(fā)展論壇”上,數(shù)據(jù)猿高級(jí)主筆歐小剛作為圓桌論壇的主持人,與香港科技園公司董事,太平紳士,香港特區(qū)政府?dāng)?shù)字經(jīng)濟(jì)發(fā)展委員會(huì)委員車品覺、是石科技副總經(jīng)理兼CIO侯建業(yè)、矩陣起源創(chuàng)始人兼CEO王龍、鴻翼聯(lián)合創(chuàng)始人兼CTO羅永秀、維音中國副總裁熊偉展開深入討論,群策群力為大模型與大數(shù)據(jù)融合發(fā)展建言獻(xiàn)策。
大數(shù)據(jù)之于大模型,質(zhì)量壓倒一切
盡管大模型的表現(xiàn)足以讓人們驚奇,但不得不承認(rèn)的是,即便是強(qiáng)悍如ChatGPT,也經(jīng)常會(huì)出現(xiàn)一本正經(jīng)胡說八道的情形。大模型的忽智忽愚,深受大數(shù)據(jù)語料的影響,那么我們不禁要問,大數(shù)據(jù)到底如何影響大模型的發(fā)揮呢?
五位嘉賓共同認(rèn)為數(shù)據(jù)的質(zhì)量決定了大模型的質(zhì)量。車品覺認(rèn)為,對(duì)于大模型而言,大數(shù)據(jù)的“大”非萬能。零散的數(shù)據(jù)不如真實(shí)、邏輯性強(qiáng)的數(shù)據(jù)有價(jià)值。而且到了一個(gè)臨界點(diǎn),喂再多零散的語料也不會(huì)對(duì)大模型的推理效果產(chǎn)生更多作用,高質(zhì)量的數(shù)據(jù)可以起到“一語勝千言”之功效。
香港科技園公司董事,太平紳士,香港特區(qū)政府?dāng)?shù)字經(jīng)濟(jì)發(fā)展委員會(huì)委員車品覺
王龍形象地指出,大模型的工作機(jī)制就好像是把一個(gè)高清圖片壓縮成一個(gè)32kb縮略圖,從中找到數(shù)據(jù)排布的規(guī)律,然后按照規(guī)律去生成新的高清圖。在構(gòu)建大模型的過程中,大數(shù)據(jù)集的質(zhì)量直接決定了模型的性能和預(yù)測準(zhǔn)確度。構(gòu)建一個(gè)實(shí)時(shí)、精準(zhǔn)的閉環(huán)鏈路,使得數(shù)據(jù)的采集、處理、訓(xùn)練形成無縫銜接,是推動(dòng)大模型發(fā)展的關(guān)鍵環(huán)節(jié)。
如果只是在“實(shí)驗(yàn)室”,數(shù)據(jù)質(zhì)量的好壞可能只是影響模型效果的高低,無非是80分還是60分的區(qū)別。但在商業(yè)應(yīng)用領(lǐng)域,只有可用和不可用這兩種選項(xiàng)。
羅永秀表示:“大模型為智能文檔管理帶來的推動(dòng)作用是不言而喻的。大模型剛一面世,鴻翼就嘗試把將其運(yùn)用在我們的ECM智能內(nèi)容管理產(chǎn)品當(dāng)中,但由于它對(duì)文檔數(shù)據(jù)的收集、整理、分析和應(yīng)用是一個(gè)持續(xù)且動(dòng)態(tài)的優(yōu)化過程,因此很難形成統(tǒng)一、標(biāo)準(zhǔn)的產(chǎn)品。而在知識(shí)管理領(lǐng)域,大模型則如魚得水,進(jìn)展飛速。這是因?yàn)橹R(shí)管理蘊(yùn)含了最嚴(yán)謹(jǐn)、邏輯性最強(qiáng)的知識(shí),比如說產(chǎn)品操作手冊(cè),工藝的制作標(biāo)準(zhǔn)等直接決定企業(yè)經(jīng)營生產(chǎn)的內(nèi)容,對(duì)精準(zhǔn)度要求極高,而且具備一定的組織規(guī)范?;跇?gòu)建在行業(yè)知識(shí)庫基礎(chǔ)上的數(shù)據(jù)集,不管是進(jìn)行向量化處理,還是高精度的微調(diào),企業(yè)一旦接入大模型,必定為生產(chǎn)效率帶來大幅度的提升。”
鴻翼聯(lián)合創(chuàng)始人兼CTO羅永秀
結(jié)合實(shí)際應(yīng)用,熊偉認(rèn)為:“大模型是語言模型,人類的語言體系比較完整和系統(tǒng),能夠?yàn)榇竽P吞峁┳銐虺鋵?shí)的語料,因此大模型在理解和生成人類語言方面具有天然優(yōu)勢(shì)。我們所從事的客戶服務(wù)領(lǐng)域是一站式、跨地域、多語言的,大模型能夠幫助我們與全世界多個(gè)國家無障礙交流,充當(dāng)智能助手的角色。”
當(dāng)然,我們也必須清晰地指出,強(qiáng)調(diào)大數(shù)據(jù)“質(zhì)”的重要性,并非是否定“量”的作用,大數(shù)據(jù)的質(zhì)與量并非是對(duì)立的關(guān)系,兩者相輔相成,更龐大的數(shù)據(jù)量與更高的數(shù)據(jù)質(zhì)量,共同決定了模型的質(zhì)量和性能。
大模型為大數(shù)據(jù)帶來新內(nèi)涵
過去十年間,互聯(lián)網(wǎng)的快速發(fā)展為大模型的崛起奠定了數(shù)據(jù)基礎(chǔ),沉淀下來一批極為有價(jià)值的數(shù)據(jù)資產(chǎn)。在過去要進(jìn)行有效的數(shù)據(jù)挖掘,不僅要付出巨大的專家成本, 還需要?dú)v經(jīng)數(shù)據(jù)釆集、大數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)記等一系列煩瑣的程序,導(dǎo)致大量的數(shù)據(jù)無法發(fā)揮其價(jià)值,成為了“沉睡的金礦”。大模型的出現(xiàn)為大數(shù)據(jù)帶來了全新的氣象,同時(shí)也對(duì)數(shù)據(jù)庫、數(shù)據(jù)平臺(tái)等數(shù)據(jù)基礎(chǔ)設(shè)施提出了新的要求和考驗(yàn)。
侯建業(yè)指出,“在大模型誕生以前,需要處理100T或者PB級(jí)數(shù)據(jù)的場景應(yīng)用很少,只有類似于氣象,生物醫(yī)藥的科研項(xiàng)目才需要如此龐大的數(shù)據(jù)量。而大模型則讓巨量數(shù)據(jù)的分析應(yīng)用飛入了尋常百姓家,幾乎所有行業(yè)都可以用。很多從事大模型研發(fā)的企業(yè),動(dòng)輒就是千億百億的參數(shù)規(guī)模。在上一個(gè)信息化發(fā)展階段,產(chǎn)業(yè)界嘴邊常掛著的是帶寬、訪問量、存儲(chǔ)量這樣的詞匯,而在新的發(fā)展階段,模型、算力、顯卡則成為了熱點(diǎn)話題,這是一個(gè)新時(shí)代的韻腳。”
是石科技副總經(jīng)理兼CIO侯建業(yè)
大模型就像一個(gè)通過新工藝改進(jìn)的鉆井平臺(tái),能夠?qū)⒙癫卦诘氐赘钐幍纳顚邮吞綔y出來。大數(shù)據(jù)作為數(shù)字時(shí)代的生產(chǎn)要素,它有著不同于封建時(shí)代和工業(yè)時(shí)代生產(chǎn)要素的特性,大數(shù)據(jù)可以復(fù)用,可以無限再生。大模型技術(shù)的廣泛應(yīng)用將衍生出天量的全新數(shù)據(jù)。
“現(xiàn)在很多短視頻,文本都是大模型生成的。大模型的廣泛應(yīng)用對(duì)企業(yè)數(shù)據(jù)量帶來了巨大的增加,可以說大模型是大數(shù)據(jù)的大腦。此前散落在企業(yè)不同部門間的文件和各類數(shù)據(jù)類資產(chǎn),都會(huì)因?yàn)榇竽P偷某霈F(xiàn)而重見天日,價(jià)值再現(xiàn)。”羅永秀如是說。
大模型既能分析大數(shù)據(jù),又能生成大數(shù)據(jù),這些生成的大數(shù)據(jù)都是前一秒這個(gè)世界所沒有的,我們要怎么看待這些由大模型創(chuàng)造出來的“前所未有”的數(shù)據(jù)呢?
王龍認(rèn)為,大模型是個(gè)概率系統(tǒng),目前寫新聞稿還勉強(qiáng)可用,但是寫一份公司的財(cái)務(wù)報(bào)告,大模型可能10000條內(nèi)容都是對(duì)的,只有一條是錯(cuò)的,而且糟糕的是,用戶也不知道那一條錯(cuò)的在哪里,什么時(shí)候會(huì)出錯(cuò),在這種情況下企業(yè)就不敢把這件事全部交給大模型來辦。確保大模型輸出的信息真實(shí)、準(zhǔn)確是當(dāng)前非常重要的問題。隨著大模型在各個(gè)領(lǐng)域的廣泛應(yīng)用,其輸出的信息直接關(guān)系到?jīng)Q策的準(zhǔn)確性和社會(huì)的穩(wěn)定運(yùn)行。
矩陣起源創(chuàng)始人兼CEO王龍
熊偉指出,訓(xùn)練大模型意味著投入海量的數(shù)據(jù),如何在保障隱私的基礎(chǔ)上釋放數(shù)據(jù)的價(jià)值,對(duì)于各行各業(yè)的企業(yè)來說都將是一個(gè)重要挑戰(zhàn)。隨著AIGC應(yīng)用越發(fā)廣泛而深入,通過模型訓(xùn)練優(yōu)化、安全加密技術(shù)升級(jí)和合規(guī)監(jiān)管體系的逐步完善,數(shù)據(jù)的安全性和隱私性將會(huì)得到很大的提升。
維音中國副總裁熊偉
有分析家指出,每一次科技革命大致都要經(jīng)歷兩個(gè)時(shí)期:前二三十年為導(dǎo)入期,在此期間,大量基礎(chǔ)設(shè)施和關(guān)鍵產(chǎn)業(yè)日漸形成并逐步得到完善,它們?cè)谟龅脚f范式抵抗的同時(shí),也被新的范式所沖垮和顛覆;后二三十年為展開期。前期積累的結(jié)構(gòu)性矛盾在制度框架調(diào)整下得以舒緩,科技革命帶來的變革力量逐漸擴(kuò)散到整個(gè)經(jīng)濟(jì)社會(huì)之中,使經(jīng)濟(jì)增長重新進(jìn)入可持續(xù)增長模式。
帶著人們無限期待大模型進(jìn)入了2024年,嘉賓們對(duì)于新一年大模型的發(fā)展都表達(dá)出積極的態(tài)度。羅永秀認(rèn)為,在整個(gè)經(jīng)濟(jì)發(fā)展增速放緩的背景下,企業(yè)經(jīng)營將更加重視降本增效,企業(yè)可能會(huì)裁員減少各項(xiàng)支出,但是對(duì)于數(shù)據(jù)資產(chǎn)管理和知識(shí)管理的投入將會(huì)是增加的。王龍則更加樂觀,他認(rèn)為:“在大模型的上游和下游都有很多機(jī)會(huì),上游的機(jī)會(huì)來自大模型訓(xùn)練、推理等基礎(chǔ)設(shè)施環(huán)節(jié);下游的機(jī)會(huì)則來自應(yīng)用層,比如多模態(tài)的內(nèi)容生成。我相信,未來20年的微軟和今日頭條可能就在24年誕生。”
AI copilot、AI agent、AI PC等多個(gè)大模型的技術(shù)分支正在朝著各自的方向奮力進(jìn)發(fā),引爆點(diǎn)、殺手級(jí)應(yīng)用也許會(huì)以人們意想不到的方式在一夕之間驚艷世人。大模型與大數(shù)據(jù)就像量子糾纏一樣,加速向產(chǎn)業(yè)交匯,更推動(dòng)數(shù)據(jù)科學(xué)走向新紀(jì)元。這種融合為我們打開了通往更深層次洞察和智能決策的大門,引領(lǐng)著數(shù)據(jù)科學(xué)的全新時(shí)代。
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
不容錯(cuò)過的資訊
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
