論壇預(yù)告|探尋AI可持續(xù)發(fā)展的“燃料” “語料筑基,智生時代”語料主題論壇邀您參與
WAIC | 2024-06-24 11:10
【數(shù)據(jù)猿導(dǎo)讀】 論壇預(yù)告|探尋AI可持續(xù)發(fā)展的“燃料” “語料筑基,智生時代”語料主題論壇邀您參與

原文鏈接:https://mp.weixin.qq.com/s/2O_rq3kvrD6Pff8d3UkEZg
在電影《黑客帝國》中,人類被想象為“生物電池”,機器從人類身體所產(chǎn)生的熱量和電力中獲取能量。這種設(shè)定雖然夸張,但引發(fā)了人們對于虛擬現(xiàn)實與現(xiàn)實世界之間的界限,以及自由意志等問題的思考。
電影中的“生物電池”概念也引出了一個有趣的現(xiàn)代對比:隨著人工智能的發(fā)展,人們在某種程度上開始“為AI打工”。在大型文本生成項目中,如OpenAI的GPT系列,高性能的AI模型對高質(zhì)量語料的需求巨大。因此,為了訓(xùn)練這些AI,人們需要創(chuàng)造和整理大量的高質(zhì)量文本數(shù)據(jù)。這個過程看似為減少人類的勞動而設(shè)計,實際上卻讓人類在某種程度上成了AI的“做題家”,即持續(xù)提供用于訓(xùn)練AI的數(shù)據(jù)。雖然這種情況和電影中的設(shè)定不同,但也呈現(xiàn)了一種新的依賴關(guān)系:人類的智力產(chǎn)物直接支持著人工智能的發(fā)展和優(yōu)化。
WAIC 2024密切關(guān)注語料數(shù)據(jù)的發(fā)展。為深入探討語料數(shù)據(jù)的策略、實踐與挑戰(zhàn),大模型語料數(shù)據(jù)聯(lián)盟、上海庫帕思科技有限公司、上海市數(shù)商協(xié)會、上海市人工智能行業(yè)協(xié)會將聯(lián)合舉辦“語料筑基,智生時代”數(shù)據(jù)主題論壇,為與會者提供深入洞察。
論壇時間:7月6日 9:30-12:30
論壇地點:上海世博中心金廳A
語料枯竭成為發(fā)展人工智能的障礙
語料庫是訓(xùn)練AI模型的“食糧”,其質(zhì)量直接決定了模型的性能和應(yīng)用的廣泛性。在全球范圍內(nèi),從學(xué)術(shù)研究到商業(yè)應(yīng)用,人工智能的發(fā)展都嚴重依賴于大量高質(zhì)量、多樣化且公正的數(shù)據(jù),這些數(shù)據(jù)是訓(xùn)練精確、可靠和公正的AI系統(tǒng)的基礎(chǔ)。
然而,由于采集限制、成本、維護等多種原因,高質(zhì)量語料短缺正在成為全球人工智能研發(fā)中普遍存在的一個國際性難題,且短期內(nèi)無法通過單純加大資金投入解決。
導(dǎo)致高質(zhì)量語料短缺的原因有以下幾種:首先,數(shù)據(jù)的采集往往受限于版權(quán)、隱私保護法規(guī)以及數(shù)據(jù)來源的限制,導(dǎo)致無法廣泛地收集到多樣的數(shù)據(jù)樣本。此外,數(shù)據(jù)的標注工作不僅成本高昂,而且需要大量的人工參與,這在很大程度上限制了數(shù)據(jù)集的規(guī)模和多樣性。標注數(shù)據(jù)的準確性和一致性的維護也是一個挑戰(zhàn),因為不同的標注者可能會有不同的理解和判斷標準。
早在2022年,就有學(xué)者指出高質(zhì)量語料將會成為AI發(fā)展的制約,例如Nostalgebraist曾說過高質(zhì)量的語料數(shù)據(jù)的缺失將會成為機器學(xué)習(xí)的瓶頸。近年來,不斷有研究發(fā)現(xiàn),由于互聯(lián)網(wǎng)語料內(nèi)容的持續(xù)下降,互聯(lián)網(wǎng)語料數(shù)據(jù)增速已經(jīng)從90年代將近100%的年增速率下降至2010年的兩位數(shù)增長率,預(yù)計本世紀末,增長率將會下降至1%。
2024年6月4日,Pablo Villalobos等人在一項研究中進一步預(yù)測了高質(zhì)量語料枯竭的具體時間。該研究表明,高質(zhì)量數(shù)據(jù)預(yù)計將于2028年枯竭,高質(zhì)量數(shù)據(jù)的缺位將會嚴重限制未來大模型大表現(xiàn)(如下圖所示)。
圖片來源:Will we run out of data Limits of LLM scaling based on human-generated data
為了延緩語料數(shù)據(jù)短缺,在國際上,許多研究機構(gòu)和企業(yè)都在努力通過技術(shù)創(chuàng)新來克服這些難題,比如使用半監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)技術(shù)減少對大規(guī)模標注數(shù)據(jù)的依賴,或者開發(fā)更智能的數(shù)據(jù)增強技術(shù)來提高現(xiàn)有數(shù)據(jù)的利用率。同時,一些開源項目和合作平臺也在推動更多高質(zhì)量、可共享的數(shù)據(jù)集的生成,以減少各個研究組織之間的重復(fù)工作,提高整個行業(yè)的數(shù)據(jù)質(zhì)量標準。
高質(zhì)量語料短缺是全球AI研究與應(yīng)用領(lǐng)域共同面臨的問題,需要國際合作和技術(shù)創(chuàng)新共同解決。這不僅僅是中國獨有的問題,而是一個全球性的挑戰(zhàn),對于推動人工智能技術(shù)的持續(xù)進步至關(guān)重要。
官方語料機構(gòu)有望成為高質(zhì)量語料提供“庇護所”
在面對全球性的高質(zhì)量語料短缺問題時,官方語料機構(gòu)的設(shè)立有望成為解決這一困境的關(guān)鍵所在。這類機構(gòu)能夠起到“庇護所”的作用,通過系統(tǒng)的管理與創(chuàng)新技術(shù)的應(yīng)用,有效延緩語料枯竭的趨勢,為人工智能的持續(xù)發(fā)展提供強有力的支持。
通過把控和優(yōu)化多種模型合成的數(shù)據(jù),官方語料機構(gòu)能夠有效管理數(shù)據(jù)的分發(fā)和使用。這種集中管理不僅保證了數(shù)據(jù)質(zhì)量,還有助于防止在數(shù)據(jù)遷移學(xué)習(xí)過程中丟失關(guān)于原始人類數(shù)據(jù)分布的關(guān)鍵信息。
此外,機構(gòu)還可以通過嚴格的數(shù)據(jù)審核與模型訓(xùn)練流程,防止因迭代輸出而導(dǎo)致的結(jié)果同質(zhì)化。結(jié)果同質(zhì)化有降低模型的創(chuàng)新能力和適應(yīng)性的風(fēng)險,而官方機構(gòu)的介入則可以確保每一次數(shù)據(jù)的更新和模型的迭代都能引入新的視角和多樣性。
通過官方機構(gòu)管理非公開高質(zhì)量數(shù)據(jù),對于機器學(xué)習(xí)也尤為重要。這些數(shù)據(jù)通常涉及敏感信息或?qū)I(yè)領(lǐng)域知識,需要在確保隱私和安全的前提下進行處理和使用。通過官方機構(gòu)的專業(yè)管理,這類數(shù)據(jù)可以在遵循法律和倫理標準的同時,為機器學(xué)習(xí)模型提供精確和深入的訓(xùn)練材料。
此外,官方語料機構(gòu)還可以運用先進的數(shù)據(jù)處理技術(shù),如data filtering和deduplication,提高數(shù)據(jù)處理的質(zhì)量。這些技術(shù)可以從大量的公共語料中篩選出高質(zhì)量數(shù)據(jù),去除重復(fù)或低質(zhì)量的信息。
“語料筑基,智生時代”語料專題論壇為行業(yè)帶來更優(yōu)解
為滿足大模型發(fā)展對高質(zhì)量、大規(guī)模、安全可信語料數(shù)據(jù)資源的需求,保障大模型科研攻關(guān)及相關(guān)產(chǎn)業(yè)生態(tài)發(fā)展,本次大會期間,上海庫帕思科技有限公司將聯(lián)合大模型語料數(shù)據(jù)聯(lián)盟、上海市數(shù)商協(xié)會、上海市人工智能行業(yè)協(xié)會以“語料筑基,智生時代”為主題舉辦語料專題論壇。
論壇圍繞“高質(zhì)量語料數(shù)據(jù)如何高效供給賦能大模型產(chǎn)業(yè)發(fā)展”的話題,從專業(yè)化、鏈接型、前瞻性三個維度,向市場傳遞重構(gòu)語料生態(tài)的頂層設(shè)計理念(報名請掃描海報二維碼填寫信息)。
本次論壇還將正式發(fā)布2024語料風(fēng)云榜,遴選語料行業(yè)優(yōu)秀企業(yè)和案例,打造標桿示范,鼓勵更多的市場主體投身于語料產(chǎn)業(yè)生態(tài)布局,推動語料全行業(yè)“提質(zhì)、增效、降本”發(fā)展,有效緩解語料“供給難、供給貴”的問題。
評選面向國內(nèi)外人工智能語料的代表企業(yè),圍繞產(chǎn)品服務(wù)、研發(fā)創(chuàng)新、經(jīng)營效率、風(fēng)險合規(guī)、品牌影響力與可持續(xù)發(fā)展等指標進行評價,通過申報、預(yù)選、復(fù)選、公示、發(fā)布五個環(huán)節(jié),最終評出2024語料風(fēng)云榜。
2024語料風(fēng)云榜的評價標準分為“好企業(yè)、好產(chǎn)品、好規(guī)則”三個一級指標維度,細分至六個二級指標(經(jīng)營能力、品牌能力、產(chǎn)品能力、創(chuàng)新能力、規(guī)范能力、基礎(chǔ)能力),以及16個細化三級指標。語料產(chǎn)品及服務(wù)應(yīng)滿足主體合規(guī)、來源合規(guī)、流通合規(guī)的要求,如不滿足則不可參評。
意向申報企業(yè)可從鏈接中下載并填寫申報材料,于6月9日18點前,將申報材料發(fā)送至郵箱 liuminhao@iyiou.com 。
申報材料下載鏈接:
https://pan.baidu.com/s/1KzntFSNJ5cLko8qfjsc8pg pwd=5as6 提取碼: 5as6
附件一:2024語料風(fēng)云榜企業(yè)申報承諾書
附件二:2024語料風(fēng)云榜企業(yè)申報表
如有任何問題,歡迎與相關(guān)負責(zé)人聯(lián)系,誠摯歡迎您的到來。
袁佳毅 13917988406
虎林林 18116365535
來源:世界人工智能大會