學(xué)校進(jìn)軍大模型,舊賽道玩出新花樣
原創(chuàng) 媛媛 | 2023-10-08 19:15
【數(shù)據(jù)猿導(dǎo)讀】 大模型熱度持續(xù)提升,不僅企業(yè)推出數(shù)十個(gè)大模型,數(shù)據(jù)猿注意到多個(gè)高校也在陸續(xù)推出大模型。那么,高校研發(fā)大模型的出發(fā)點(diǎn)是什么呢,他們的做法跟企業(yè)又有什么不一樣?本篇文章致力于搞清楚這個(gè)問(wèn)題。

大模型熱度持續(xù)提升,不僅企業(yè)推出數(shù)十個(gè)大模型,數(shù)據(jù)猿注意到多個(gè)高校也在陸續(xù)推出大模型。那么,高校研發(fā)大模型的出發(fā)點(diǎn)是什么呢,他們的做法跟企業(yè)又有什么不一樣?本篇文章致力于搞清楚這個(gè)問(wèn)題。
大模型的競(jìng)賽,高校是一個(gè)重量級(jí)選手
在中國(guó)市場(chǎng),企業(yè)界目前已經(jīng)推出了上百個(gè)大模型產(chǎn)品。然而,在這場(chǎng)競(jìng)賽中,有一個(gè)別樣的參賽選手容易被忽視——高等院校。
事實(shí)上,中國(guó)已經(jīng)有多個(gè)學(xué)校陸續(xù)推出了自己的大模型。北京交通大學(xué)與中國(guó)計(jì)算機(jī)學(xué)會(huì)智慧交通分會(huì)以及足智多模公司合作,發(fā)布并開(kāi)源了國(guó)內(nèi)首個(gè)綜合交通領(lǐng)域的大型模型,命名為TransGPT·致遠(yuǎn)。這一模型的推出為智能交通領(lǐng)域的研究和應(yīng)用提供了有力支持。
北京大學(xué)推出了ChatLaw大模型,哈爾濱工業(yè)大學(xué)發(fā)布了“本草”大模型,復(fù)旦大學(xué)的“moss”大模型也在研究領(lǐng)域取得了突出成就。清華大學(xué)的“chatglm-6B”大模型、上海交通大學(xué)研發(fā)的“兆言”大模型以及東北大學(xué)的“TechGPT”等等,都是國(guó)內(nèi)大學(xué)在大型模型研究方面的杰出代表。
這些國(guó)內(nèi)大學(xué)的大型模型不僅在自然語(yǔ)言處理領(lǐng)域有重要應(yīng)用,還為各個(gè)領(lǐng)域的研究和實(shí)踐提供了有力工具。它們的開(kāi)源和分享精神也有助于促進(jìn)科學(xué)界和工業(yè)界的合作,推動(dòng)了中國(guó)在大型模型研究領(lǐng)域的發(fā)展。
以下是對(duì)國(guó)內(nèi)高校大模型進(jìn)展的不完全統(tǒng)計(jì):
近日,來(lái)自蘇州大學(xué)的一個(gè)研發(fā)團(tuán)隊(duì)最近發(fā)布了一款名為OpenBA的開(kāi)源seq2seq模型。OpenBA是一款具有150億參數(shù)的雙語(yǔ)非對(duì)稱seq2seq模型,也是中國(guó)開(kāi)源模型社區(qū)迎來(lái)的首個(gè)大型語(yǔ)言模型變體。根據(jù)相關(guān)論文的介紹,研究人員采用了高效的技術(shù),并采用了三階段的訓(xùn)練策略,從零開(kāi)始構(gòu)建了OpenBA模型。
OpenBA模型的亮點(diǎn)有以下幾點(diǎn):
1、該模型為中文開(kāi)源社區(qū)貢獻(xiàn)了一個(gè)有代表性的編碼器解碼器大型語(yǔ)言模型。而且,該模型的訓(xùn)練過(guò)程,包括數(shù)據(jù)的收集與清洗、模型的構(gòu)建與訓(xùn)練,都已完全開(kāi)源,使其能夠廣泛地被研究和應(yīng)用。
2、數(shù)據(jù)方面,OpenBA模型所使用的數(shù)據(jù)均是公開(kāi)可獲取的,這一特點(diǎn)增強(qiáng)了模型的透明度和可用性。
3、為了提升模型對(duì)中文指令的理解能力,研究團(tuán)隊(duì)基于開(kāi)源的標(biāo)注數(shù)據(jù)構(gòu)建了大規(guī)模的中文Flan數(shù)據(jù)集,并完全開(kāi)放了數(shù)據(jù)集的構(gòu)建方法。
4、令人印象深刻的是,盡管OpenBA模型僅使用了380億個(gè)標(biāo)記的訓(xùn)練數(shù)據(jù),但在多個(gè)中英文下游任務(wù)上表現(xiàn)出色,超越了許多參數(shù)量更大、數(shù)據(jù)量更多的模型。
同樣的賽道,不一樣的玩法
同樣是做大模型,高校與企業(yè)相比,有什么不一樣呢?
通過(guò)綜合對(duì)比,我們發(fā)現(xiàn),高校研發(fā)大模型技術(shù)產(chǎn)品,跟企業(yè)相比,在以下幾個(gè)方面存在明顯的區(qū)別:
1、目的不同,高校是為了出學(xué)術(shù)成果,而不是商業(yè)成果。
高校的研究主要追求學(xué)術(shù)探究,他們致力于探索大模型的理論基礎(chǔ)、算法優(yōu)化以及應(yīng)用拓展,旨在推動(dòng)學(xué)科發(fā)展。研究者追求的是發(fā)表高水平論文,提高學(xué)術(shù)聲望,為學(xué)術(shù)界貢獻(xiàn)新知。
相比之下,企業(yè)的目標(biāo)是商業(yè)化應(yīng)用,他們關(guān)注的是如何將大模型技術(shù)轉(zhuǎn)化為具體的產(chǎn)品和服務(wù),實(shí)現(xiàn)商業(yè)價(jià)值和盈利。
因此,在研發(fā)的深度上,高??赡芨鼈?cè)重于技術(shù)的原理和探討,而企業(yè)更關(guān)心技術(shù)的實(shí)際應(yīng)用和商業(yè)可行性。
這種目的的差異也影響著研究者的動(dòng)力和方法,高校研究者通常追求創(chuàng)新和突破,他們可能會(huì)更加開(kāi)放地探索各種可能性,包括不太成熟的或者風(fēng)險(xiǎn)較高的方向。
而企業(yè)研發(fā)團(tuán)隊(duì)則需要更加務(wù)實(shí),他們要考慮市場(chǎng)需求、競(jìng)爭(zhēng)態(tài)勢(shì),更傾向于在已有基礎(chǔ)上進(jìn)行改進(jìn)和優(yōu)化,以確保產(chǎn)品的可靠性和市場(chǎng)競(jìng)爭(zhēng)力。
2、高校的理論研發(fā)能力強(qiáng),但產(chǎn)品化能力弱。
很多高校擁有世界級(jí)的頂尖科學(xué)家和研究團(tuán)隊(duì),他們?cè)谇把乩碚撎剿鞣矫婢邆渥吭降哪芰Α_@使得高校能夠在大模型的算法設(shè)計(jì)、深度學(xué)習(xí)理論等方面取得領(lǐng)先地位,甚至在某些領(lǐng)域超越企業(yè)界。然而,盡管擁有強(qiáng)大的研發(fā)能力,高校在產(chǎn)品化方面的能力相對(duì)較弱。
由于缺乏工程化和產(chǎn)品化的經(jīng)驗(yàn),高校團(tuán)隊(duì)開(kāi)發(fā)的大模型往往難以直接轉(zhuǎn)化為商業(yè)產(chǎn)品。產(chǎn)品化需要考慮諸多因素,包括穩(wěn)定性、性能優(yōu)化、用戶友好性等,這些要求對(duì)工程團(tuán)隊(duì)的技能和經(jīng)驗(yàn)提出了更高的要求,而這是高校研究團(tuán)隊(duì)所缺乏的。
3、資金實(shí)力較弱,算力不足,模型規(guī)模較小。
高校在大模型研發(fā)中普遍面臨著資金實(shí)力較弱、算力不足的挑戰(zhàn),這限制了他們?cè)谀P鸵?guī)模上的發(fā)展。相較之下,企業(yè)通常擁有更充足的財(cái)力,能夠投入大量資源進(jìn)行研發(fā),尤其是在高昂的算力需求方面。
大模型的訓(xùn)練需要龐大的數(shù)據(jù)集和超級(jí)計(jì)算機(jī)集群,這往往需要花費(fèi)數(shù)以千萬(wàn)計(jì)的美元。然而,高校的研究預(yù)算相對(duì)有限,難以承擔(dān)這樣的高昂成本。
這種資金和算力的短缺使得高校往往只能開(kāi)展規(guī)模較小的大模型研究,他們可能會(huì)聚焦于百億參數(shù)規(guī)模以內(nèi)的模型,而千億參數(shù)規(guī)模以上的大模型則較為困難。這種限制影響了高校在大模型研究領(lǐng)域的深入探索,因?yàn)楦髤?shù)規(guī)模的模型往往能夠更好地捕捉數(shù)據(jù)的復(fù)雜關(guān)系,具備更強(qiáng)的泛化能力。
4、高校的大模型產(chǎn)品具有濃厚的實(shí)驗(yàn)性質(zhì),后期持續(xù)迭代不足。
大模型的研發(fā)不是一次性任務(wù),而是需要不斷迭代和升級(jí),以適應(yīng)不斷變化的需求和挑戰(zhàn)。然而,由于高校研究項(xiàng)目通常以發(fā)表學(xué)術(shù)論文為主要目標(biāo),一旦論文發(fā)表,后期持續(xù)迭代模型的動(dòng)力和資源支持就顯得不足。這導(dǎo)致了許多高校推出的大模型往往只是曇花一現(xiàn),缺乏持久的影響力和實(shí)際應(yīng)用。
高校最大的價(jià)值,在于其是理論探索的先鋒隊(duì)
既然高校有這么多缺陷,但為什么還要湊這個(gè)熱鬧呢?高校研發(fā)大模型到底有什么價(jià)值呢?難道就是為了研發(fā)團(tuán)隊(duì)發(fā)幾篇論文?
在數(shù)據(jù)猿看來(lái),雖然高校有多種缺陷,但在推進(jìn)大模型發(fā)展方面,有其獨(dú)特的價(jià)值。
首先,在大模型前沿理論探索方面,高校具有不可替代的重要地位。
大模型技術(shù)的發(fā)展正處于快速探索和創(chuàng)新的階段,其中充滿了未解之謎。例如,大模型的“幻覺(jué)”——模型在沒(méi)有真實(shí)理解情況下“假裝”理解的問(wèn)題,這是一個(gè)需要深入探討的理論難題;多模態(tài)融合則涉及將來(lái)自不同傳感器或源頭的數(shù)據(jù)進(jìn)行融合,需要開(kāi)發(fā)新的理論和算法以更好地處理這種復(fù)雜信息,這些理論難題都需要高校的前沿探索。
大模型的倫理安全研究也是一個(gè)備受關(guān)注的領(lǐng)域,高??梢酝ㄟ^(guò)深入的倫理研究,探討大模型的應(yīng)用邊界、道德責(zé)任和社會(huì)影響,為未來(lái)的技術(shù)發(fā)展提供指導(dǎo)。
在前沿理論、技術(shù)探索方面,與企業(yè)相比,高校通常擁有豐富的學(xué)科背景和跨學(xué)科研究資源。大模型技術(shù)的發(fā)展不僅僅依賴于計(jì)算機(jī)科學(xué),還需要涉及心理學(xué)、認(rèn)知科學(xué)、生物學(xué)等多個(gè)領(lǐng)域的知識(shí)。高校研究者可以自由穿梭于不同學(xué)科領(lǐng)域,推動(dòng)多領(lǐng)域知識(shí)的融合,為大模型的發(fā)展提供跨學(xué)科的理論支持。這種綜合性的研究視角有助于拓展大模型技術(shù)的應(yīng)用領(lǐng)域,推動(dòng)科技的交叉創(chuàng)新。
此外,高校在學(xué)術(shù)研究中更容易進(jìn)行高風(fēng)險(xiǎn)高回報(bào)的研究。大模型技術(shù)的發(fā)展充滿了不確定性和挑戰(zhàn),探索新的理論和方法可能會(huì)面臨失敗的風(fēng)險(xiǎn)。而高校由于其學(xué)術(shù)性質(zhì),通常具有較高的學(xué)術(shù)自由度,可以承擔(dān)更多的風(fēng)險(xiǎn),去嘗試那些可能具有革命性意義的理論突破,這種高風(fēng)險(xiǎn)的探索為大模型技術(shù)的未來(lái)發(fā)展帶來(lái)了更多的創(chuàng)新可能性。
需要注意的是,高校與企業(yè)并不是完全割裂的,而是可以緊密合作。事實(shí)上,不少企業(yè)就在與高校聯(lián)手進(jìn)行大模型技術(shù)研發(fā)。而且,企業(yè)與高校在人才方面是相通的,經(jīng)常有人才流動(dòng)。比如,高校為企業(yè)源源不斷的輸送人才,是企業(yè)研發(fā)的重要后備力量。另一方面,企業(yè)高級(jí)人才也可能回到高校做研發(fā)、任教。這樣的雙向人才流動(dòng),將大大促進(jìn)人才市場(chǎng)的活躍,而這是大模型理論和技術(shù)發(fā)展不可或缺的催化劑。
企業(yè)推出的大模型產(chǎn)品,往往具有排他性,甚至?xí)暾?qǐng)專利保護(hù)。而高校的技術(shù)成果則具備更多的公共資源屬性,一般會(huì)將成果向社會(huì)開(kāi)放。一些小型團(tuán)隊(duì),可以在高校研究成果的基礎(chǔ)上,進(jìn)一步產(chǎn)品化、商業(yè)化,這降低了他們創(chuàng)業(yè)的門檻。以美國(guó)硅谷的成功經(jīng)驗(yàn)來(lái)看,高校的研究成果往往是創(chuàng)業(yè)團(tuán)隊(duì)的發(fā)源地。在高校實(shí)驗(yàn)室中,有一些隱藏的“金礦”,等待創(chuàng)業(yè)團(tuán)隊(duì)去挖掘。
來(lái)源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
不容錯(cuò)過(guò)的資訊
-
1押注“AI寫小說(shuō)”!陳天橋加持,宜搜科技
-
2建議阿里、百度、華為們,不要著急搶行業(yè)
-
3九章云極DataCanvas公司完成D1輪融資!
-
4OpenAI或?qū)⒆匝蠥I芯片;微軟自研芯片;大
-
5ChatGPT已接入互聯(lián)網(wǎng);美國(guó)將用E級(jí)超算模
-
6百度發(fā)布首個(gè)量子領(lǐng)域大模型;微軟計(jì)劃造
-
7四年虧損150億元,途虎養(yǎng)車搶跑汽車后服
-
8華為和小米達(dá)成全球?qū)@徊嬖S可協(xié)議;通
-
9九個(gè)月內(nèi)累計(jì)被罰1.3億元,知網(wǎng)為何屢觸
-
10百川智能發(fā)布530億參數(shù)大模型;拓爾思擬
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
