GPT-4.5判了Scaling Law“死刑”?
【數(shù)據(jù)猿導(dǎo)讀】 這兩天,AI界好不熱鬧。最有看點的,是DeepSeek和OpenAI打擂臺。DeepSeek 陸續(xù)開源了一些“干貨”,得到了大量的好評。而反觀OpenAI,則發(fā)布了備受矚目的GPT-4.5,但是從目前情況來看,還是失望多于驚喜。

這兩天,AI界好不熱鬧。最有看點的,是DeepSeek和OpenAI打擂臺。DeepSeek 陸續(xù)開源了一些“干貨”,得到了大量的好評。而反觀OpenAI,則發(fā)布了備受矚目的GPT-4.5,但是從目前情況來看,還是失望多于驚喜。
最主要的是,GPT-4.5沒能帶來人們期望中的模型能力的顯著提升,而有點像“擠牙膏”,有一點進(jìn)步,但不多。關(guān)鍵的是,這點進(jìn)步的代價卻不小。有人對比了一下GPT-4.5和DeepSeek V3的價格,刺激就更大了。
當(dāng)然,OpenAI是有苦說不出,“不是我貪心,是成本擺在那,就是收你們這個錢,我都還是血虧啊”。
目前,網(wǎng)絡(luò)上已經(jīng)出現(xiàn)了很多關(guān)于GPT-4.5的使用測評,我們就不多說了。
作為專業(yè)媒體,我們討論一個更本質(zhì)的問題——GPT-4.5差強人意的表現(xiàn),是不是意味著Scaling Law就徹底失效了?模型的規(guī)模已經(jīng)觸及天花板,以后別想擴大規(guī)模這事兒?
這是一個很關(guān)鍵的問題,不同的選擇甚至?xí)Q定整個行業(yè)的走向。
Scaling Law(規(guī)模法則)是怎么來的?
以史為鑒,可以知興替。要看清楚未來的方向,不妨先回望一下來時的路。
人工智能的發(fā)展歷程是一場技術(shù)不斷突破、理論不斷演化的漫長征程。從20世紀(jì)50年代的符號主義人工智能到今天的大規(guī)模語言模型,AI的每一次進(jìn)步都伴隨著新思想的誕生和舊理論的修正。
最初的符號主義AI強調(diào)邏輯推理與知識表示,它依賴于精確的規(guī)則和符號系統(tǒng),在專家系統(tǒng)的框架下處理特定領(lǐng)域的問題。到了20世紀(jì)80年代末至90年代初,機器學(xué)習(xí)逐漸成為AI領(lǐng)域的新方向。機器學(xué)習(xí)突破了符號主義的束縛,逐步讓計算機能夠通過數(shù)據(jù)學(xué)習(xí)而非依賴人工編碼規(guī)則。神經(jīng)網(wǎng)絡(luò),尤其是反向傳播算法(backpropagation)的復(fù)興,為AI的發(fā)展打開了新的大門。然而,由于計算資源的限制和數(shù)據(jù)集的匱乏,深度學(xué)習(xí)尚未成為主流,AI的應(yīng)用范圍依舊局限。
在這段時間,人們腦海中基本還不存在Scaling Law這個概念,大家的專注點都在于算法模型的創(chuàng)新。如果這個時候有人說“單純擴大模型規(guī)模就可以了”,大部分人會罵他是個瘋子。
進(jìn)入21世紀(jì)后,深度學(xué)習(xí)隨著大數(shù)據(jù)和計算能力的提升,迅速崛起。2012年,AlexNet在ImageNet圖像識別競賽中的震撼表現(xiàn)標(biāo)志著深度學(xué)習(xí)進(jìn)入了一個全新時代。隨著技術(shù)的發(fā)展,AI的進(jìn)步并不僅僅依賴于算法的改進(jìn),計算資源的增長和數(shù)據(jù)的積累也起到了至關(guān)重要的作用。大數(shù)據(jù)的涌現(xiàn)與云計算的普及為AI提供了前所未有的算力支持,這為深度學(xué)習(xí)的迅猛發(fā)展創(chuàng)造了條件。
進(jìn)入2010年代末,深度學(xué)習(xí)走向了一個前所未有的高峰。2018年,谷歌推出了Transformer架構(gòu),它徹底改變了自然語言處理的格局。Transformer通過自注意力機制(self-attention)能夠有效地捕捉序列數(shù)據(jù)中的長程依賴關(guān)系,成功解決了傳統(tǒng)RNN和LSTM在長文本處理上的瓶頸。Transformer架構(gòu)的成功,不僅讓自然語言處理進(jìn)入了一個新的時代,也為大模型的發(fā)展奠定了基礎(chǔ)。
但是,這個時候離Scaling Law才剛剛有點萌芽,還沒成為行業(yè)的成為金科玉律。
隨著Transformer架構(gòu)的誕生,基于這一架構(gòu)的大規(guī)模預(yù)訓(xùn)練語言模型(如BERT、GPT等)迅速登上了AI的舞臺。2019年,OpenAI發(fā)布了GPT-2,模型的規(guī)模達(dá)到了15億個參數(shù),展示了巨大的潛力。GPT-2在文本生成、語言理解和推理等方面表現(xiàn)出了超乎想象的能力,標(biāo)志著預(yù)訓(xùn)練語言模型的新時代。
然而,GPT-2的成功也引發(fā)了對更大規(guī)模模型的期待,最終導(dǎo)致了GPT-3的誕生。GPT-3的發(fā)布可謂是AI領(lǐng)域的一次革命,它的參數(shù)規(guī)模達(dá)到了1750億,幾乎超越了當(dāng)時所有同類模型。GPT-3的發(fā)布不僅是技術(shù)突破,也代表了Scaling Law的成熟。
根據(jù)這一法則,規(guī)模的擴大帶來了模型能力的顯著躍升。GPT-3的能力超越了前代所有模型,特別是在生成語言的流暢性、推理能力和少樣本學(xué)習(xí)等方面表現(xiàn)得尤為突出。
GPT-3的成功使得Scaling Law成為AI界廣泛接受的“真理”,幾乎所有的AI大模型開發(fā)者都開始依賴這一法則來指導(dǎo)模型的設(shè)計。OpenAI、谷歌、Meta、Anthropic,以及中國的百度、阿里、騰訊、字節(jié)跳動、月之暗面、智譜AI等,紛紛加入了大規(guī)模預(yù)訓(xùn)練模型的開發(fā)浪潮。
這個時候,大模型成為了主流技術(shù)路線,Scaling Law幾乎成為了AI發(fā)展的“金科玉律”。
但隨著事態(tài)的發(fā)展,漸漸有不少廠商對Scaling Law提出質(zhì)疑,越來越多人開始提小模型。需要指出的是,我們覺得,初期很多提小模型的廠商,有不少是自己實力不夠強,玩不起這個“燒錢”游戲,但又想早點把自己模型規(guī)模沒那么大的產(chǎn)品落地,早點賺錢,出于這個目的來混淆視聽。
在國外,人們還是比較相信Scaling Law,尤其是谷歌、Meta、微軟、亞馬遜等巨頭,從他們2025年的資本開支就可以看出,他們是準(zhǔn)備在今年繼續(xù)大干一場的。
然而,DeepSeek的橫空出世,讓人們猛然發(fā)現(xiàn),小一點的模型、更低的成本,實現(xiàn)差不多的模型能力,這條路是可行的,于是國內(nèi)外的風(fēng)向開始轉(zhuǎn)變了。再加上這次GPT-4.5差強人意的表現(xiàn),相信人們對于Scaling Law的質(zhì)疑又會增加幾分。
也許,接下來,人們會從一個極端走向另一個極端,即從將Scaling Law奉為金科玉律,走向徹底拋棄Scaling Law。我們認(rèn)為,Scaling Law只是遇到了階段性瓶頸,并沒有完全失效。為了說明這個問題,我們先來澄清兩個容易誤解的地方:
1、大模型的創(chuàng)新,一直是兩條腿走路,而Scaling Law只是其中的一條腿;
2、模型規(guī)模導(dǎo)致的能力提升,一直都不是線性的。
大模型的路,一直是兩條腿在走
大模型的能力提升,實際上一直是一個雙重路徑的進(jìn)程。過去,我們看到的是兩條腿并行走路:一條腿代表著通過Scaling Law(規(guī)模法則)推動模型規(guī)模的不斷擴展,另一條腿則是通過算法創(chuàng)新與工程優(yōu)化來提升模型的效率和智能水平。
最初,隨著GPT-2、GPT-3的成功,Scaling Law顯然走得更快。這一階段,模型規(guī)模的擴展成為了主導(dǎo)力量,幾乎所有突破性的進(jìn)展都來自于規(guī)模的急劇膨脹。GPT-3的發(fā)布,尤其是其1750億個參數(shù)的模型,幾乎是一項革命性的突破,這使得“規(guī)模即智能”的理念深入人心。業(yè)界普遍相信,模型的規(guī)模越大,其表現(xiàn)就會越好,Scaling Law成為了不可動搖的信條。
然而,這并不意味著算法創(chuàng)新與工程優(yōu)化在此過程中消失。實際上,雖然在前幾年里規(guī)模擴張這條腿走得更快,算法與架構(gòu)的優(yōu)化始終在默默推進(jìn)。例如,盡管GPT系列在參數(shù)數(shù)量上不斷增加,但同時,OpenAI和其他研究者也在不斷對訓(xùn)練算法、優(yōu)化方法以及模型架構(gòu)進(jìn)行改進(jìn)。包括混合精度訓(xùn)練、模型稀疏化、動態(tài)計算路徑等技術(shù)的引入,都是在為提升大模型效率、減少計算成本而進(jìn)行的優(yōu)化嘗試??梢哉f,算法創(chuàng)新和工程優(yōu)化的“另一條腿”,一直在不斷跟進(jìn)并為大模型的有效擴展提供支撐。
只是,Deepseek的成功,向人們展示了工程優(yōu)化的效果居然可以這么好。Deepseek的做法表明,AI的突破不僅依賴于“做得更大”,更要注重“做得更好”。這種對效率和創(chuàng)新的追求,促使AI研發(fā)者意識到:將來要想持續(xù)推動AI能力的突破,必須加大對算法優(yōu)化和工程創(chuàng)新的投資。模型不再只是參數(shù)數(shù)量的堆砌,而是要在算法和架構(gòu)設(shè)計上進(jìn)行更深刻的優(yōu)化。這也預(yù)示著,隨著Scaling Law的邊際效應(yīng)漸顯,算法創(chuàng)新和工程優(yōu)化將成為下一階段AI技術(shù)進(jìn)步的核心。
Scaling Law只是遇到瓶頸,沒有完全失效
當(dāng)我們回顧大模型的進(jìn)化史,越來越顯而易見的一點是:模型的規(guī)模擴展并非線性。
最初,從數(shù)百萬到數(shù)億參數(shù)時,模型的性能提升幾乎是漸進(jìn)的。即便是GPT-2,也不過是1.5億參數(shù)的模型,盡管在當(dāng)時表現(xiàn)不俗,但它離顛覆性的智能突破還差得很遠(yuǎn)。
只有當(dāng)模型參數(shù)達(dá)到數(shù)百億,性能的提升才顯得顯著,特別是在GPT-3的發(fā)布中,當(dāng)參數(shù)數(shù)量飆升至1750億時,模型的表現(xiàn)飛躍至一個新的層次。這個突破顯示了一個重要的現(xiàn)象:真正的“智能涌現(xiàn)”,即智能水平的質(zhì)變,往往并不在模型的每一次擴展中出現(xiàn),而是在模型規(guī)模達(dá)到某個臨界點后突然爆發(fā)。
在達(dá)到700億參數(shù)左右時,模型的推理能力、語言理解能力以及生成能力都有了質(zhì)的飛躍。這是因為,隨著模型規(guī)模的擴大,計算和數(shù)據(jù)的相互作用不僅增強了模型的表達(dá)能力,還促使了更復(fù)雜的認(rèn)知模式的涌現(xiàn)。然而,隨著模型進(jìn)入數(shù)萬億參數(shù)的階段,智能提升的速度逐漸減緩,進(jìn)入了所謂的“賢者時間”——一種能力提升停滯的階段。
在這一階段,擴展模型的規(guī)模似乎不會自動帶來智能的飛躍。GPT-4.5的發(fā)布便是一個明顯的例子:盡管它的參數(shù)達(dá)到了萬億級別,智能提升卻沒有呈現(xiàn)出GPT-3到GPT-4那樣的巨大飛躍。
GPT-4.5的表現(xiàn)并不是Scaling Law的“死刑判決”,而是我們可能已經(jīng)進(jìn)入了另一個“賢者時間”。
想要超越當(dāng)前的瓶頸,或許需要模型的規(guī)模擴展到50萬億參數(shù),甚至更大的范圍。在這個過程中,模型的涌現(xiàn)效應(yīng)可能會再次爆發(fā),帶來智能的質(zhì)變。
這也是為什么GPT-4.5的表現(xiàn)并不代表AI發(fā)展的“停滯”,而只是表明現(xiàn)有的Scaling Law開始遇到極限效應(yīng)。從理論上講,當(dāng)大模型達(dá)到了某一“臨界規(guī)模”,智能的飛躍必須依賴于架構(gòu)的創(chuàng)新,而不僅僅是參數(shù)數(shù)量的增加。
規(guī)模擴張與算法模型優(yōu)化這兩條腿,需要走的更協(xié)調(diào)
上面我們提到過,大模型的發(fā)展是兩條腿走路,前兩年,主要靠Scaling Law著條腿在走,接下來,另一條腿需要多走兩步了。
在大模型的技術(shù)發(fā)展中,Deepseek等公司為我們提供了一個至關(guān)重要的啟示:模型的智能提升不僅僅依賴于規(guī)模的擴展,還可以通過精細(xì)的架構(gòu)優(yōu)化與算法創(chuàng)新,極大地提高效率和性能。Deepseek的成功并非單純通過堆砌更多的計算資源,而是通過在算法和工程架構(gòu)上的深度優(yōu)化,實現(xiàn)了更高效的計算資源使用,使得模型的智能提升以更少的資源消耗達(dá)到了類似甚至更高的效果。這一切都表明,隨著大模型規(guī)模的不斷膨脹,計算資源的浪費和效率的低下將成為最重要的瓶頸。
通過減少冗余計算、優(yōu)化數(shù)據(jù)流和調(diào)度方式,Deepseek能夠在不依賴單純增加計算量的前提下,提升模型的推理速度和響應(yīng)效率。通過這種精細(xì)化優(yōu)化,它使得模型能夠在大規(guī)模計算資源的限制下,依然達(dá)到更高的智能水平。
這種方法將不僅推動技術(shù)的進(jìn)步,還能大幅降低成本,提高大規(guī)模模型的可持續(xù)性與商業(yè)化潛力。Deepseek的成功表明,未來的大模型發(fā)展,將是效率和智能并行推進(jìn)的過程,而不僅僅是規(guī)模的不斷擴張。
然而,隨著模型規(guī)模的進(jìn)一步增大和效率優(yōu)化的逐步實現(xiàn),單純依賴現(xiàn)有架構(gòu)和算法已經(jīng)無法突破Scaling Law的瓶頸。想要真正推動大模型智能的進(jìn)一步提升,根本的技術(shù)創(chuàng)新,尤其是架構(gòu)創(chuàng)新,必將成為未來突破的關(guān)鍵。
當(dāng)前,Transformer架構(gòu)被廣泛應(yīng)用于大規(guī)模語言模型中,其自注意力機制(self-attention)成功地處理了語言中的長程依賴問題,并在多種NLP任務(wù)中展現(xiàn)了超常表現(xiàn)。然而,隨著模型規(guī)模的不斷增加,Transformer的計算復(fù)雜度逐漸成為瓶頸,尤其是在處理長文本、極端大規(guī)模模型時,計算和內(nèi)存的需求將變得極為龐大,限制了其應(yīng)用的廣度和深度。
未來的突破可能來自于一種比Transformer更高效的架構(gòu),這種新架構(gòu)能夠在保證智能水平的提升的同時,大幅降低計算復(fù)雜度和內(nèi)存消耗。例如,稀疏化架構(gòu)、圖神經(jīng)網(wǎng)絡(luò)(GNN)以及混合模型架構(gòu)(如結(jié)合強化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的混合架構(gòu))等,可能會成為新的方向。
這些新的架構(gòu)設(shè)計將不僅提高模型的計算效率,還能幫助模型在推理過程中更好地處理多任務(wù)、跨模態(tài)信息,從而進(jìn)一步增強其智能能力。例如,圖神經(jīng)網(wǎng)絡(luò)在處理非歐幾里得數(shù)據(jù)(如社交網(wǎng)絡(luò)、分子結(jié)構(gòu)等)時表現(xiàn)出色,未來或許可以通過這種方式處理更加復(fù)雜的數(shù)據(jù)結(jié)構(gòu),推動語言模型向更加泛化和多樣化的能力發(fā)展。
因此,架構(gòu)創(chuàng)新不僅僅是為了提高計算效率,更是為了從根本上推動模型智能的進(jìn)一步升級,打破現(xiàn)有架構(gòu)在大規(guī)模應(yīng)用中的瓶頸,突破Scaling Law的限制。
展望未來,大模型的發(fā)展將不僅僅依賴單一的擴展路徑,而是依靠兩條腿并行走路:一方面,通過架構(gòu)創(chuàng)新與算法優(yōu)化來突破現(xiàn)有技術(shù)的瓶頸,另一方面,在算力和數(shù)據(jù)問題得到更好解決的基礎(chǔ)上,繼續(xù)擴展模型規(guī)模。這種雙管齊下的方式,將為大模型的進(jìn)一步智能提升提供堅實的基礎(chǔ)。
來源:數(shù)智猿