中美AI軍備競賽的核心戰(zhàn)場：萬億級預訓練模型

人工智能 AI 訓練模型

凝視深空 | 2021-11-10 18:48

【數(shù)據(jù)猿導讀】人工智能是一個龐大的產(chǎn)業(yè)，要有全面的評估很困難。但是，我們可以從一個典型領(lǐng)域來“管中窺豹”——超大規(guī)模預訓練模型。

在人工智能這個領(lǐng)域，主流玩家就中美兩家。總體上呈現(xiàn)出美國領(lǐng)先，中國追趕的局面。中美都將人工智能作為戰(zhàn)略高地，傾注了大量的資源。

可以說，中美之間的人工智能產(chǎn)業(yè)競爭，已經(jīng)非常激烈了。某種程度上，中美正在進行人工智能的“軍備競賽”。

目前的競賽情況怎么樣了呢？

人工智能是一個龐大的產(chǎn)業(yè)，要有全面的評估很困難。但是，我們可以從一個典型領(lǐng)域來“管中窺豹”——超大規(guī)模預訓練模型。

之所以將超大規(guī)模預訓練模型，作為觀察中美人工智能競賽的“窗口”，因為這個領(lǐng)域比較符合軍備競賽的幾個特點：

第一，戰(zhàn)略地位顯著。

現(xiàn)階段，人工智能技術(shù)局限性還很大，某類模型往往只能解決特定細分領(lǐng)域的問題，模型“泛化”能力很差。通用人工智能才是人們的終極追求，目前的專用人工智能模型顯然不能滿足要求。解決問題的一種思路，就是不斷增加模型的參數(shù)量，增大模型的復雜性，提升模型的泛化能力。人們期望更大的參數(shù)規(guī)模，可以帶來更高的模型準確率，以及一個模型解決更多領(lǐng)域的問題。

超大規(guī)模預訓練模型能否實現(xiàn)通用人工智能，還未可知。但在目前來看，這是最有希望的一條路。量變引起質(zhì)變，只有“量”夠了，才有質(zhì)變的可能。我們可以對比一組數(shù)據(jù)：成年人大腦中約包含850-860億個神經(jīng)元，每個神經(jīng)元與3萬突觸連接，人腦突觸數(shù)量預計2500萬億左右。

人類的智能是怎么來的，本質(zhì)上就是來自于這些神經(jīng)元、突觸。人腦也是一臺計算機，這些神經(jīng)元、突觸就是基本的計算單元。如果要想人工智能達到人類水平，那在基本計算單元的數(shù)量規(guī)模上達到甚至超越人類大腦，就是一個必要條件。

按照這個思路，打造超大規(guī)模預訓練模型，增加模型參數(shù)，就相當于增加了模型的計算單元。也許，人工智能的“奇點”就是2500萬億計算單元。當然，預訓練模型的參數(shù)跟計算單元的概念還不一樣。但是，現(xiàn)在也沒有其他更好辦法，我們只能盡快把模型的參數(shù)規(guī)模提高到2500萬億量級，看看那時會發(fā)生些什么，沒準會出現(xiàn)奇跡呢。

從這個角度來看，打造千萬億參數(shù)規(guī)模的預訓練模型，是人類的一個超級工程，可能會對國家甚至人類社會產(chǎn)生重大影響。近代歷史有多個超級科學工程，必然曼哈頓計劃、阿波羅登月計劃、人類基因組計劃等，這些超級工程都拓寬了人類發(fā)展的“天花板”。

第二，競賽的成果易于評估。

要評價兩個預訓練模型誰更厲害，有很多指標，但有一個關(guān)鍵指標，那就是參數(shù)規(guī)模?？傮w上，1000億參數(shù)的預訓練模型，要比100億參數(shù)的預訓練模型更強大。

這有點像海軍的軍備，評價兩艘軍艦戰(zhàn)斗力，一個重要指標就是看軍艦的噸位。萬噸級的軍艦，戰(zhàn)斗力一般會強于千噸級軍艦。所有軍艦的噸位總和，也成為衡量兩個國家海軍實力關(guān)鍵指標。

同樣的道理，要看中美兩國人工智能競賽的情況，預訓練模型的參數(shù)規(guī)模，就是一個很好的指標。

第三，資源投入巨大，是燒錢的游戲。

跟軍備競賽類似，超大規(guī)模預訓練模型，不僅需要技術(shù)能力，也需要“鈔能力”。人工智能的核心要素有三個：算法、數(shù)據(jù)、算力。一個成功的大規(guī)模預訓練模型，需要大量天才來解決算法問題，需要積累海量的數(shù)據(jù)，模型訓練需要耗費大量的算力。每一項，都需要“鈔能力”的支持。

因此，超大規(guī)模預訓練模型，是巨頭的游戲。目前，全球也就中美兩國的少數(shù)幾個玩家。

第四，“戰(zhàn)況”激烈，你追我趕。

我統(tǒng)計了下中美主要的大規(guī)模預訓練模型，尤其是那些不斷打破參數(shù)規(guī)模記錄的一些模型，做了一張統(tǒng)計圖如下：

人工智能_AI_訓練模型-1

中美預訓練模型競賽

從上圖可以看出幾個特征：

(1) 美國在大規(guī)模預訓練模型上起步早，并且在持續(xù)不斷的進行演進。從AI2在2018年發(fā)布只有9400萬參數(shù)的ELMO開始，谷歌、微軟、英偉達、OpenAI等美國公司相繼接力，不斷打破參數(shù)規(guī)模記錄。而中國是在2021年才開始在大規(guī)模預訓練模型上開始發(fā)力，比美國晚了三年。

(2) 大規(guī)模預訓練模型只是少數(shù)玩家的游戲，無論中美，都只有為數(shù)不多的幾個玩家。這很好理解，預訓練模型的技術(shù)、數(shù)據(jù)、算力門檻很高，只有巨頭才能玩這個游戲。

(3) 中國后發(fā)優(yōu)勢明顯。雖然中國比美國晚幾年發(fā)力，但一出手就拉高了競賽的烈度。美國比較著名的GPT-3模型規(guī)模還在千億量級，谷歌的Swith Transformer剛開始邁入萬億門檻。中國的“萬億俱樂部”已經(jīng)有兩個玩家了，智源研究院參數(shù)規(guī)模已經(jīng)1.75萬億，超過了谷歌Swith Transformer的1.6萬億。阿里巴巴剛剛發(fā)布的M6的參數(shù)規(guī)模已經(jīng)突破了10萬億。

應該說，中國企業(yè)和機構(gòu)之所以能夠后來居上，跟預訓練模型本身的發(fā)展特征是分不開的。預訓練模型參數(shù)規(guī)模的增長并不是線性的，而是指數(shù)級的。下一代模型的參數(shù)規(guī)模，并不是上一代的兩三倍，很可能會高一個數(shù)量級。單看前幾年美國的發(fā)展，也符合這個規(guī)律，參數(shù)規(guī)模從億級逐步增加到10億、百億、千億、萬億。

所以，阿里巴巴創(chuàng)造的記錄很快就會被再次打破。美國的谷歌、微軟、OpenAI、英偉達等的實力，依然強大。下次打破記錄的很可能是這些公司。

（4）中國也形成了玩家“軍團”。對于一個國家而言，要想在某個領(lǐng)域?qū)崿F(xiàn)趕超，單靠某一家企業(yè)或機構(gòu)是不保險的，要有多個玩家才行。中國除了此次打破記錄的阿里巴巴，智源研究院的實力也很強。華為也參與了這個游戲，雖然目前只發(fā)布了千億級參數(shù)規(guī)模的預訓練模型，但以華為的秉性，以及其對人工智能的重視程度來看，相信華為絕不會止步于千億規(guī)模。

此外，中國玩家還有騰訊、百度、科大訊飛等。比如百度有ERNIE-M，騰訊有派大星，雖然他們在參數(shù)規(guī)模上沒能破當時的記錄，但也各有特色，屬于“小而美”的存在。

需要指出的是，中美之間是對手，但在面對自然的時候，又是隊友。下面我們再來看另一個數(shù)據(jù)：目前預訓練模型的參數(shù)規(guī)模是10萬億，而人類大腦突觸的規(guī)模超過2500萬億。人工智能的參數(shù)規(guī)模，與大腦突觸規(guī)模，還差了2個數(shù)量級。如果考慮到模型參數(shù)與大腦突觸在“算力”上的差別，這個差距會更大。

人工智能_AI_訓練模型-2

預訓練模型與人腦突觸規(guī)模對比

盡快把模型參數(shù)規(guī)模提高到2500萬億量級，是人類面臨的共同挑戰(zhàn)。當然，有能力解決這個挑戰(zhàn)的國家，主要就是中國和美國。革命尚未成功，同志仍需努力。

上面提到過，大規(guī)模預訓練模型是燒錢的游戲。參數(shù)規(guī)模越大，訓練成本越大。以參數(shù)規(guī)模為1750億的GPT-3為例，其一次訓練成本就高達1200 萬美元。那參數(shù)規(guī)模為2500萬億的模型，其訓練費用會是多少呢？雖然訓練費用并不隨著參數(shù)規(guī)模線性增長，但更大的模型，肯定會更費錢。假如人類設計出2500萬億參數(shù)規(guī)模的預訓練模型，其訓練成本可能會達到幾十億甚至上百億。

這有點類似粒子加速器。人類為了探索高能條件下的物理規(guī)律，粒子加速器造得越來越大，也越來越費錢。目前全球規(guī)模最大的粒子加速器是歐洲的LHC，這臺機器有幾十個國家參加，耗資幾百億。在中國科學界，一直有一個爭論，就是要不要花幾百億甚至上千億，造一個比LHC能級更高的粒子對撞機。

在可控核聚變領(lǐng)域，也有一個類似的項目，就是大名鼎鼎的ITER（國際熱核聚變實驗堆計劃）。ITER裝置是一個能產(chǎn)生大規(guī)模核聚變反應的超導托克馬克，俗稱“人造太陽”。即使以1998年的幣值算，都要耗資50億美元，也是幾十個國家參與。

在超大規(guī)模預訓練模型領(lǐng)域，如果發(fā)展到最后，發(fā)現(xiàn)千萬量級參數(shù)規(guī)模的模型真的要耗資幾十億甚至上百億，是否也可以參考上面的例子，搞一個全球合作呢？當然，中美是主力，其他國家也就打打醬油。

試想一下，一旦把AI模型的參數(shù)規(guī)模，提高到人類大腦突觸的量級，會不會迎來“奇點”？還是有點小期待啊。

文：凝視深空 / 數(shù)據(jù)猿

來源：數(shù)據(jù)猿

收藏分享

聲明：數(shù)據(jù)猿尊重媒體行業(yè)規(guī)范，相關(guān)內(nèi)容都會注明來源與作者；轉(zhuǎn)載我們原創(chuàng)內(nèi)容時，也請務必注明“來源：數(shù)據(jù)猿”與作者名稱，否則將會受到數(shù)據(jù)猿追責。