?

国产精品高潮呻吟久久AV无码,在线观看亚洲糸列,888奇米亚洲影视四色,中文字幕动漫精品第1页,国产大屁股视频免费区,半夜他强行挺进了我的体内,免费看国产曰批40分钟,国产女人片最新视频,要做AV在线播放,欧美韩日精品一区二区三区

算一筆細(xì)賬,ChatGPT、文心一言這類大模型到底要消耗多少GPU?

【數(shù)據(jù)猿導(dǎo)讀】 大模型的訓(xùn)練需要幾億打底,那要想將大模型進(jìn)行規(guī)?;瘧?yīng)用,比如支撐成百上千萬用戶的頻繁使用,那需要的算力成本可能就是百億量級(jí)了。 接下來,我們致力于搞清楚為什么ChatGPT這類大模型這么“吃”算力。尤其是要搞清楚在大模型的應(yīng)用階段,用戶量、業(yè)務(wù)量跟底層算力需求是什么...

算一筆細(xì)賬,ChatGPT、文心一言這類大模型到底要消耗多少GPU?

種種跡象表明,由ChatGPT引發(fā)的算力軍備競賽已經(jīng)悄然而至了。

從另一個(gè)側(cè)面也可以得到印證:近期,浪潮在接受媒體采訪時(shí),就曾對(duì)外表示,“AIGC火熱帶來AI服務(wù)器需求量的爆增,3月份我們發(fā)現(xiàn)AI(服務(wù)器)市場出現(xiàn)幾倍以上增長,以前(客戶關(guān)注點(diǎn))是能不能便宜點(diǎn),現(xiàn)在是能不能用得上。”

近日,有媒體援引知情人士消息稱,特斯拉CEO馬斯克在推特內(nèi)部啟動(dòng)了一項(xiàng)人工智能項(xiàng)目,為此購買了約1萬個(gè)GPU。

ChatGPT_文心一言_大模型_GPU-1

在此之前,在業(yè)界就不斷流傳各個(gè)互聯(lián)網(wǎng)大廠都在緊急備貨GPU,為其大模型開路。

地主家也沒余糧。ChatGPT 本身也一直被算力緊缺所困擾。4 月 6 日, ChatGPT 就" 因需求量太大暫停了升級(jí)服務(wù) ",并停止 Plus 付費(fèi)項(xiàng)目的銷售。

為了給ChatGPT 提供算力保障,其金主爸爸微軟可以說勞心勞力。據(jù)悉,微軟用幾億美元,耗費(fèi)上萬張英偉達(dá)A100芯片打造超算平臺(tái),只為給ChatGPT和新版必應(yīng)提供更好的算力。不僅如此,微軟還在Azure的60多個(gè)數(shù)據(jù)中心部署了幾十萬張GPU,用于ChatGPT的推理。

事實(shí)上,算力緊張這件事情,是從一開始就伴隨著ChatGPT 。當(dāng)初OpenAI選擇與微軟合作,算力就是一個(gè)至關(guān)重要的考慮因素。據(jù)悉,OpenAI在最初商量與微軟合作時(shí),OpenAI要求微軟在Azure云計(jì)算平臺(tái)上“騰出”足夠的算力單獨(dú)給它們使用,且確保它們不與Azure提供的其他服務(wù)產(chǎn)生沖突。

業(yè)界普遍認(rèn)為,大模型是巨頭們的“玩具”,動(dòng)輒上億元的投入,小玩家是上不了“賭桌”的。

但是,不要忘了ChatGPT這類大模型有兩面,一方面是模型訓(xùn)練,另一方面是模型推理應(yīng)用。動(dòng)輒幾億的算力投入,還只是模型訓(xùn)練階段。在模型推理應(yīng)用階段,對(duì)于算力的需求,要遠(yuǎn)遠(yuǎn)高于訓(xùn)練階段。

也就是說,大模型的訓(xùn)練需要幾億打底,那要想將大模型進(jìn)行規(guī)?;瘧?yīng)用,比如支撐成百上千萬用戶的頻繁使用,那需要的算力成本可能就是百億量級(jí)了。

接下來,我們致力于搞清楚為什么ChatGPT這類大模型這么“吃”算力。尤其是要搞清楚在大模型的應(yīng)用階段,用戶量、業(yè)務(wù)量跟底層算力需求是什么關(guān)系。在此基礎(chǔ)上,我們來測算,要支撐足夠的用戶量和業(yè)務(wù)規(guī)模,到底需要多少算力(尤其是GPU)。

ChatGPT訓(xùn)練階段的算力消耗

先來看看訓(xùn)練階段的算力消耗。

訓(xùn)練大型模型需要大量的算力,因?yàn)樾枰幚砗A康臄?shù)據(jù)。訓(xùn)練這類模型所需的算力取決于以下因素:模型的規(guī)模(參數(shù)數(shù)量)、訓(xùn)練數(shù)據(jù)集的大小、訓(xùn)練輪次、批次大小。

在此,我們假定要訓(xùn)練一個(gè)千億規(guī)模的大模型,用1PB數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練一次,并且在10天內(nèi)完成訓(xùn)練??纯葱枰亩嗌偎懔?,并計(jì)算這樣的算力消耗,如果用英偉達(dá)的芯片,需要多少芯片。

首先,我們要了解一個(gè)概念,即FLOPs(浮點(diǎn)運(yùn)算次數(shù))。FLOPs用來衡量執(zhí)行某個(gè)任務(wù)所需的計(jì)算量。假設(shè)一個(gè)千億(1000億)參數(shù)的大型模型,我們可以參考GPT-3。GPT-3中最大的模型(1750億參數(shù))的訓(xùn)練大約需要3.14 * 10^23次浮點(diǎn)運(yùn)算(FLOPs)。

ChatGPT_文心一言_大模型_GPU-2

我們可以通過以下簡化公式估算所需的FLOPs:

所需FLOPs = (千億參數(shù) / 1750億參數(shù)) * 3.14 * 10^23 FLOPs

根據(jù)這個(gè)公式,我們得出訓(xùn)練一個(gè)千億參數(shù)的模型大約需要1.8 * 10^23次浮點(diǎn)運(yùn)算。

接下來,我們來看看英偉達(dá)的芯片。以英偉達(dá)A100 GPU為例,其具有每秒19.5萬億次(19.5 TFLOPs)的浮點(diǎn)運(yùn)算能力。

ChatGPT_文心一言_大模型_GPU-3

要計(jì)算出需要多少個(gè)A100 GPU來滿足這個(gè)算力需求,我們可以使用以下公式:

所需GPU數(shù)量 = 1.8 * 10^23 FLOPs / (19.5 * 10^12 FLOPs/s * 訓(xùn)練時(shí)間秒數(shù))

如果希望在10天(約864000秒)內(nèi)完成訓(xùn)練,可以按照以下計(jì)算方式得到所需GPU數(shù)量:

所需GPU數(shù)量 = 1.8 * 10^23 FLOPs / (19.5 * 10^12 FLOPs/s * 864000s)

根據(jù)這個(gè)公式,在10天內(nèi)訓(xùn)練1000億參數(shù)規(guī)模、1PB訓(xùn)練數(shù)據(jù)集,大約需要10830個(gè)英偉達(dá)A100 GPU。

接下來,我們來計(jì)算大模型的訓(xùn)練成本。

要計(jì)算訓(xùn)練一個(gè)千億規(guī)模大型模型的總費(fèi)用,我們需要考慮以下因素:GPU成本、其他硬件成本(如CPU、內(nèi)存、存儲(chǔ)等)、數(shù)據(jù)中心成本(如電力、冷卻、維護(hù)等)、人力成本。

還是上面的例子,需要在10天內(nèi)訓(xùn)練1000億參數(shù)規(guī)模的大模型,總的成本如下:

GPU成本:

英偉達(dá)A100 GPU的價(jià)格因供應(yīng)商和購買數(shù)量而異,假設(shè)每個(gè)A100 GPU的成本約為10000美元,那么10830個(gè)GPU的總成本約為:

10830 * $10,000 = $108,300,000

其他硬件成本:

GPU只是整個(gè)計(jì)算系統(tǒng)的一部分,我們還需要考慮其他硬件設(shè)備的成本。包括CPU、內(nèi)存、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備等。這些硬件成本可能占據(jù)整體硬件成本的一部分,假設(shè)其他硬件成本占GPU成本的20%,那么:其他硬件成本 = $108,300,000 * 20% = $21,660,000

數(shù)據(jù)中心成本:

我們還需要考慮數(shù)據(jù)中心的成本,包括電力、冷卻、維護(hù)等。假設(shè)這些成本占GPU成本的10%,那么:數(shù)據(jù)中心成本 = $108,300,000 * 10% = $10,830,000

人力成本:

訓(xùn)練大型模型需要一支研究和工程團(tuán)隊(duì),包括研究員、工程師、數(shù)據(jù)科學(xué)家等。人力成本因團(tuán)隊(duì)規(guī)模和地區(qū)差異而異。在這里,我們假設(shè)人力成本約為200萬美元。

綜合以上因素,訓(xùn)練一個(gè)千億規(guī)模大型模型的總費(fèi)用大約為:

總費(fèi)用 = GPU成本 + 其他硬件成本 + 數(shù)據(jù)中心成本 + 人力成本

= $108,300,000 + $21,660,000 + $10,830,000 + $2,000,000

≈ $142,790,000

因此,在10天內(nèi)訓(xùn)練一個(gè)千億規(guī)模的大型模型大約需要花費(fèi)1.43億美元。

當(dāng)然,如果訓(xùn)練時(shí)間長一點(diǎn),就可以用更少的GPU,花費(fèi)更少的成本。但一般而言,總成本都會(huì)在幾千萬美元規(guī)模。

從上面的分析可以發(fā)現(xiàn),大模型真的是燒錢的游戲。先不考慮大模型的研發(fā),就是要完成一次大模型的訓(xùn)練,首先就要有上億的成本投入。

ChatGPT推理應(yīng)用的算力消耗

需要指出的是,并不是模型訓(xùn)練好了就萬事大吉。大模型的應(yīng)用不是免費(fèi)的,也是需要消耗算力的。

那么,在模型使用過程中,消耗的算力該怎么計(jì)算呢?

ChatGPT_文心一言_大模型_GPU-4

要計(jì)算一個(gè)用戶向ChatGPT提問并獲得回復(fù)所需的算力,我們需要考慮以下因素:模型規(guī)模(參數(shù)數(shù)量)、輸入文本長度(問題長度)、輸出文本長度(回復(fù)長度)、模型的計(jì)算復(fù)雜性。其他3個(gè)要素好理解,模型的計(jì)算復(fù)雜性是什么呢?模型計(jì)算復(fù)雜性指的是模型本身的復(fù)雜程度,它與模型維度(D)和模型層數(shù)(N)成正比。

用戶一個(gè)問題,需要消耗的算力,可以用以下公式計(jì)算:所需FLOPs ≈ L * D * N。其中,L是用戶問題的輸入長度與模型回答的輸出長度之和。

我們假設(shè)一個(gè)用戶問ChatGPT一個(gè)50個(gè)字的問題,ChatGPT給出了1000字的回復(fù)。完成這樣一次交互需要消耗的算力:

所需FLOPs ≈ L * D * N

≈ 1050 * 1280 * 96

≈ 128,448,000

因此,當(dāng)輸入問題長度為50個(gè)詞,輸出回復(fù)長度為1000個(gè)詞時(shí),處理一個(gè)用戶向ChatGPT提問并獲得回復(fù)所需的算力約為128.45百萬次浮點(diǎn)運(yùn)算(FLOPs)。

在此,我們需要澄清一個(gè)問題:ChatGPT回答不同類型的問題,只要問題長度和答案長度都一樣,其消耗的算力都一樣么?比如同樣的問題和答案長度,寫小說和做算術(shù)題這兩類任務(wù)消耗的算力是否一樣。

在理論上,只要輸入問題長度和輸出答案長度相同,處理不同類型問題所需的算力應(yīng)該是相似的。這是因?yàn)椋?strong>無論問題類型如何,Transformer模型的計(jì)算復(fù)雜性主要取決于輸入序列長度(L)、模型維度(D)和模型層數(shù)(N)。不過,在實(shí)際應(yīng)用中,根據(jù)問題的難度和特定上下文,某些任務(wù)可能需要更多的計(jì)算步驟來生成更準(zhǔn)確的答案。

例如,在生成小說文本時(shí),模型可能需要花費(fèi)更多的計(jì)算資源來保持句子的連貫性、情感和文學(xué)風(fēng)格。而在解決算術(shù)問題時(shí),模型可能需要更多的計(jì)算資源來處理數(shù)學(xué)邏輯。然而,從整體來看,兩者之間的計(jì)算復(fù)雜性差異相對(duì)較小。

因此,在問題長度和答案長度相同的情況下,不同類型的任務(wù)(如寫小說和解決算術(shù)問題)消耗的算力可能存在一定差異,但總體上應(yīng)該相差不大。

接下來,我們要進(jìn)一步計(jì)算用戶使用ChatGPT這類大模型的算力成本,也就是說用戶問一個(gè)問題,到底要花多少錢。

一般而言,大模型都部署在云端,用戶通過云服務(wù)來調(diào)用相應(yīng)的計(jì)算資源。

要計(jì)算使用云計(jì)算服務(wù)調(diào)用ChatGPT的費(fèi)用,我們需要了解云計(jì)算廠商的計(jì)算資源定價(jià)。這些價(jià)格可能因廠商、地區(qū)和資源類型而異。

我們以Amazon Web Services(AWS)的英偉達(dá)A100 GPU為例,我們可以估算費(fèi)用。

首先回顧我們之前的計(jì)算,對(duì)于一個(gè)輸入長度為50字、輸出長度為1000字的問題,處理一個(gè)請求所需的算力約為128.45百萬次浮點(diǎn)運(yùn)算(FLOPs)。

現(xiàn)在,我們需要了解GPU的性能以及在云計(jì)算平臺(tái)上的計(jì)費(fèi)方式。以AWS的g4dn實(shí)例為例,它使用的是英偉達(dá)T4 GPU,每個(gè)GPU具有8.1 TFLOPs的計(jì)算能力(這與我們之前提到的A100 GPU(具有19.5 TFLOPs的性能)不同。因此,我們需要對(duì)計(jì)算進(jìn)行一些調(diào)整。)

假設(shè)我們需要在1秒內(nèi)完成這個(gè)請求。那么,我們可以計(jì)算所需的T4 GPU數(shù)量:

所需T4 GPU數(shù)量 = 所需FLOPs / (8.1 * 10^12 FLOPs/s)

≈ 128.45 * 10^6 / (8.1 * 10^12)

≈ 0.00001585

根據(jù)AWS的價(jià)格策略,以美國東部地區(qū)為例,g4dn.xlarge實(shí)例(1個(gè)英偉達(dá)T4 GPU)的按需價(jià)格約為0.526美元/小時(shí)。如果我們假設(shè)每個(gè)請求都需要1秒鐘完成,那么一小時(shí)內(nèi)可以處理的請求數(shù)量為:

每小時(shí)處理的請求數(shù)量 = 3600秒 / 1秒

= 3600

根據(jù)這個(gè)估算,使用一個(gè)g4dn.xlarge實(shí)例處理請求的成本約為:

每小時(shí)成本 = $0.526 / 3600 請求

≈ $0.00014611 / 請求

所以,使用云計(jì)算服務(wù)(以AWS為例)調(diào)用ChatGPT的能力,每處理一個(gè)輸入長度為50字、輸出長度為1000字的問題,大約需要消耗0.00014611美元的云計(jì)算資源。用1美元可以向ChatGPT提問約6843個(gè)問題。

最后,我們來討論另一個(gè)問題,看看一個(gè)英偉達(dá)芯片可以同時(shí)支撐多少用戶使用。

為了估算英偉達(dá)GPU可以同時(shí)支撐多少個(gè)用戶,我們需要了解GPU的性能。以英偉達(dá)T4 GPU為例,它具有8.1 TFLOPs的計(jì)算能力。之前我們計(jì)算過,處理一個(gè)輸入長度為50字、輸出長度為1000字的問題所需的算力約為128.45百萬次浮點(diǎn)運(yùn)算(FLOPs)。

假設(shè)每個(gè)用戶請求的處理時(shí)間是1秒。這樣,我們可以計(jì)算英偉達(dá)T4 GPU可以同時(shí)支撐的用戶數(shù)量:

所需FLOPs = 128.45 * 10^6 FLOPs

T4性能 = 8.1 * 10^12 FLOPs/s

用戶數(shù)量 = T4性能 / 所需FLOPs

= (8.1 * 10^12 FLOPs/s) / (128.45 * 10^6 FLOPs)

≈ 63,088

根據(jù)這個(gè)估算,一塊英偉達(dá)T4 GPU可以同時(shí)支撐大約63,088個(gè)用戶(假設(shè)每個(gè)用戶請求的處理時(shí)間是1秒,輸入長度為50字,輸出長度為1000字)。

如果換成英偉達(dá)的A100(19.5 TFLOPs的計(jì)算能力),則一塊A100芯片可以同時(shí)支撐15萬用戶使用。

注意,以上計(jì)算都是建立在1000億參數(shù)規(guī)模的大模型基礎(chǔ)上的。目前的大模型參數(shù)規(guī)模普遍要超過1000億,一塊芯片能夠支撐的用戶數(shù)要小于上面的計(jì)算數(shù)值。

根據(jù)上面的計(jì)算,對(duì)于一個(gè)5000億參數(shù)規(guī)模的大模型,一個(gè)A100芯片能夠支撐的用戶數(shù)量預(yù)計(jì)在3萬左右。那要同時(shí)支撐1億用戶使用,需要的A100芯片數(shù)量就要超過3000個(gè);如果使用T4GPU,那需要的芯片數(shù)量可能得上萬。

中國在這場GPU盛宴中,不應(yīng)該缺席

在這場大模型引發(fā)的算力軍備競賽當(dāng)中,GPU芯片成為整個(gè)行業(yè)的焦點(diǎn)。

為此,數(shù)據(jù)猿依據(jù)Jon Peddie Research(JPR)報(bào)告(2020年)、各廠商官方網(wǎng)站和各種硬件評(píng)測網(wǎng)站的信息,統(tǒng)計(jì)了全球GPU市場的情況,包括主要廠商及其典型產(chǎn)品、性能參數(shù)、產(chǎn)品價(jià)格、出貨量和市場占比,具體如下表:

ChatGPT_文心一言_大模型_GPU-5

在深度學(xué)習(xí)和人工智能的黃金時(shí)代,GPU猶如翱翔于浩渺天空的翅膀,賦予大模型行業(yè)強(qiáng)大的推進(jìn)力。這些并行計(jì)算的神奇力量,像涓涓細(xì)流匯成磅礴大河,攜帶著無盡的智慧,助推人類探索知識(shí)的邊界。在GPU的支持下,我們打破了次元壁,砥礪前行,邁向前所未有的高峰。

正是因?yàn)镚PU強(qiáng)大的計(jì)算能力,大模型得以茁壯成長,從淺層神經(jīng)網(wǎng)絡(luò)發(fā)展到深度學(xué)習(xí)的復(fù)雜模型,從局限的應(yīng)用領(lǐng)域擴(kuò)展至無所不及的智能場景。今日的計(jì)算機(jī)視覺、自然語言處理、強(qiáng)化學(xué)習(xí)等領(lǐng)域的突破和革新,離不開GPU這位得力助手的默默付出。而大模型所孕育的智慧,正源源不斷地流入各個(gè)行業(yè)。

在未來的道路上,GPU將繼續(xù)擔(dān)任大模型行業(yè)的引領(lǐng)者,攜手開拓新的計(jì)算領(lǐng)域,為人類書寫更為輝煌的篇章。

目前來看,在整個(gè)AIGC產(chǎn)業(yè)中,中國的應(yīng)用生態(tài)建設(shè)是最強(qiáng)的,在大模型領(lǐng)域雖然跟OpenAI還有一定的差距,但追趕很快。但是,在GPU芯片領(lǐng)域,我們差距還非常大,且在短期內(nèi)看不到趕超的希望。

就像一個(gè)木桶,最終決定能裝多少水,不是取決于長板,而是決定于最短的那塊木板。在這場軍備競賽當(dāng)中,我們不要只關(guān)注大模型,而忽視了GPU芯片。中國要想在這個(gè)領(lǐng)域?qū)崿F(xiàn)追趕,就必須要補(bǔ)上GPU的短板。

ChatGPT_文心一言_大模型_GPU-6

文:一蓑煙雨 / 數(shù)據(jù)猿


來源:數(shù)據(jù)猿

聲明:數(shù)據(jù)猿尊重媒體行業(yè)規(guī)范,相關(guān)內(nèi)容都會(huì)注明來源與作者;轉(zhuǎn)載我們原創(chuàng)內(nèi)容時(shí),也請務(wù)必注明“來源:數(shù)據(jù)猿”與作者名稱,否則將會(huì)受到數(shù)據(jù)猿追責(zé)。

刷新相關(guān)文章

歐洲多國對(duì) ChatGPT 展開調(diào)查;高通被韓國罰款超50億;能用ChatGPT 來炒股了?丨每日大事件
歐洲多國對(duì) ChatGPT 展開調(diào)查;高通被韓國罰款超50億;能用C...
軟銀計(jì)劃大幅減持阿里巴巴;美國將12家中國芯片貿(mào)易商納入“實(shí)體清單”;知乎發(fā)布中文大模型“知海圖AI”丨每日大事件
軟銀計(jì)劃大幅減持阿里巴巴;美國將12家中國芯片貿(mào)易商納入“實(shí)...
蹭ChatGPT熱點(diǎn)有風(fēng)險(xiǎn),昆侖萬維蹭熱點(diǎn)被發(fā)監(jiān)管函
蹭ChatGPT熱點(diǎn)有風(fēng)險(xiǎn),昆侖萬維蹭熱點(diǎn)被發(fā)監(jiān)管函

我要評(píng)論

數(shù)據(jù)猿微信公眾號(hào)
上海世博展覽館
數(shù)字經(jīng)理時(shí)代
返回頂部