AI公司擠破頭搶數(shù)據(jù):OpenAI“扒”視頻內(nèi)容,谷歌“覬覦”辦公數(shù)據(jù)
原創(chuàng) 王茜茜 | 2024-04-09 20:49
【數(shù)據(jù)猿導(dǎo)讀】 4月4日,在接受Bloomberg Originals采訪時(shí),YouTube首席執(zhí)行官尼爾·莫漢(Neal Mohan)對(duì)OpenAI發(fā)起了警告,稱(chēng)如果Sora利用了YouTube的視頻來(lái)訓(xùn)練,這將是違反平臺(tái)政策和規(guī)定的,因?yàn)閯?chuàng)作者并不希望自己的內(nèi)容被拿來(lái)利用。

4月4日,在接受Bloomberg Originals采訪時(shí),YouTube首席執(zhí)行官尼爾·莫漢(Neal Mohan)對(duì)OpenAI發(fā)起了警告,稱(chēng)如果Sora利用了YouTube的視頻來(lái)訓(xùn)練,這將是違反平臺(tái)政策和規(guī)定的,因?yàn)閯?chuàng)作者并不希望自己的內(nèi)容被拿來(lái)利用。
但有趣的是,當(dāng)主持人Emily Cheung追問(wèn)Google是否也用YouTube數(shù)據(jù)訓(xùn)練過(guò)自家的Gemini AI,是否為創(chuàng)作者支付了相關(guān)費(fèi)用時(shí),這位CEO的表述變得有些“曖昧”。他承認(rèn)Google確實(shí)使用了YouTube的數(shù)據(jù)來(lái)訓(xùn)練Gemini,但同時(shí)聲稱(chēng)他們是“按照條款規(guī)則”進(jìn)行的,并沒(méi)有透露是否有為創(chuàng)作者支付相關(guān)費(fèi)用。
這種回應(yīng)顯然無(wú)法讓網(wǎng)友信服,于是他們開(kāi)始了“花式”吐槽:
“創(chuàng)作者們,看到了嗎?YouTube現(xiàn)在說(shuō)它擁有你們制作的內(nèi)容。”
“不要把‘不該說(shuō)’的事情說(shuō)出來(lái)!”
“谷歌也沒(méi)有為創(chuàng)作者支付數(shù)據(jù)費(fèi)用吧?好吧,是的,服務(wù)條款說(shuō)不用付費(fèi)。”
盡管目前尚無(wú)證據(jù)顯示Sora確實(shí)使用了YouTube視頻進(jìn)行訓(xùn)練,但這位CEO的警告很可能是受到最近《華爾街日?qǐng)?bào)》的一篇報(bào)道影響。該報(bào)道稱(chēng),OpenAI開(kāi)發(fā)了語(yǔ)音識(shí)別工具Whisper,可以將YouTube視頻轉(zhuǎn)錄為文字,為其大型語(yǔ)言模型提供新的訓(xùn)練數(shù)據(jù)。
表面上,YouTube似乎站在創(chuàng)作者一邊,但實(shí)際上,無(wú)論是谷歌還是OpenAI,他們都在竭盡全力尋找各種合規(guī)或灰色地帶的手段來(lái)獲取大量訓(xùn)練數(shù)據(jù),以確保在人工智能領(lǐng)域保持領(lǐng)先地位,而創(chuàng)作者利益等問(wèn)題,顯然并不是他們的首要考慮。
互聯(lián)網(wǎng)上的可用數(shù)據(jù)將很快被耗盡
2020 年 1 月,約翰·霍普金斯大學(xué)理論物理學(xué)家賈里德·卡普蘭(Jared Kaplan)和九名 OpenAI 研究人員一起發(fā)表了一篇關(guān)于人工智能的開(kāi)創(chuàng)性論文,得出了一個(gè)明確的結(jié)論—訓(xùn)練大型語(yǔ)言模型的數(shù)據(jù)越多,它的性能就越好。
自此,“(數(shù)據(jù))規(guī)模就是一切”成為人工智能領(lǐng)域的一大信條。OpenAI的ChatGPT-3.5的驚艷表現(xiàn),更是點(diǎn)燃了整個(gè)生成式AI賽道的狂歡,引爆了對(duì)數(shù)據(jù)的需求。
Meta全球合作伙伴和內(nèi)容副總裁尼克·格魯丁 (Nick Grudin) 曾在一次會(huì)議上表示:“唯一阻礙我們達(dá)到 ChatGPT 水平的因素就是數(shù)據(jù)量。”
AI巨頭們隨之開(kāi)啟了爭(zhēng)奪數(shù)據(jù)資源的激烈競(jìng)賽:GPT-3于2020年3月推出,使用了3000億的token;去年上線的GPT-4使用了12萬(wàn)億token;如果遵循當(dāng)前的增長(zhǎng)軌跡,GPT-5可能會(huì)需要 60 萬(wàn)億到 100 萬(wàn)億的token。谷歌于去年推出的PaLM 2使用了3.6萬(wàn)億的token,而2022年上線的PaLm只用了7800萬(wàn)的token。
(不同的大語(yǔ)言模型對(duì)訓(xùn)練數(shù)據(jù)的需求量。Credit:《紐約時(shí)報(bào)》)
由于這些大語(yǔ)言模型使用數(shù)據(jù)的速度比產(chǎn)生數(shù)據(jù)的速度還要快,這便導(dǎo)致數(shù)據(jù)資源,尤其是高質(zhì)量的,已經(jīng)被大量“開(kāi)采”和使用。
根據(jù)人工智能研究機(jī)構(gòu)Epoch的預(yù)測(cè),到2026年,所有高質(zhì)量可用數(shù)據(jù)都可能被耗盡, 去年5月,OpenAI首席執(zhí)行官Sam Altman也在技術(shù)會(huì)議上公開(kāi)承認(rèn),AI公司們?cè)诓痪玫膶?lái)會(huì)耗盡互聯(lián)網(wǎng)上所有可用的數(shù)據(jù)。
(低質(zhì)量的語(yǔ)言數(shù)據(jù)預(yù)計(jì)在2050年被用完,高質(zhì)量的語(yǔ)言數(shù)據(jù)預(yù)計(jì)在2026年用完,視覺(jué)數(shù)據(jù)預(yù)計(jì)在2060年用完。Credit:Epoch)
如果沒(méi)有新的數(shù)據(jù)源或者無(wú)法提高數(shù)據(jù)利用效率,那么依賴龐大數(shù)據(jù)集的機(jī)器學(xué)習(xí)模型的發(fā)展速度將逐漸放緩。這意味著,AI公司為了維持技術(shù)領(lǐng)先優(yōu)勢(shì),不得不開(kāi)啟激烈的數(shù)據(jù)爭(zhēng)奪戰(zhàn),不斷地尋找新的數(shù)據(jù)源。
新一輪的AI軍備競(jìng)賽:獲取更多“數(shù)據(jù)”
OpenAI在2021年底就已經(jīng)感受到了“數(shù)據(jù)饑渴”的壓力,為了訓(xùn)練更大的模型,他們開(kāi)始四處尋覓數(shù)據(jù)。在OpenAI總裁Greg Brockman的帶領(lǐng)下,Whisper項(xiàng)目應(yīng)運(yùn)而生,通過(guò)轉(zhuǎn)錄超過(guò)100萬(wàn)小時(shí)的YouTube視頻,為GPT-4模型注入新的血液。雖然這種做法有法律風(fēng)險(xiǎn),但OpenAI的團(tuán)隊(duì)依然認(rèn)為這是值得的。
另一邊,谷歌并沒(méi)有“高尚”到哪去,它也轉(zhuǎn)錄了 YouTube 視頻為其大語(yǔ)言模型獲取文本,甚至還盯上了用戶在Google Docs(谷歌文檔),Google Sheets(谷歌表格),Google Slides(谷歌PPT),以及Google Maps(谷歌地圖)等服務(wù)里產(chǎn)生的內(nèi)容。
據(jù)估算,這些應(yīng)用程序中蘊(yùn)藏著數(shù)十億個(gè)token。為了以后能有機(jī)會(huì)利用這些數(shù)據(jù),去年6月,谷歌要求隱私團(tuán)隊(duì)修改政策,并特意在美國(guó)獨(dú)立日假期期間7月1日發(fā)布了新政策,以分散公眾的注意力。目前,谷歌聲稱(chēng)沒(méi)有在實(shí)驗(yàn)計(jì)劃之外使用這些數(shù)據(jù)。
在這場(chǎng)“數(shù)據(jù)淘金潮”中,擁有大量用戶數(shù)據(jù)的平臺(tái)格外受到關(guān)注:
在ChatGPT推出后不久,“受到刺激”的Meta、谷歌、亞馬遜和蘋(píng)果等科技巨頭紛紛與Shutterstock等圖片庫(kù)提供商達(dá)成協(xié)議,獲取其數(shù)億張圖片、視頻和音樂(lè)文件用于AI訓(xùn)練。據(jù)Shutterstock透露,最初的交易額在2500萬(wàn)美元到5000萬(wàn)美元之間,隨著對(duì)數(shù)據(jù)的需求增加,這一數(shù)字還在不斷上升。
Photobucket,這個(gè)曾服務(wù)于Myspace和Friendster的圖片托管網(wǎng)站,也變成了科技公司爭(zhēng)奪數(shù)據(jù)的焦點(diǎn)。據(jù)稱(chēng),多家科技巨頭正在與Photobucket談判,意圖獲取其130億張照片和視頻資料,以用于訓(xùn)練他們的生成式人工智能模型。這些資料的定價(jià)范圍,從每張圖片的5美分到1美元不等,而視頻的價(jià)值則更高,每個(gè)超過(guò)1美元。盡管Photobucket的當(dāng)前用戶數(shù)僅為200萬(wàn),遠(yuǎn)低于其7000萬(wàn)的巔峰用戶量,它所擁有的龐大數(shù)據(jù)量仍舊極具價(jià)值。
Shutterstock的競(jìng)爭(zhēng)對(duì)手Freepik同樣宣布已經(jīng)與兩家大型科技公司達(dá)成協(xié)議,以每張圖片2到4美分的價(jià)格,許可其檔案中大部分的2億張圖像。該公司還表示,有5筆類(lèi)似的交易正在進(jìn)行中,但拒絕透露買(mǎi)家身份。
谷歌與Reddit簽訂了年度6000萬(wàn)美元的使用協(xié)議,獲取高質(zhì)量的長(zhǎng)篇內(nèi)容,用以訓(xùn)練其大型語(yǔ)言模型。
即便擁有Facebook和Instagram這樣大規(guī)模的社交平臺(tái),Meta仍面臨著高質(zhì)量數(shù)據(jù)來(lái)源的短缺問(wèn)題。由于這兩個(gè)平臺(tái)缺少深度內(nèi)容的沉淀,Meta試圖收購(gòu)Simon & Schuster出版社,以獲取長(zhǎng)篇作品。此外,為了快速獲取數(shù)據(jù)進(jìn)行訓(xùn)練,該公司抓取了互聯(lián)網(wǎng)上幾乎所有可用的英語(yǔ)書(shū)籍、散文、詩(shī)歌和新聞文章,甚至一些受版權(quán)保護(hù)的內(nèi)容。
對(duì)于創(chuàng)作者來(lái)說(shuō),他們生產(chǎn)的大量?jī)?nèi)容在不知情的情況下被科技公司用于訓(xùn)練,而這些公司利用這些數(shù)據(jù)來(lái)優(yōu)化自己的盈利產(chǎn)品,而創(chuàng)作者卻分文不得,這種情況多少有些不公平。
《紐約時(shí)報(bào)》去年起訴 OpenAI 和微軟,稱(chēng)其在未經(jīng)許可的情況下使用受版權(quán)保護(hù)的新聞文章來(lái)訓(xùn)練人工智能聊天機(jī)器人。OpenAI 和微軟卻表示,使用這些文章是“合理使用”,或者說(shuō)是版權(quán)法允許的,因?yàn)樗麄優(yōu)榱瞬煌哪康亩脑炝诉@些作品。
“合成數(shù)據(jù)”是出路嗎?
隨著互聯(lián)網(wǎng)上可用的“天然資源”變得日益稀缺,AI行業(yè)正在探索新的數(shù)據(jù)來(lái)源,以滿足未來(lái)大模型訓(xùn)練的需求。其中,合成數(shù)據(jù)成為了一條潛在的途徑。
顧名思義,合成數(shù)據(jù)并非直接從現(xiàn)實(shí)世界中收集,而是通過(guò)算法生成的文本、圖像和代碼,旨在模擬現(xiàn)實(shí)數(shù)據(jù)的特征和行為,從而讓系統(tǒng)能夠從自生成的內(nèi)容中學(xué)習(xí)。
換句話說(shuō),系統(tǒng)從它們自己產(chǎn)生的東西中學(xué)習(xí)。
這是有成功案例的。例如,Anthropic在上個(gè)月推出的Claude 3 LLM就使用了部分“合成數(shù)據(jù)”來(lái)進(jìn)行訓(xùn)練,在最后的榜單性能跑分全面超越GPT-4。
Sam Altman在去年5月也提出了用合成數(shù)據(jù)來(lái)訓(xùn)練大語(yǔ)言模型的路徑:模型可以產(chǎn)生類(lèi)似人類(lèi)的文本,然后這些文本數(shù)據(jù)可以再被用來(lái)訓(xùn)練模型,將幫助開(kāi)發(fā)人員構(gòu)建日益強(qiáng)大的技術(shù)并減少對(duì)受版權(quán)保護(hù)的數(shù)據(jù)的依賴。
理論上,這種方法能夠形成一個(gè)完美的閉環(huán),既滿足了大規(guī)模AI模型對(duì)數(shù)據(jù)的龐大需求,又避免了直接從用戶那里收集敏感信息的爭(zhēng)議和風(fēng)險(xiǎn)。
但我們并不能過(guò)分樂(lè)觀,近幾個(gè)月來(lái),研究人員發(fā)現(xiàn),在人工智能生成的數(shù)據(jù)上訓(xùn)練人工智能模型將是一種數(shù)字形式的“近親繁殖”,最終導(dǎo)致“模型崩潰”或“ 哈布斯堡詛咒(Habsburg AI)。”
而進(jìn)一步模型崩潰會(huì)導(dǎo)致生成模型輸出低質(zhì)量、缺乏多樣性的結(jié)果,不僅降低了模型的泛化能力和應(yīng)用價(jià)值,增加了訓(xùn)練和調(diào)試的難度及成本,損害用戶對(duì)模型及其背后系統(tǒng)的信任和可信度,最終對(duì)研究進(jìn)展和技術(shù)創(chuàng)新造成阻礙。
無(wú)論是獲取天然數(shù)據(jù)還是生產(chǎn)合成數(shù)據(jù),在人工智能競(jìng)爭(zhēng)中,小型公司都面臨著嚴(yán)峻的挑戰(zhàn)。他們既沒(méi)有足夠的資金來(lái)購(gòu)買(mǎi)版權(quán)數(shù)據(jù),也無(wú)法獲取存放在科技巨頭擁有的平臺(tái)上的用戶數(shù)據(jù)。
在Reddit上,一些創(chuàng)業(yè)者感嘆道:“是的,這是違反了(YouTube)的用戶協(xié)議,但老實(shí)說(shuō),我們處于困境中,因?yàn)榇罂萍脊緣艛嗔耸袌?chǎng)。我的公司因?yàn)闊o(wú)法爬取開(kāi)放網(wǎng)絡(luò)的內(nèi)容而崩潰,這是因?yàn)?Twitter、Facebook 和 Google 的反競(jìng)爭(zhēng)行為。”
“這只會(huì)引發(fā)一系列問(wèn)題。所有這些公司都在不斷地侵犯對(duì)方,但這只是為了排擠更小的公司。這些大公司都有罪,否則就無(wú)法正常運(yùn)轉(zhuǎn)。”
在這個(gè)以數(shù)據(jù)為王的時(shí)代,AI公司的行為揭示了一個(gè)深刻的真相:在追求技術(shù)領(lǐng)先的路上,數(shù)據(jù)的獲取和使用成了無(wú)可避免的戰(zhàn)場(chǎng)。隨著數(shù)據(jù)資源的日益緊張,各大公司不惜一切代價(jià)尋找新的數(shù)據(jù)源,即便這意味著涉足法律和道德的灰色地帶。這種做法不僅引發(fā)了關(guān)于數(shù)據(jù)隱私、版權(quán)、以及創(chuàng)作者權(quán)益的廣泛爭(zhēng)論,也暴露了現(xiàn)有數(shù)據(jù)利用機(jī)制的漏洞和不足。
在這場(chǎng)由數(shù)據(jù)驅(qū)動(dòng)的技術(shù)競(jìng)賽中,既有激動(dòng)人心的進(jìn)展,也有令人憂慮的隱患。技術(shù)的發(fā)展不應(yīng)以犧牲個(gè)人隱私和創(chuàng)作者權(quán)益為代價(jià),合理合法地利用數(shù)據(jù),保護(hù)數(shù)據(jù)來(lái)源的同時(shí),開(kāi)發(fā)更加高效、公平的數(shù)據(jù)利用機(jī)制,將是人工智能行業(yè)未來(lái)發(fā)展的關(guān)鍵。隨著技術(shù)和社會(huì)的進(jìn)步,我們期待一個(gè)更加透明、公正的數(shù)據(jù)生態(tài)系統(tǒng)的建立,以此推動(dòng)人工智能技術(shù)健康、持續(xù)的發(fā)展。
來(lái)源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
不容錯(cuò)過(guò)的資訊
-
1八成大模型選擇騰訊云存儲(chǔ);自動(dòng)駕駛汽車(chē)
-
2中國(guó)電科黨組成員、副總經(jīng)理何文忠接受審
-
32024云谷“論數(shù)”|每日互動(dòng)發(fā)布惠企政策
-
4The "360AI Office" product will
-
5Baidu intelligent cloud released t
-
6速騰聚創(chuàng)財(cái)報(bào)揭秘:是行業(yè)翹楚還是泡沫制
-
7震撼來(lái)襲,精彩前瞻|2024人工智能大模型
-
8China Mobile announced the officia
-
9實(shí)在智能與中國(guó)信通院聯(lián)合牽頭智能體(Ag
-
10“因聚而生 數(shù)智有為” 華為舉辦中國(guó)合
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
