AI公司擠破頭搶數(shù)據(jù)：OpenAI“扒”視頻內(nèi)容，谷歌“覬覦”辦公數(shù)據(jù)

AI公司 OpenAI 谷歌

原創(chuàng) 王茜茜 | 2024-04-09 20:49

【數(shù)據(jù)猿導(dǎo)讀】 4月4日，在接受Bloomberg Originals采訪時(shí)，YouTube首席執(zhí)行官尼爾·莫漢（Neal Mohan）對(duì)OpenAI發(fā)起了警告，稱(chēng)如果Sora利用了YouTube的視頻來(lái)訓(xùn)練，這將是違反平臺(tái)政策和規(guī)定的，因?yàn)閯?chuàng)作者并不希望自己的內(nèi)容被拿來(lái)利用。

AI公司擠破頭搶數(shù)據(jù)：OpenAI“扒”視頻內(nèi)容，谷歌“覬覦”辦公數(shù)據(jù)

4月4日，在接受Bloomberg Originals采訪時(shí)，YouTube首席執(zhí)行官尼爾·莫漢（Neal Mohan）對(duì)OpenAI發(fā)起了警告，稱(chēng)如果Sora利用了YouTube的視頻來(lái)訓(xùn)練，這將是違反平臺(tái)政策和規(guī)定的，因?yàn)閯?chuàng)作者并不希望自己的內(nèi)容被拿來(lái)利用。

但有趣的是，當(dāng)主持人Emily Cheung追問(wèn)Google是否也用YouTube數(shù)據(jù)訓(xùn)練過(guò)自家的Gemini AI，是否為創(chuàng)作者支付了相關(guān)費(fèi)用時(shí)，這位CEO的表述變得有些“曖昧”。他承認(rèn)Google確實(shí)使用了YouTube的數(shù)據(jù)來(lái)訓(xùn)練Gemini，但同時(shí)聲稱(chēng)他們是“按照條款規(guī)則”進(jìn)行的，并沒(méi)有透露是否有為創(chuàng)作者支付相關(guān)費(fèi)用。

這種回應(yīng)顯然無(wú)法讓網(wǎng)友信服，于是他們開(kāi)始了“花式”吐槽：

“創(chuàng)作者們，看到了嗎？YouTube現(xiàn)在說(shuō)它擁有你們制作的內(nèi)容。”

“不要把‘不該說(shuō)’的事情說(shuō)出來(lái)！”

AI公司_OpenAI_谷歌-1

“谷歌也沒(méi)有為創(chuàng)作者支付數(shù)據(jù)費(fèi)用吧？好吧，是的，服務(wù)條款說(shuō)不用付費(fèi)。”

AI公司_OpenAI_谷歌-2

盡管目前尚無(wú)證據(jù)顯示Sora確實(shí)使用了YouTube視頻進(jìn)行訓(xùn)練，但這位CEO的警告很可能是受到最近《華爾街日?qǐng)?bào)》的一篇報(bào)道影響。該報(bào)道稱(chēng)，OpenAI開(kāi)發(fā)了語(yǔ)音識(shí)別工具Whisper，可以將YouTube視頻轉(zhuǎn)錄為文字，為其大型語(yǔ)言模型提供新的訓(xùn)練數(shù)據(jù)。

表面上，YouTube似乎站在創(chuàng)作者一邊，但實(shí)際上，無(wú)論是谷歌還是OpenAI，他們都在竭盡全力尋找各種合規(guī)或灰色地帶的手段來(lái)獲取大量訓(xùn)練數(shù)據(jù)，以確保在人工智能領(lǐng)域保持領(lǐng)先地位，而創(chuàng)作者利益等問(wèn)題，顯然并不是他們的首要考慮。

互聯(lián)網(wǎng)上的可用數(shù)據(jù)將很快被耗盡

2020 年 1 月，約翰·霍普金斯大學(xué)理論物理學(xué)家賈里德·卡普蘭（Jared Kaplan）和九名 OpenAI 研究人員一起發(fā)表了一篇關(guān)于人工智能的開(kāi)創(chuàng)性論文，得出了一個(gè)明確的結(jié)論—訓(xùn)練大型語(yǔ)言模型的數(shù)據(jù)越多，它的性能就越好。

自此，“（數(shù)據(jù)）規(guī)模就是一切”成為人工智能領(lǐng)域的一大信條。OpenAI的ChatGPT-3.5的驚艷表現(xiàn)，更是點(diǎn)燃了整個(gè)生成式AI賽道的狂歡，引爆了對(duì)數(shù)據(jù)的需求。

Meta全球合作伙伴和內(nèi)容副總裁尼克·格魯丁 (Nick Grudin) 曾在一次會(huì)議上表示：“唯一阻礙我們達(dá)到 ChatGPT 水平的因素就是數(shù)據(jù)量。”

AI巨頭們隨之開(kāi)啟了爭(zhēng)奪數(shù)據(jù)資源的激烈競(jìng)賽：GPT-3于2020年3月推出，使用了3000億的token；去年上線的GPT-4使用了12萬(wàn)億token；如果遵循當(dāng)前的增長(zhǎng)軌跡，GPT-5可能會(huì)需要 60 萬(wàn)億到 100 萬(wàn)億的token。谷歌于去年推出的PaLM 2使用了3.6萬(wàn)億的token，而2022年上線的PaLm只用了7800萬(wàn)的token。

AI公司_OpenAI_谷歌-3

（不同的大語(yǔ)言模型對(duì)訓(xùn)練數(shù)據(jù)的需求量。Credit：《紐約時(shí)報(bào)》）

由于這些大語(yǔ)言模型使用數(shù)據(jù)的速度比產(chǎn)生數(shù)據(jù)的速度還要快，這便導(dǎo)致數(shù)據(jù)資源，尤其是高質(zhì)量的，已經(jīng)被大量“開(kāi)采”和使用。

根據(jù)人工智能研究機(jī)構(gòu)Epoch的預(yù)測(cè)，到2026年，所有高質(zhì)量可用數(shù)據(jù)都可能被耗盡，去年5月，OpenAI首席執(zhí)行官Sam Altman也在技術(shù)會(huì)議上公開(kāi)承認(rèn)，AI公司們?cè)诓痪玫膶?lái)會(huì)耗盡互聯(lián)網(wǎng)上所有可用的數(shù)據(jù)。

AI公司_OpenAI_谷歌-4

（低質(zhì)量的語(yǔ)言數(shù)據(jù)預(yù)計(jì)在2050年被用完，高質(zhì)量的語(yǔ)言數(shù)據(jù)預(yù)計(jì)在2026年用完，視覺(jué)數(shù)據(jù)預(yù)計(jì)在2060年用完。Credit：Epoch）

如果沒(méi)有新的數(shù)據(jù)源或者無(wú)法提高數(shù)據(jù)利用效率，那么依賴龐大數(shù)據(jù)集的機(jī)器學(xué)習(xí)模型的發(fā)展速度將逐漸放緩。這意味著，AI公司為了維持技術(shù)領(lǐng)先優(yōu)勢(shì)，不得不開(kāi)啟激烈的數(shù)據(jù)爭(zhēng)奪戰(zhàn)，不斷地尋找新的數(shù)據(jù)源。

新一輪的AI軍備競(jìng)賽：獲取更多“數(shù)據(jù)”

OpenAI在2021年底就已經(jīng)感受到了“數(shù)據(jù)饑渴”的壓力，為了訓(xùn)練更大的模型，他們開(kāi)始四處尋覓數(shù)據(jù)。在OpenAI總裁Greg Brockman的帶領(lǐng)下，Whisper項(xiàng)目應(yīng)運(yùn)而生，通過(guò)轉(zhuǎn)錄超過(guò)100萬(wàn)小時(shí)的YouTube視頻，為GPT-4模型注入新的血液。雖然這種做法有法律風(fēng)險(xiǎn)，但OpenAI的團(tuán)隊(duì)依然認(rèn)為這是值得的。

另一邊，谷歌并沒(méi)有“高尚”到哪去，它也轉(zhuǎn)錄了 YouTube 視頻為其大語(yǔ)言模型獲取文本，甚至還盯上了用戶在Google Docs（谷歌文檔），Google Sheets（谷歌表格），Google Slides（谷歌PPT），以及Google Maps（谷歌地圖）等服務(wù)里產(chǎn)生的內(nèi)容。

據(jù)估算，這些應(yīng)用程序中蘊(yùn)藏著數(shù)十億個(gè)token。為了以后能有機(jī)會(huì)利用這些數(shù)據(jù)，去年6月，谷歌要求隱私團(tuán)隊(duì)修改政策，并特意在美國(guó)獨(dú)立日假期期間7月1日發(fā)布了新政策，以分散公眾的注意力。目前，谷歌聲稱(chēng)沒(méi)有在實(shí)驗(yàn)計(jì)劃之外使用這些數(shù)據(jù)。

在這場(chǎng)“數(shù)據(jù)淘金潮”中，擁有大量用戶數(shù)據(jù)的平臺(tái)格外受到關(guān)注：

在ChatGPT推出后不久，“受到刺激”的Meta、谷歌、亞馬遜和蘋(píng)果等科技巨頭紛紛與Shutterstock等圖片庫(kù)提供商達(dá)成協(xié)議，獲取其數(shù)億張圖片、視頻和音樂(lè)文件用于AI訓(xùn)練。據(jù)Shutterstock透露，最初的交易額在2500萬(wàn)美元到5000萬(wàn)美元之間，隨著對(duì)數(shù)據(jù)的需求增加，這一數(shù)字還在不斷上升。

Photobucket，這個(gè)曾服務(wù)于Myspace和Friendster的圖片托管網(wǎng)站，也變成了科技公司爭(zhēng)奪數(shù)據(jù)的焦點(diǎn)。據(jù)稱(chēng)，多家科技巨頭正在與Photobucket談判，意圖獲取其130億張照片和視頻資料，以用于訓(xùn)練他們的生成式人工智能模型。這些資料的定價(jià)范圍，從每張圖片的5美分到1美元不等，而視頻的價(jià)值則更高，每個(gè)超過(guò)1美元。盡管Photobucket的當(dāng)前用戶數(shù)僅為200萬(wàn)，遠(yuǎn)低于其7000萬(wàn)的巔峰用戶量，它所擁有的龐大數(shù)據(jù)量仍舊極具價(jià)值。

Shutterstock的競(jìng)爭(zhēng)對(duì)手Freepik同樣宣布已經(jīng)與兩家大型科技公司達(dá)成協(xié)議，以每張圖片2到4美分的價(jià)格，許可其檔案中大部分的2億張圖像。該公司還表示，有5筆類(lèi)似的交易正在進(jìn)行中，但拒絕透露買(mǎi)家身份。

谷歌與Reddit簽訂了年度6000萬(wàn)美元的使用協(xié)議，獲取高質(zhì)量的長(zhǎng)篇內(nèi)容，用以訓(xùn)練其大型語(yǔ)言模型。

即便擁有Facebook和Instagram這樣大規(guī)模的社交平臺(tái)，Meta仍面臨著高質(zhì)量數(shù)據(jù)來(lái)源的短缺問(wèn)題。由于這兩個(gè)平臺(tái)缺少深度內(nèi)容的沉淀，Meta試圖收購(gòu)Simon & Schuster出版社，以獲取長(zhǎng)篇作品。此外，為了快速獲取數(shù)據(jù)進(jìn)行訓(xùn)練，該公司抓取了互聯(lián)網(wǎng)上幾乎所有可用的英語(yǔ)書(shū)籍、散文、詩(shī)歌和新聞文章，甚至一些受版權(quán)保護(hù)的內(nèi)容。

對(duì)于創(chuàng)作者來(lái)說(shuō)，他們生產(chǎn)的大量?jī)?nèi)容在不知情的情況下被科技公司用于訓(xùn)練，而這些公司利用這些數(shù)據(jù)來(lái)優(yōu)化自己的盈利產(chǎn)品，而創(chuàng)作者卻分文不得，這種情況多少有些不公平。

《紐約時(shí)報(bào)》去年起訴 OpenAI 和微軟，稱(chēng)其在未經(jīng)許可的情況下使用受版權(quán)保護(hù)的新聞文章來(lái)訓(xùn)練人工智能聊天機(jī)器人。OpenAI 和微軟卻表示，使用這些文章是“合理使用”，或者說(shuō)是版權(quán)法允許的，因?yàn)樗麄優(yōu)榱瞬煌哪康亩脑炝诉@些作品。

“合成數(shù)據(jù)”是出路嗎？

隨著互聯(lián)網(wǎng)上可用的“天然資源”變得日益稀缺，AI行業(yè)正在探索新的數(shù)據(jù)來(lái)源，以滿足未來(lái)大模型訓(xùn)練的需求。其中，合成數(shù)據(jù)成為了一條潛在的途徑。

顧名思義，合成數(shù)據(jù)并非直接從現(xiàn)實(shí)世界中收集，而是通過(guò)算法生成的文本、圖像和代碼，旨在模擬現(xiàn)實(shí)數(shù)據(jù)的特征和行為，從而讓系統(tǒng)能夠從自生成的內(nèi)容中學(xué)習(xí)。

換句話說(shuō)，系統(tǒng)從它們自己產(chǎn)生的東西中學(xué)習(xí)。

這是有成功案例的。例如，Anthropic在上個(gè)月推出的Claude 3 LLM就使用了部分“合成數(shù)據(jù)”來(lái)進(jìn)行訓(xùn)練，在最后的榜單性能跑分全面超越GPT-4。

Sam Altman在去年5月也提出了用合成數(shù)據(jù)來(lái)訓(xùn)練大語(yǔ)言模型的路徑：模型可以產(chǎn)生類(lèi)似人類(lèi)的文本，然后這些文本數(shù)據(jù)可以再被用來(lái)訓(xùn)練模型，將幫助開(kāi)發(fā)人員構(gòu)建日益強(qiáng)大的技術(shù)并減少對(duì)受版權(quán)保護(hù)的數(shù)據(jù)的依賴。

理論上，這種方法能夠形成一個(gè)完美的閉環(huán)，既滿足了大規(guī)模AI模型對(duì)數(shù)據(jù)的龐大需求，又避免了直接從用戶那里收集敏感信息的爭(zhēng)議和風(fēng)險(xiǎn)。

但我們并不能過(guò)分樂(lè)觀，近幾個(gè)月來(lái)，研究人員發(fā)現(xiàn)，在人工智能生成的數(shù)據(jù)上訓(xùn)練人工智能模型將是一種數(shù)字形式的“近親繁殖”，最終導(dǎo)致“模型崩潰”或“ 哈布斯堡詛咒（Habsburg AI）。”

而進(jìn)一步模型崩潰會(huì)導(dǎo)致生成模型輸出低質(zhì)量、缺乏多樣性的結(jié)果，不僅降低了模型的泛化能力和應(yīng)用價(jià)值，增加了訓(xùn)練和調(diào)試的難度及成本，損害用戶對(duì)模型及其背后系統(tǒng)的信任和可信度，最終對(duì)研究進(jìn)展和技術(shù)創(chuàng)新造成阻礙。

無(wú)論是獲取天然數(shù)據(jù)還是生產(chǎn)合成數(shù)據(jù)，在人工智能競(jìng)爭(zhēng)中，小型公司都面臨著嚴(yán)峻的挑戰(zhàn)。他們既沒(méi)有足夠的資金來(lái)購(gòu)買(mǎi)版權(quán)數(shù)據(jù)，也無(wú)法獲取存放在科技巨頭擁有的平臺(tái)上的用戶數(shù)據(jù)。

在Reddit上，一些創(chuàng)業(yè)者感嘆道：“是的，這是違反了（YouTube）的用戶協(xié)議，但老實(shí)說(shuō)，我們處于困境中，因?yàn)榇罂萍脊緣艛嗔耸袌?chǎng)。我的公司因?yàn)闊o(wú)法爬取開(kāi)放網(wǎng)絡(luò)的內(nèi)容而崩潰，這是因?yàn)?Twitter、Facebook 和 Google 的反競(jìng)爭(zhēng)行為。”

AI公司_OpenAI_谷歌-5

“這只會(huì)引發(fā)一系列問(wèn)題。所有這些公司都在不斷地侵犯對(duì)方，但這只是為了排擠更小的公司。這些大公司都有罪，否則就無(wú)法正常運(yùn)轉(zhuǎn)。”

AI公司_OpenAI_谷歌-6

在這個(gè)以數(shù)據(jù)為王的時(shí)代，AI公司的行為揭示了一個(gè)深刻的真相：在追求技術(shù)領(lǐng)先的路上，數(shù)據(jù)的獲取和使用成了無(wú)可避免的戰(zhàn)場(chǎng)。隨著數(shù)據(jù)資源的日益緊張，各大公司不惜一切代價(jià)尋找新的數(shù)據(jù)源，即便這意味著涉足法律和道德的灰色地帶。這種做法不僅引發(fā)了關(guān)于數(shù)據(jù)隱私、版權(quán)、以及創(chuàng)作者權(quán)益的廣泛爭(zhēng)論，也暴露了現(xiàn)有數(shù)據(jù)利用機(jī)制的漏洞和不足。

在這場(chǎng)由數(shù)據(jù)驅(qū)動(dòng)的技術(shù)競(jìng)賽中，既有激動(dòng)人心的進(jìn)展，也有令人憂慮的隱患。技術(shù)的發(fā)展不應(yīng)以犧牲個(gè)人隱私和創(chuàng)作者權(quán)益為代價(jià)，合理合法地利用數(shù)據(jù)，保護(hù)數(shù)據(jù)來(lái)源的同時(shí)，開(kāi)發(fā)更加高效、公平的數(shù)據(jù)利用機(jī)制，將是人工智能行業(yè)未來(lái)發(fā)展的關(guān)鍵。隨著技術(shù)和社會(huì)的進(jìn)步，我們期待一個(gè)更加透明、公正的數(shù)據(jù)生態(tài)系統(tǒng)的建立，以此推動(dòng)人工智能技術(shù)健康、持續(xù)的發(fā)展。

來(lái)源：數(shù)據(jù)猿

收藏分享

聲明：數(shù)據(jù)猿尊重媒體行業(yè)規(guī)范，相關(guān)內(nèi)容都會(huì)注明來(lái)源與作者；轉(zhuǎn)載我們?cè)瓌?chuàng)內(nèi)容時(shí)，也請(qǐng)務(wù)必注明“來(lái)源：數(shù)據(jù)猿”與作者名稱(chēng)，否則將會(huì)受到數(shù)據(jù)猿追責(zé)。