OpenAI推出最新大模型“GPT-4o”,你的快樂悲傷它都能讀懂
王茜茜 | 2024-05-14 18:10
【數(shù)據(jù)猿導(dǎo)讀】 最近兩周,關(guān)于OpenAI將要推出搜索引擎的傳言沸沸揚揚,所有的聚光燈都投射在奧爾特曼身上。正當(dāng)大家期待值快達到頂峰時,這位硅谷的“當(dāng)紅炸子雞”上周五突然跳出來,宣布OpenAI的春季產(chǎn)品發(fā)布會將在5月10日進行,正好是谷歌I/O開發(fā)者大會的前一天。他還在推特上承諾將帶來一些“具有...

如果說黃仁勛(Jensen Huang)是科技屆的泰勒·斯威夫特,以親和力和號召力獲得了一眾擁躉,那薩姆·奧爾特曼(Sam Altman)就有些像AI屆的金·卡戴珊,永遠擅長制造話題和搶風(fēng)頭。
最近兩周,關(guān)于OpenAI將要推出搜索引擎的傳言沸沸揚揚,所有的聚光燈都投射在奧爾特曼身上。正當(dāng)大家期待值快達到頂峰時,這位硅谷的“當(dāng)紅炸子雞”上周五突然跳出來,宣布OpenAI的春季產(chǎn)品發(fā)布會將在5月10日進行,正好是谷歌I/O開發(fā)者大會的前一天。他還在推特上承諾將帶來一些“具有魔力”的更新,這樣一套“營銷組合拳”不僅為OpenAI造足了勢頭,也使得谷歌的“預(yù)熱聲”瞬間啞火。
那么在周一的發(fā)布會上,OpenAI究竟推出了什么“魔力(magic)”產(chǎn)品?
GPT-4o,OpenAI首款能分析情緒的多模態(tài)大型語言模型
美西時間上午10點整,OpenAI首席技術(shù)官米拉·穆拉提(Mira Murati)進入了直播室,向觀眾介紹了這次春季大更新,其中包括桌面版本的ChatGPT,更新的用戶界面,以及最重要的,新的旗艦?zāi)P?mdash;GPT-4o。
(穆拉提在發(fā)布會現(xiàn)場)
GPT-4o中的“o”代表“Omnimodal”,顧名思義,這是一個基于GPT-4之上的多模態(tài)大模型。
更值得關(guān)注的是,GPT-4o能夠與用戶進行多樣化的語氣交互,并精準(zhǔn)捕捉到用戶的情緒變化,這是一大進步。與之前版本僅通過“語音轉(zhuǎn)文字(voice-to-text)”來識別語音輸入不同,GPT-4o能夠?qū)崟r處理語音輸入并響應(yīng)用戶的情感和語氣。
在直播過程中,兩位OpenAI的員工向大家展示了GPT-4o的更新細節(jié)。
1.感知用戶情緒:前沿研究部門主管陳信翰(Mark Chen)讓ChatGPT-4o聆聽他的呼吸,聊天機器人偵測到他急促的呼吸,并幽默地建議他不要像吸塵器那樣呼吸,要放慢速度。隨后Mark深呼吸一次,GPT-4o則表示這才是正確的呼吸方式。
2.具備不同情緒的聲音:陳信翰示范了ChatGPT-4o如何用不同的聲音朗讀AI生成的故事,包括超級戲劇化的朗誦、機器人音調(diào),甚至唱歌。
(ChatGPT-4o根據(jù)指示變換語調(diào)讓大家捧腹大笑)
3.實時視覺功能:研究員巴雷特·佐夫(Barret Zoph)演示了如何讓ChatGPT-4o通過手機攝像頭實時解決數(shù)學(xué)問題,仿佛一位真實的數(shù)學(xué)老師在旁邊指導(dǎo)每一個解題步驟。此外,ChatGPT-4o還能通過前置攝像頭觀察用戶的面部表情,分析其情緒。
(巴雷特·佐夫展示在ChatGPT-4o的逐步指導(dǎo)下解方程式)
4.更即時的語音交互:ChatGPT-4o的響應(yīng)時間得到縮短,與用戶的交互更加即時。穆拉提和陳信翰利用新的聊天機器人展示了跨語言的實時翻譯功能,能夠在英語和意大利語之間無縫轉(zhuǎn)換。
由此可見,這次更新的重點在于使聊天機器人不再那么機械冷漠,而是更加接近真實人類,能夠理解并表達情緒。那么,GPT-4o是如何實現(xiàn)情感識別的呢?
OpenAI目前還沒有公布更多的技術(shù)細節(jié),但根據(jù)其在官網(wǎng)的概述,在GPT-4o之前,使用ChatGPT的語音模式時,需要通過三個相互獨立的模型來進行接力處理:
1. 第一個模型將音頻轉(zhuǎn)換為文本;
2. 接著由GPT-3.5或GPT-4處理文本輸入并輸出文本;
3. 最后一個模型再將文本轉(zhuǎn)換回音頻。
這種處理方式常導(dǎo)致信息的大量丟失,例如無法捕捉到語調(diào)、識別多個說話者或背景噪音,也無法生成笑聲、歌唱或其他情感表達。
GPT-4o的創(chuàng)新之處在于,它是OpenAI的首個整合文本、視覺和音頻多模態(tài)輸入與輸出的模型。通過端到端地訓(xùn)練一個統(tǒng)一的新模型,實現(xiàn)了所有輸入和輸出的處理都由同一個神經(jīng)網(wǎng)絡(luò)完成。
除了多模態(tài)輸入輸出,GPT-4o還具備更快的響應(yīng)速度:能夠在短至232毫秒內(nèi)響應(yīng)音頻輸入,平均響應(yīng)時間為320毫秒,接近人類在對話中的響應(yīng)時間。
GPT-4o在英語文本和代碼上的性能與GPT-4 Turbo性能相當(dāng),在非英語文本上的性能顯著提高,同時API的速度也更快,成本降低了50%。與現(xiàn)有模型相比,GPT-4o在視覺和音頻理解方面尤其出色。
為了給大家一個更直觀的感受,我們讓ChatGPT-4生成了一個對比GPT-4o和GPT-4 Turbo的表格:
科技博主“All About AI”也在YouTube上展示了GPT-4o和GPT-4 Turbo的反應(yīng)速度(下圖)。
通過同時向GPT-4o(左)和GPT-4 Turbo(右)提出相同要求—“寫三段關(guān)于19世紀(jì)在巴黎生活的內(nèi)容”—我們可以觀察到當(dāng)GPT-4o已經(jīng)完成處理并做出回應(yīng)時,GPT-4 Turbo仍在進行輸出處理。
GPT-4o在5216毫秒(5.216秒)內(nèi)處理了574個Token,約等于 110 Token/秒;GPT-4 Turbo在23442毫秒(23.442秒)內(nèi)處理了474個Token,約等于20 Token/秒。前者的處理速度是后者的大約5.44倍。
發(fā)布會之后,一名OpenAI的研究員在自己的推文中證實,此前出現(xiàn)在測試網(wǎng)站上的神秘 GPT-2 聊天機器人確實就是GPT-4o。
“GPT-4o 是我們最新的前沿模型。我們已經(jīng)在LMSys上測試了一個版本,也就是 im-also-a-good-gpt2-chatbot。” 威廉·費杜斯(WIlliam Fedus)在自己的推特上介紹到,并且得到了奧爾特曼的轉(zhuǎn)發(fā)。
“ELO分數(shù)最終可能受到提示難度的限制。我們發(fā)現(xiàn)在更難的提示集上 — 尤其是編程 — GPT-4o 的ELO比我們之前最好的模型高出100分,”這位工程師補充道。
從下圖可以看出,GPT-4o(也就是im-also-a-good-gpt2-chatbot)的表現(xiàn)一騎絕塵,遠高于其他大模型。
穆拉提還在春季發(fā)布會上宣布,GPT-4o的文本和圖像功能已開始向付費的ChatGPT Plus和Teams用戶提供,并將很快推廣至企業(yè)用戶。同時,免費用戶也將逐步獲得使用權(quán)限,但需受到速率的限制。GPT-4o的語音功能預(yù)計將在未來幾周內(nèi)向用戶開放。
目前,開發(fā)者已能通過API使用GPT-4o的文本和視覺模式。
此外,OpenAI還對ChatGPT的用戶界面(UI)進行了優(yōu)化,并且推出了適用于macOS系統(tǒng)的ChatGPT應(yīng)用程序,已向付費用戶開放。該公司表示今年晚些時候還將推出Windows版本的ChatGPT應(yīng)用程序。
蘋果將用GPT-4o取代自家語音助手Siri?
GPT-4o的推出帶動了蘋果股價小幅上漲。
上周五,彭博社報道稱蘋果正考慮在下一代iOS18系統(tǒng)中集成ChatGPT技術(shù)。如果與OpenAI達成協(xié)議,蘋果可能會推出基于ChatGPT的聊天助理,作為公司計劃在6月發(fā)布的一系列新人工智能功能之一。
(彭博社報道)
多年來,蘋果一直是包括沃倫·巴菲特在內(nèi)的頂級投資者和投資機構(gòu)青睞的科技股,并且是市值第一大科技公司,但近年來漲幅卻跑輸其他大科技公司。
今年以來,蘋果股價下跌了2%左右,而微軟股價則上漲了10% 以上。得益于其在AI領(lǐng)域的領(lǐng)先地位(特別是與OpenAI的深度合作)以及在云業(yè)務(wù)和辦公套件中加入AI技術(shù),微軟已成為全球市值最高的公司,這一領(lǐng)先地位看似還將持續(xù)一段時間。
縱觀其他Magnificent 7公司的市值:谷歌憑借Gemini增長了20%,擁有開源大語言模型LLaMA的Meta上漲了32%,投資了明星AI初創(chuàng)企業(yè)Antropic的亞馬遜增長了22%;被譽為AI行業(yè)“軍火商”的芯片公司英偉達的市值更是增長了82%之多。(注:Magnificent 7是指7家擁有壟斷/寡頭地位、定價能力、長期盈利能力的科技公司,即微軟、谷歌、Meta、亞馬遜、英偉達、蘋果和特斯拉。)
分析師們普遍認為,蘋果的增速放緩主要歸因于核心業(yè)務(wù)iPhone增長疲軟,以及缺乏新的AI產(chǎn)品線。雖然Siri作為AI語音助手于2011年推出,但在準(zhǔn)確性和實用性方面遠遜于谷歌、亞馬遜和OpenAI的競品。
另一方面,手機業(yè)務(wù)的競爭對手們也已先于蘋果在手機中引入新的AI功能。例如,三星電子最近推出的高端Galaxy手機采用了最新的生成式AI技術(shù),提供實時語言翻譯、總結(jié)筆記和編輯照片等功能。
面對來自四面八方的壓力,蘋果在今年二月宣布取消長達十年的造車計劃,并將部分員工轉(zhuǎn)至生成式AI團隊,標(biāo)志著AI將成為公司未來發(fā)展的重點。
在5月2日與分析師舉行的電話會議上,蒂姆·庫克稱憑借將硬件、軟件和服務(wù)無縫集成的能力,蘋果有優(yōu)勢在AI時代脫穎而出。這位首席執(zhí)行官在去年就表示使用過ChatGPT,并認為當(dāng)時的ChatGPT還有很多問題需要解決。他反復(fù)強調(diào),蘋果將在“非常深思熟慮的基礎(chǔ)上”引入新的AI功能,這可能解釋了為什么蘋果在推出AI產(chǎn)品線方面進展緩慢。
那么GPT-4o是否達到了庫克的標(biāo)準(zhǔn)?相信在6月份蘋果舉辦的年度全球開發(fā)者大會,我們能夠見分曉。
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評論
不容錯過的資訊
-
12024中國RPA領(lǐng)域最具商業(yè)合作價值企業(yè)盤
-
2通義靈碼推出企業(yè)版,底座模型CodeQwen1
-
3一季度,美國科技巨頭AI投資繼續(xù)“狂飆”
-
4北京規(guī)劃支撐萬億級大模型的智算集群;科
-
5Hungry for new funding, Google-
-
6阿里云通義大模型助力“小愛同學(xué)”;IBM
-
7OpenAI計劃下周宣布對標(biāo)谷歌搜索競品;20
-
8微博已接入阿里云通義大模型,是通義最早
-
9阿里巴巴技術(shù)實踐:BI+AI技術(shù)的融合與應(yīng)
-
10Baidu search launched online AI r
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
