數(shù)據(jù)猿人工智能2024年度總結：我們經(jīng)歷了波瀾壯闊的這一年

數(shù)據(jù)猿人工智能 2024年度總結

原創(chuàng) 陸易斯 | 2025-01-23 20:19

【數(shù)據(jù)猿導讀】 2024年逐漸遠去，新的一年悄然而至，回顧這一年，科技界和風險投資圈的目光無疑聚焦在了人工智能。層出不窮的新產(chǎn)品，巨額的融資，獨角獸創(chuàng)始人不斷刷新人們的觀念，如同走馬燈般，你方唱罷我登場，而看客每天都在期待下一個大新聞。

數(shù)據(jù)猿人工智能2024年度總結：我們經(jīng)歷了波瀾壯闊的這一年

2024年逐漸遠去，新的一年悄然而至，回顧這一年，科技界和風險投資圈的目光無疑聚焦在了人工智能。層出不窮的新產(chǎn)品，巨額的融資，獨角獸創(chuàng)始人不斷刷新人們的觀念，如同走馬燈般，你方唱罷我登場，而看客每天都在期待下一個大新聞。

誠然，2024年可以說是生成式人工智能大模型領域承前啟后之年，雖然未再現(xiàn)GPT-3和ChatGPT橫空出世的震撼，但在延續(xù)前幾年技術積淀的基礎上，開啟了廣泛應用的時代。從AI技術首次涉足諾貝爾獎評選，到Cursor作為AI輔助編程的標桿工具徹底改變開發(fā)者的工作方式，再到Perplexity、Talkie等現(xiàn)象級AI應用打入大眾市場，以及Sora在多模態(tài)生成領域進一步接近自然和人類規(guī)律，生成式AI展示了從技術探索邁向實際應用的巨大勢能。

與此同時，算力仍然是推動技術進步的關鍵瓶頸，高昂的研發(fā)成本也隨之攀升。此外，技術幻覺問題以及隱私與倫理方面的挑戰(zhàn)依舊懸而未決。盡管大模型在技術上不斷取得進展，吊足了胃口的人類，已不再滿足于GPT o1的能力，而是期待通用人工智能（AGI）的世界馬上到來。與這一宏大愿景形成對比的是，生成式AI的焦點正在逐步轉向小模型的高效化以及低能耗解決方案，以便更加深入廣泛的行業(yè)應用。另外，日益強化的行業(yè)監(jiān)管和愈加激烈的市場競爭，也為這一領域的發(fā)展增添了更多變數(shù)與挑戰(zhàn)。

接下來，讓我們回到2024年，共同回顧生成式AI在這一年中波瀾起伏的發(fā)展歷程。

技術持續(xù)突破永不停歇

在這一年中，生成式AI技術的前行步伐雖不如前幾年那般勢如破竹，但從深度到廣度的突破依然令人矚目。

接近年底時刻，2024年12月5日 - 21日，人工智能的頭號玩家OpenAI馬不停蹄地做了為期12天的直播。最后1天，OpenAI重磅發(fā)布新一代推理模型系列o3，其在極其困難的數(shù)學和邏輯問題能力基準測試ARC-AGI中，最佳狀態(tài)下取得了87.5%的分數(shù)，達到85%的分數(shù)即被認為是“人類水平”，而在Codeforces競賽編程上的評分達到2727，也超越了大部分人類程序員。

數(shù)據(jù)猿_人工智能_2024年度總結-1

2024年從o1preview到o3在Codeforces的評分進化，來源：ibb.co

去年，OpenAI還有兩個里程碑式的大模型發(fā)布。一是最早于9月發(fā)布的o1模型，代號“草莓”，盡管它的性能要低于后來發(fā)布的o3模型，但其里程碑意義不容忽視。o1模型首次實現(xiàn)了在回答用戶提問時，形成類似人類思維方式的內(nèi)部思維鏈CoT（Chain of Thought），這一突破顯著提升了模型在處理復雜和專業(yè)性問題時的表現(xiàn)，尤其是在研究、策略制定、編碼、數(shù)學和科學等領域的高難度任務中，回答的準確性和邏輯性得到了明顯改善。“思維鏈”這一概念也迅速走紅，成為2024年大模型領域最常被提及的技術關鍵詞之一。

二是早在2月份就預先發(fā)布的Sora，十個月后正式發(fā)布。它支持多種輸入方式，如文本、語音、圖片或視頻，據(jù)OpenAI介紹，Sora支持用戶生成最高1080p、最長20秒、多種尺寸比例的視頻，同時Sora能夠理解和模擬物理世界的運動規(guī)律，使得模型的生成效果更加逼真。此外，Sora還配備了故事板、混剪等編輯功能，相當于給視頻加分鏡、剪輯、特效，更能滿足創(chuàng)作者自我表達創(chuàng)意的需求。

數(shù)據(jù)猿_人工智能_2024年度總結-2

OpenAI Sora，來源：OpenAI、beebom.com

隨著年初Sora的推出，多家科技公司爭相發(fā)布新的多模態(tài)大模型，整個2024年讓我們見證了多模態(tài)大語言模型（MLLMs）的快速崛起。

2024年的多模態(tài)模型能夠更加自然地融合文本、圖像、音頻、視頻等多種模態(tài)的數(shù)據(jù)，生成高度準確的視覺內(nèi)容。人們還把多模態(tài)延展到三維空間世界，李飛飛創(chuàng)辦的World Labs用一張圖、一句話就能生成3D世界的AI系統(tǒng)，堪稱“虛擬世界生成器”，該技術將降低3D內(nèi)容制作的成本、激發(fā)更多的沉浸式體驗。

在運算效率方面，2024年的新一代多模態(tài)模型通過引入稀疏激活機制、模型壓縮和分布式算力架構，大幅提升了處理速度和響應效率，與以往需要離線計算或長時間生成的模型相比，性能更為出色。此外，這些模型突破了早期多模態(tài)技術對單一任務的限制，具備更強的上下文理解能力和任務適配性，能夠勝任更復雜的任務，例如根據(jù)一張照片生成完整的故事情節(jié)，或通過語音輸入實現(xiàn)圖像增強和視頻制作。這些進步讓多模態(tài)模型在影視及廣告行業(yè)的應用更為廣泛，使其大幅提升內(nèi)容創(chuàng)作效率、顯著降低制作成本成為可能。

2024年，當AI各類大模型的不斷升級，巨量算力需求持續(xù)攀升。為了滿足日益復雜的任務需求，進一步增強算力成為推動大模型技術進步的核心動力。

提及算力必須要提到英偉達，去年其H100 GPU憑借卓越的并行計算能力和顯著優(yōu)化的AI訓練與推理速度，成為生成式AI的核心處理器。去年3月，英偉達發(fā)布了新一代GPU架構——Blackwell，該架構在訓練與推理方面展現(xiàn)出卓越性能，進一步鞏固了其行業(yè)領導地位。同時，谷歌的TPU和亞馬遜的Inferentia等專為AI任務設計的定制芯片也在2024年加速普及，這些AI芯片亦推動了算力效率的持續(xù)提升，為人工智能的深度應用提供了強大支持。

數(shù)據(jù)猿_人工智能_2024年度總結-3

英偉達創(chuàng)始人黃仁勛展示Blackwell GB200 Superchips，來源：英偉達

與此同時，云平臺則成為AI算力的最佳載體，它不僅降低了企業(yè)和開發(fā)者使用高性能AI算力的門檻，還為模型訓練、推理和部署提供了強大的基礎設施支撐。2024年，這一協(xié)同關系在技術和應用領域都實現(xiàn)了重要突破，如英偉達與多家云服務商合作推出了“AI超級計算云”。

云計算服務模式也在不斷演變，模型即服務（MaaS）逐漸成為一種新興的基礎服務，通過MaaS，用戶無需自行構建或訓練模型，即可直接通過API調用云平臺托管的大模型。這種模式不僅讓原本未采用SaaS的用戶感受到云計算的彈性和按需付費的優(yōu)勢，降低開發(fā)者的技術門檻的同時，也推動了更多企業(yè)主動上云，加速了云計算與人工智能的融合與落地。

在2024年，針對大模型長期以來的“幻覺”（Hallucination）問題的緩解方法，業(yè)界亦達成了較為明確的共識。“幻覺”是指模型在生成內(nèi)容時出現(xiàn)的不準確或虛假的信息，成為AIGC投入實際應用的最大障礙。當前，利用Agent和檢索增強生成（RAG）技術結合小模型和微調的方法，可以大幅降低“幻覺”的不良影響，讓結果達到需求方可接受的程度。

Agent架構讓大模型能夠分解復雜任務，逐步進行推理。與傳統(tǒng)的大模型“一步到位”給出答案不同，Agent的多步驟執(zhí)行機制更接近人類的邏輯思維。例如，在回答涉及多個邏輯鏈條的復雜問題時，比如金融涉及時事和法律的問題，Agent可以分步調用小模型或外部工具驗證每一環(huán)節(jié)，減少幻覺的產(chǎn)生。

當用戶提出一個問題時，RAG機制讓大模型優(yōu)先從知識庫中檢索相關文檔，這些知識庫可能來源于內(nèi)部文檔，也可能是實時搜索獲取，然后基于這些可靠數(shù)據(jù)生成回答，從而顯著提升內(nèi)容的準確性和可解釋性，同時有效降低大模型的訓練成本。此外，在有些特定領域，如醫(yī)學、教育，通過微調小模型，可大幅提升其在該領域的表現(xiàn)，不僅應對了大模型泛化能力強但特定領域表現(xiàn)不足的短板，亦使其更容易落地到應用場景，由此開啟了大模型企業(yè)級應用時代。

數(shù)據(jù)猿_人工智能_2024年度總結-4

來源：Mhammed Talhaouy

應用爆發(fā)大放異彩

談及應用，2024年可謂是AI大模型應用全面爆發(fā)的一年。在這一年中，大模型不再只是科研論文中的技術突破，停留在ChatGPT 20美元訂閱費的體驗版，而是廣泛推向全球各個應用場景，成為改變行業(yè)運作方式的推動力量。從辦公效率革命到精準醫(yī)療，從智能金融到數(shù)字人的直播體驗，人們開始利用大模型賦予各行業(yè)全新的生命力。

實際上，從2024年12月的AI排行榜可以看出，MAU（按月活躍用戶）排名靠前的AI應用主要還是集中在辦公效率工具領域，除了ChatGPT、Gemini和Claude等聊天機器人外，許多應用在辦公場景中亦表現(xiàn)突出。微軟Copilot作為早期的樣板，推動了辦公工具在2024年的全面發(fā)展。文章寫作、PPT制作、繪圖、視頻創(chuàng)作、筆記和語法校正等功能，不僅能為用戶節(jié)省大量時間，還能生成新穎、有創(chuàng)意的成果。不過此類應用的門檻相對較低，同質化競爭較為激烈。同一種需求，市場上可能存在上百個類似產(chǎn)品，脫穎而出并不容易。

數(shù)據(jù)猿_人工智能_2024年度總結-5

2024年12月全球AI產(chǎn)品榜（web端），來源：公眾號@AI產(chǎn)品榜 aicpb.com

此外，有些專業(yè)性較強的領域，像金融、法律、醫(yī)療和制造等行業(yè)，盡管存在一些具有針對性的AI應用，但即便在行業(yè)內(nèi)部也鮮有應用，尚未實現(xiàn)廣泛的“破圈”。對于投入大量開發(fā)成本的企業(yè)負責人而言，盡管他們絞盡腦汁，嘗試為自身行業(yè)需求定制“套殼”的AI解決方案，但這些應用往往未能達到預期的用戶量，更難以實現(xiàn)銷售轉化。

紅杉資本在《Generative AI’s Act o1》報告中肯定了AI在各專業(yè)場景中通過“Multi AI Agent”實現(xiàn)深度整合的未來趨勢，然而，這并非簡單的“新瓶裝舊酒”，而是對傳統(tǒng)數(shù)字化的顛覆性革新。與過去的任務編排模式相比，AI Agent正朝著完全自動化的方向邁進，減少甚至無需人工干預，背后應是對行業(yè)深度理解基礎之上的強大推理能力。紅杉的報告人表示，這個過程還在持續(xù)進化之中。

數(shù)據(jù)猿_人工智能_2024年度總結-6

https://www.sequoiacap.com/article/generative-ais-act-o1/，來源：Sequoia Capital

值得注意的是，去年AI搜索引擎——作為一個獨特的應用領域，其頭部企業(yè)在融資方面取得了顯著進展。其中，Perplexity AI在12月完成了5億美元的融資，使公司估值達到90億美元；此外，企業(yè)搜索初創(chuàng)公司Glean于9月宣布完成超過2.6億美元的融資，估值翻倍至46億美元；甚至連OpenAI也于7月25日首次推出了搜索引擎產(chǎn)品SearchGPT。

成功背后的原因，我們認為主要來自三大方面，第一是AI搜索依靠的技術已經(jīng)取得了長足進步，正如前面提到的大模型、RAG以及算力，正讓搜索結果變得“簡單可依賴”；第二，搜索蘊含著巨大的市場，實際是在侵蝕現(xiàn)有搜索引擎的市場空間，AI搜索的前段邏輯是先給出結果，再給出對應的參考網(wǎng)站，這為大量用戶節(jié)省了二次查找的時間，部分替代了原有搜索引擎的功能；第三，在Agent架構下提供專業(yè)領域的知識庫，能夠靈活地幫助用戶查找特定網(wǎng)站或特定專業(yè)領域的內(nèi)容，而傳統(tǒng)搜索引擎配置信息源的成本比較高。

帶來更為驚人變化的，還有廣告領域。美國數(shù)字營銷公司AppLovin轉型成為AI公司后，股價已從年初的每股38.78美元一度飆升到最高每股417.64美元（2024年12月6日最高價），漲幅超過977%。生成式AI+動態(tài)預算優(yōu)化是AppLovin AI的核心邏輯，從而能夠提高投資回報率和貨幣化機會。

具體來說，AppLovin首先采用生成式AI自動生成個性化廣告內(nèi)容，接觸到大量的用戶，然后通過AI模型實時監(jiān)測用戶獲取成本（CAC）和用戶生命周期價值（LTV）來動態(tài)調整廣告預算，形成一個持續(xù)優(yōu)化的閉環(huán)，機器學習則幫助平臺逐步提升投放效率并降低成本。同時，AppLovin采用多AI Agent協(xié)同架構，將復雜的廣告運營流程分解為創(chuàng)意生成、行為預測、競價優(yōu)化和效果分析等獨立的Agent協(xié)作運行，如此進一步提升平臺的靈活性和效率。

數(shù)據(jù)猿_人工智能_2024年度總結-7

Applovin機制，來源：https://www.linkedin.com/pulse/applovin-app-hyoungjun-kang-tjthe/

比Applovin更加迅速崛起的2024年現(xiàn)象級應用，Cursor無疑是最值得關注的一匹黑馬。這家基于提示詞自動生成應用程序的AI應用公司在去年8月份之前還默默無聞，8月a16z和Thrive Capital給Cursor的投資到位，估值4億美元，到年底的B輪融資，估值高達26億美元，12個工程師讓公司估值上漲了6.5倍，如今已經(jīng)成為百萬程序員的必備神器，靠每月20美元的訂閱費，讓經(jīng)常性年收入達到1億美元。

數(shù)據(jù)猿_人工智能_2024年度總結-8

不只是改變程序員，Cursor重大意義更在于工作方式的變革。在Cursor的世界里流傳著一段傳奇故事是一位8歲的小女孩利用Cursor在45分鐘內(nèi)就構建了一個聊天機器人，技術對普通人的神奇改變猶如當年的“別針換別墅”；同樣不會編程的產(chǎn)品經(jīng)理陳云飛花了1小時寫了一個名為“小貓補光燈”的APP，然后發(fā)布在了蘋果APP Store，一度在收費榜中排名第一。著名人工智能專家、Coursera創(chuàng)辦人吳恩達認為懂AI的產(chǎn)品經(jīng)理將在未來的市場中占據(jù)更為重要的位置，AI讓開發(fā)門檻降低，而對能夠明確“構建什么”的人才需求將大幅上升。

另外值得一提的是2024年獲得巨大發(fā)展的中國AI出海應用。根據(jù)SensorTower發(fā)布的2024年上半年美國AI應用市場的下載量數(shù)據(jù)顯示，排名前十的AI應用中有三款來自中國企業(yè)。其中，MiniMax的陪伴式應用Talkie在美國下載量排名第四，超越了美國同類產(chǎn)品領頭羊Character.ai。MiniMax的另一款AI視頻應用海螺（Hailuo）亦曾在9月登頂全球及國內(nèi)增速榜首，而在教育領域，Question.AI和Gauth更是雙雙領跑美國市場，成為行業(yè)標桿。

最近幾年，中國科技企業(yè)在全球化的運營經(jīng)驗越來越成熟，善于根據(jù)目標市場的文化特點和用戶習慣調整產(chǎn)品，而且中國出海的AI應用通常采用更高性價比的服務策略，例如，通過低門檻的訂閱費或免費增值模式吸引大量用戶，隨后再利用豐富的功能層層加深用戶粘性。

數(shù)據(jù)猿_人工智能_2024年度總結-9

來源：talkie

我們再來說說AI硬件，2024年也被視為AI硬件的創(chuàng)新大年。各類硬件設備——從手機、PC、汽車、耳機、眼鏡甚至玩具——紛紛融入AI技術，盡管這些AI硬件還未全面滲透到消費者的日常生活，但通過AI技術的加持，已經(jīng)增強了原有產(chǎn)品的用戶體驗。

蘋果和Google推出的AI手機成為這一年行業(yè)的標志性事件。前者推出了集成Apple Intelligence的大模型生態(tài)系統(tǒng)，將AI深度融入iPhone 16系列手機；后者則在其Pixel系列中強化了多模態(tài)交互功能，國產(chǎn)手機廠商也紛紛布局這一領域。此前根據(jù)賽迪顧問預測，2024年新型AI手機的出貨量預計將會達到1.5億部，占全球智能手機總出貨量的13%。

AI手機各廠商的目標遠不止類Siri的升級版或是簡單接入大模型，2024年流行的一個名詞“端側AI（On-device AI或Edge AI）”是指在本地設備（如手機、平板、智能手表、智能音箱等終端設備）上運行人工智能模型，而不需要將數(shù)據(jù)傳輸?shù)皆贫诉M行計算。這樣做的好處，除了實時響應與增強體驗以外，還可以借助App Intents和App Entities，實現(xiàn)互聯(lián)互通，調起更多的APP。

盡管不需要特定的手機硬件支持，智譜AutoGLM借助上述理念展現(xiàn)了更為強大的AI助手引起了用戶的廣泛共鳴，比如用戶可以用語音向安裝了AutoGLM的手機提問，“幫我上小紅書看看火鍋需要什么食材”，于是AI智能體上小紅書筆記里幫用戶去尋找火鍋食材，并在“到家App”上自動將上述食材多步驟操作加入購物車并下單。而未來具有端側AI功能、搭載AI加速芯片的手機將會適配支持更復雜任務交由本地化處理。

作為人工智能與機器人產(chǎn)業(yè)交匯處的具身智能（Embodied AI），在2024年悄然取得進步。頻繁亮相的特斯拉Optimus機器人去年在運動控制和任務執(zhí)行方面展現(xiàn)出強大的迭代速度，在運動控制、任務執(zhí)行、學習能力等方面不斷提升水平，業(yè)已被特斯拉引入自家的汽車生產(chǎn)線測試。同樣，搭載了視覺語言模型（VLM）、能夠進行常識性推理，并能與人類進行有效溝通的Figure AI人形機器人Figure 02，也于去年11月正式進入汽車巨頭寶馬的生產(chǎn)線打工。

數(shù)據(jù)猿_人工智能_2024年度總結-10

Tesla Optimus在操作物體時也具備交流能力，來源：特斯拉

各大車企加速布局人形機器人以外，工業(yè)巡檢、倉儲物流、醫(yī)療輔助、建筑與施工、家政服務等領域都在成為具身智能的落地場景。例如Google DeepMind推出的RT-2模型，通過視覺-語言-動作（VLA）模型，將多模態(tài)大模型塞進機械臂，使推理與知識賦能給機器人，既能用在家政行業(yè)，執(zhí)行烘焙、清理和準備食材等任務，也能運用在自動化生產(chǎn)線，讓我們看到通用機器人的可能性。

而2024年備受關注的世界模型（WFMs）概念，為具身智能的訓練與測試開辟了全新范式。機器人能夠在虛擬的小世界中進行“試錯”和“練習”，從而具備“腦補”的能力，即提前模擬和預測自身動作的結果。這種能力支持具身智能體實現(xiàn)自主決策與持續(xù)學習，讓機器人從傳統(tǒng)的“被動執(zhí)行”邁向“主動進化”，此被視為邁向通用人工智能（AGI）的重要一步。

你方唱罷我登場的企業(yè)競爭格局

2024年，大模型已不再是OpenAI的一枝獨秀。如果說2023年以Claude和Llama為代表的挑戰(zhàn)者只是星星之火，而在2024年挑戰(zhàn)OpenAI的大模型已經(jīng)燎原。例如，DeepSeek v3模型以僅557萬美元的訓練成本實現(xiàn)了與Claude 3.5 Sonnet等頂級模型相媲美的性能，顯著降低了高性能AI的進入門檻。同時，Meta推出的Llama 3.1和Llama 3.2開源模型在多模態(tài)能力上取得重大突破，在圖像、音頻和文本處理方面更加高效。

我們查看了包括Open LLM Leaderboard、LiveBench AI、MMLU、Chatbot Arena、SuperClue、Lmarena AI在內(nèi)的多家大模型測評網(wǎng)站，盡管大部分OpenAI旗下的大模型仍居榜首，不過有些靠前位置則被Claude和Gemini取代。根據(jù)Menlo Ventures的調查報告，Claude的市場份額從12%翻番到24%，Google從7%提升到12%，而OpenAI的市場份額則從去年同期的50%下降至 34%。

數(shù)據(jù)猿_人工智能_2024年度總結-11

2023和2024年各主要大模型公司市場份額對比，來源：Menlo Ventures

我們先來說說Claude，這個大模型的母公司Anthropic是由OpenAI的前核心團隊成員于2021年創(chuàng)立，到2024年也不過3年時間。之所以獨立出來創(chuàng)業(yè)，創(chuàng)始團隊認為，隨著大模型越來越強大，AI的不可預測性和安全風險也在增加，因此他們提出了“憲法AI（Constitutional AI）”的理念，強調通過內(nèi)置規(guī)則和透明的設計來減少模型的有害輸出。

安全性貌似與普通人無關，不過我們從大模型幻覺角度考慮就容易理解一些，更嚴格的標準不會讓大模型胡說八道，而且，對于金融、醫(yī)療和法律等對數(shù)據(jù)安全與準確性要求高的行業(yè)，可靠性與穩(wěn)定性顯得尤為重要，讓其成為企業(yè)市場的熱門選擇。前面提到的當紅辣子雞Cursor，去年毅然將其AI編程助手的默認模型也從GPT換成了Claude。

受到企業(yè)級用戶青睞，加上Claude 3.5本身的技術實力，其流量在2024年實現(xiàn)了爆發(fā)式增長，從1月的2019萬攀升至11月的8932萬，增幅高達342%。這一成績亦與Anthropic的市場策略密切相關，Claude憑借高性能和靈活架構，成為企業(yè)整合AI技術的首選方案之一，同時通過相對低價和良好的企業(yè)適配性占據(jù)市場優(yōu)勢。據(jù)彭博社報道，2024年美國AI初創(chuàng)企業(yè)融資達970億美元，占全年初創(chuàng)融資總額的近一半，創(chuàng)歷史新高，Anthropic抓住這一良機，大幅擴充銷售團隊規(guī)模，從2023年的200余名增長至去年9月的1000余名，同比增長500%，加速向市場滲透。因此，許多中小企業(yè)在2024年從開源或其他大模型轉移到Claude作為其生成式AI能力的底層支持。

我們再來看Gemini。Gemini的發(fā)展要放在Google的大格局里看。盡管此前有Bert大模型，但2022年底Google并沒有跟上Transformer的浪潮，換句話說，Google落后了，不僅落后于微軟，也落后于Meta。而2024年，是Google在AI領域奮起直追的一年。

首先Google想到用AI能力最強的DeepMind的團隊，我們都知道DeepMind最成功的作品是阿爾法狗（AlphaGo），盡管過去很多年，實力還在，今年諾貝爾化學獎的兩位得主就出自DeepMind，其中一個還是DeepMind的聯(lián)合創(chuàng)始人兼CEO。

Google打破部門間的藩籬，將Gemini的主導權交給DeepMind，谷歌首席執(zhí)行官Sundar Pichai稱，此次重組旨在不斷加快谷歌人工智能開發(fā)的步伐。此次重組效果是明顯的，Gemini因此能夠融合深度學習、神經(jīng)網(wǎng)絡和生成對抗網(wǎng)絡（GAN）等多種先進的AI技術，使其具備更強的自我學習能力和生成能力。

我們看到去年全面升級后的Gemini 2.0，以多模態(tài)為發(fā)力點，使其能夠處理文本、圖像、音頻和視頻等多種輸入來源，具備全面的感知與理解能力，進一步接近人類對物理世界的認知。而Gemini 2.0強調的定位——“Our new AI model for the agentic era”，通過多模態(tài)的強大能力突破了單一任務的限制，更可能達到智能代理所需的“全面感知 + 自主決策”。

Gemini的信心還源于Google尤其是云服務的強力支持。在電商沖擊廣告業(yè)務、搜索面臨Perplexity圍追堵截之時，Google比以往任何時候都更加重視AI的推動作用。2024年，Google Cloud以Gemini 2.0為核心，整合旗下AI模型與組件，對Vertex AI平臺進行升級，并與其生態(tài)系統(tǒng)（如Workspace）實現(xiàn)無縫銜接，旨在吸引更多的企業(yè)客戶，從需求側深度綁定谷歌云服務，助力其在云計算和AI應用領域占據(jù)更大的市場份額。

數(shù)據(jù)猿_人工智能_2024年度總結-12

Google Cloud 12月在深圳的發(fā)布會現(xiàn)場，來源：數(shù)據(jù)猿陸易斯

AI的價值之所以能在云層面得以承載，是因為云平臺提供了一個強大的、可擴展的環(huán)境，讓企業(yè)能夠以較低的門檻快速開發(fā)、部署并運行AI應用。除Google 外，2024年亞馬遜AWS和微軟Azure也在云平臺上深度布局AI，以爭奪市場份額。

亞馬遜AWS在2024年的re:Invent大會上推出了一系列新技術，包括Amazon Nova基礎模型和Amazon Bedrock的重大升級。Bedrock則新增超過100款AI模型，并引入多代理合作和安全防護機制，以優(yōu)化推理場景的準確性和成本。AWS還強化了其生成式AI助理Amazon Q，使其更深入地應用于軟件開發(fā)和商業(yè)場景。

微軟不只與OpenAI保持整合，在Microsoft Ignite 2024全球開發(fā)者大會上，微軟宣布，已經(jīng)建立了全球規(guī)模最大的企業(yè)級AI解決方案生態(tài)系統(tǒng)，用戶可以通過Azure AI目錄訪問超過1800個AI模型，企業(yè)可根據(jù)自身需要構建AI智能體。微軟表示，自推出以來，已有超過10萬家組織用Copilot Studio創(chuàng)建了自身的AI智能體。

國內(nèi)的通義千問（阿里巴巴）和豆包（火山引擎，字節(jié)跳動）同樣體現(xiàn)了大模型與云計算深度綁定的發(fā)展策略。

阿里巴巴依托其強大的阿里云生態(tài)，充分整合了旗下大模型通義千問的能力。通過阿里云，通義千問能夠為企業(yè)提供定制化的行業(yè)解決方案，如電商推薦、客戶服務、內(nèi)容創(chuàng)作等，從而吸引更多的企業(yè)客戶上云?；鹕揭鎰t利用豆包大模型，提供諸如廣告優(yōu)化、內(nèi)容生成、視頻編輯等高度垂直的服務，與字節(jié)跳動的內(nèi)容生態(tài)如抖音、今日頭條等平臺以及工具鏈如創(chuàng)作工具剪映高度協(xié)同。

數(shù)據(jù)猿_人工智能_2024年度總結-13

來源：艾瑞

由此我們可以看出，盡管中美的科技巨頭在產(chǎn)業(yè)結構上采取了相似的路徑，但中國企業(yè)更加注重內(nèi)部生態(tài)的整合。對于國內(nèi)頭部企業(yè)而言，走過了“百模”大戰(zhàn)的2024年是圍繞大模型生態(tài)進行布局和競爭的一年，不論是C端還是B端市場，都涵蓋在內(nèi)。對于中國消費者而言，他們并非局限于某一特定生態(tài)，而是通過對比各家產(chǎn)品功能，力求獲得最佳性價比。

我們以字節(jié)跳動的AI布局為例。首先，2023年11月，字節(jié)成立Flow部門，專注于AI模型的技術開發(fā)與應用，共分為三層，Stone團隊承擔產(chǎn)品研發(fā)支持職能；Seed團隊主攻大模型研發(fā)；Flow團隊則聚焦AI產(chǎn)品應用開發(fā)。其中，作為底座的豆包大模型以“豆包通用模型PRo”、“視覺理解模型”、“語音合成模型”為主打分別對應文本、視頻和音頻，其研發(fā)水平的提升通過評測的方法不斷對比國際同類大模型，而其中又根據(jù)不同細分場景，再切出來幾十種特定模型，如聲音復刻模型、角色扮演模型，適配各類場景應用；而更底層的火山引擎則提供底層算力和云計算基礎。

然后，字節(jié)沿用國內(nèi)APP矩陣的做法，開發(fā)一系列的AI產(chǎn)品，并非只單做國內(nèi)市場，而是采取海內(nèi)外同步推進的戰(zhàn)略，多場景全方位對標國際產(chǎn)品。比如豆包對應ChatGPT，虛擬陪伴貓箱對標Character AI、智能體開發(fā)平臺Coze對應Dify、AI編程工具Marscode對標Cursor；這里也包括一些硬件產(chǎn)品，比如AI耳機“Ola Friend”、AI玩具“顯眼包”。

數(shù)據(jù)猿_人工智能_2024年度總結-14

字節(jié)跳動旗下AI應用/硬件，來源：第一財經(jīng)雜志官方百家號、海通國際

與此同時，字節(jié)還將AI整合進現(xiàn)有產(chǎn)品線，提升現(xiàn)有產(chǎn)品的流量、回訪率和復購率等，例如為抖音和Tiktok提供“即創(chuàng)”工具平臺，提供包括數(shù)字人、直播腳本在內(nèi)的創(chuàng)作工具；為剪映提供“即夢”文生圖、文生視頻工具；為大力教育提供豆包愛學等等。

另外，不容忽視的是字節(jié)以“更低價格”與“更易落地”的策略搶占市場先機。2024年5月，豆包大模型剛發(fā)布的時候，主力模型在企業(yè)市場的定價只有0.0008元/千Tokens，0.8厘就能處理1500多個漢字，比行業(yè)便宜99.3%，如此比其他競品贏得了更多的客戶。

算力采購價格是影響大模型最終價格的核心因素，盡管國產(chǎn)芯片逐漸加碼，國內(nèi)廠商對英偉達仍有巨大的采購需求。根據(jù)科技顧問機構Omdia數(shù)據(jù)，字節(jié)跳動和騰訊2024年分別訂購了約23萬片英偉達的芯片，其中包括Hopper架構下的低版本芯片H20，在Hopper架構的總購買數(shù)量僅次于微軟。

數(shù)據(jù)猿_人工智能_2024年度總結-15

來源：Omdia

在算力領域，英偉達憑借其領先的技術和生態(tài)系統(tǒng)，始終占據(jù)行業(yè)主導地位。根據(jù)Trendforce和Digitimes，單看搭載GPU的AI服務器，英偉達市占率逼近9成，其主要競爭對手AMD市占率則僅約8%。去年10月，AMD發(fā)布了MI325系列數(shù)據(jù)中心加速器，與英偉達依然有顯著差距，其管理層表示，與目前正在擴大規(guī)模的英偉達Blackwell的競爭可能不那么順利。從收入的表現(xiàn)來看也是如此，AMD的收入增長并不像英偉達那么明顯。

數(shù)據(jù)猿_人工智能_2024年度總結-16

來源：wright's research

靠追趕是很難撼動行業(yè)主導者地位的，但下一代技術未必。2024年12月10日，谷歌推出Willow芯片，攜帶105個物理量子比特，能夠在短短不到五分鐘的時間，完成了當今最快的超級計算機Frontier需要10²?年才能完成的一個基準測試任務。這將為人工智能的發(fā)展提供全新范式的想象空間。

這一年，人工智能帶給我們不同層面的想象空間還有很多，當OpenAI GPT3打開了潘多拉的盒子，2024則是人工智能邁向全新高度的一年。從生成式大模型的技術持續(xù)突破，到多模態(tài)模型應用的全面爆發(fā)，再到AI驅動行業(yè)變革的深度滲透，AI的影響力已經(jīng)無處不在。然而，這一年也讓我們意識到，算力、幻覺、成本、倫理和監(jiān)管等問題依然是未來發(fā)展的重要挑戰(zhàn)。

盡管通用人工智能（AGI）的宏大愿景仍需時間來實現(xiàn)，2024年讓我們看到了人工智能從“前沿探索”逐步走向“實際落地”的巨大潛力。小模型的高效化、多模態(tài)模型的自然化、Agent架構的智能化，以及各行業(yè)的廣泛應用，特別是與云生態(tài)的全面銜接，都表明人工智能已不再是遠離生活的科技，而是深刻改變社會經(jīng)濟格局的重要力量。

展望未來，人工智能的道路依然波瀾壯闊。隨著更先進的技術、更高效的模型、更強大的算力和更健全的行業(yè)生態(tài)的逐步形成，人工智能的奇跡將繼續(xù)書寫。而我們每個人，也將在這場浩大的技術浪潮中，成為親歷者、見證者，甚至是推動者。波瀾壯闊的2024年，將為人工智能的未來埋下無數(shù)可能的種子。

來源：數(shù)據(jù)猿

收藏分享

聲明：數(shù)據(jù)猿尊重媒體行業(yè)規(guī)范，相關內(nèi)容都會注明來源與作者；轉載我們原創(chuàng)內(nèi)容時，也請務必注明“來源：數(shù)據(jù)猿”與作者名稱，否則將會受到數(shù)據(jù)猿追責。