誰是視頻之王,國內(nèi)外AI視頻生成模型大對比
文文 | 2025-05-08 17:27
【數(shù)據(jù)猿導(dǎo)讀】 目前,市場上主流AI視頻生成模型賽道有哪些玩家,其技術(shù)路線和產(chǎn)品能力如何,數(shù)據(jù)猿選取國內(nèi)外AI視頻生成模型代表,從技術(shù)解讀到實測效果,為大家全面呈現(xiàn)AI視頻生成的現(xiàn)狀。

從2024年開始,AI圈最熱門的話題中,視頻生成模型一定占一席之地。從OpenAI推出視頻模型產(chǎn)品Sora一記重拳驚艷亮相,到國內(nèi)AI視頻生成大模型井噴,AI視頻生成已經(jīng)成為科技巨頭和創(chuàng)業(yè)公司必爭之地。
毫無疑問,AI視頻生成對內(nèi)容創(chuàng)作、媒體生產(chǎn)乃至社會認(rèn)知都會產(chǎn)生深遠(yuǎn)影響。盡管被市場寄予厚望,但目前AI視頻生成開發(fā)面臨高成本、高難度、實用性差的痛點,真正商業(yè)化非一日之功。
目前,市場上主流AI視頻生成模型賽道有哪些玩家,其技術(shù)路線和產(chǎn)品能力如何,數(shù)據(jù)猿選取國內(nèi)外AI視頻生成模型代表,從技術(shù)解讀到實測效果,為大家全面呈現(xiàn)AI視頻生成的現(xiàn)狀。
技術(shù)背后沒有魔法
AI視頻生成邏輯底座解讀
2024年初,OpenAI發(fā)布了Sora技術(shù)演示視頻,瞬間引爆全網(wǎng)。那些流暢自然、細(xì)節(jié)豐富的短視頻,讓人幾乎難以辨別真假。相較于2022年DALL-E和Midjourney引發(fā)的AI繪畫浪潮,Sora掀起的這波AI視頻風(fēng)暴,似乎來得更猛烈、更具顛覆性。
但事實上,Sora爆火之后,鮮有人注意到這場AI視頻革命其實早已醞釀多時。從谷歌2022年的Imagen Video,到Runway 2023年的Gen-1和Gen-2,再到Meta去年年底發(fā)布的MovieGen,科技巨頭們一直在這個賽道上暗自較勁。而國內(nèi)從高校實驗室到互聯(lián)網(wǎng)巨頭,也紛紛入局,一場關(guān)于AI視頻生成的角逐正在全球范圍內(nèi)進(jìn)行。
相比圖像生成,視頻生成復(fù)雜度提升了不止一個量級。靜態(tài)圖像生成只需要關(guān)注空間一致性,而視頻生成不僅要在空間維度上保持一致性,更要在時間維度上維持連貫性。這就像是從畫一幅靜態(tài)畫面,變成了導(dǎo)演一部連續(xù)變化的電影。而這種難度上的飛躍,也意味著技術(shù)壁壘和門檻的大幅提高。
通常而言,未來成熟的視頻生成技術(shù)模型,一定是同時具備以下幾個方面:
☆時空一致性:確保同一物體在不同幀中保持一致的外觀和合理的運動軌跡
☆物理規(guī)則遵循:生成的畫面需符合現(xiàn)實世界的物理規(guī)則,如重力、慣性等
☆敘事連貫性:維持視頻內(nèi)容的邏輯連貫,避免情節(jié)跳躍或角色突變
☆細(xì)節(jié)真實性:捕捉光影變化、材質(zhì)特性等微觀細(xì)節(jié)
☆長序列穩(wěn)定性:在更長的時間跨度內(nèi)保持穩(wěn)定生成質(zhì)量
但就目前而言,AI視頻生成技術(shù),仍處于從“能用”到“好用”的過渡階段,和AI圖像生成一樣,剛開始的時候充滿各種瑕疵,但迭代速度會超過大多人的想象。可以肯定的是,在創(chuàng)新競速的大背景下,這個領(lǐng)域的創(chuàng)新速度只會更快。
要了解AI視頻生成的現(xiàn)狀和未來,首先要了解其技術(shù)本質(zhì)。簡單來說,AI視頻生成的工作流程主要是從提示詞到視頻的過程。
當(dāng)我們輸入“一只貓在草地上奔跑”這樣的提示詞時,AI視頻生成模型大致會經(jīng)歷以下過程:首先通過大型語言模型理解文本提示,然后規(guī)劃視頻中的場景和動作,接著使用擴(kuò)散模型生成視頻的各個幀,同時努力確保視頻中的角色和物體在不同幀之間保持一致性,最后對生成的視頻進(jìn)行后處理優(yōu)化。
聽起來簡單,實際上非常復(fù)雜。特別是保持時空一致性這一步,堪稱視頻生成的最大難關(guān)。我們經(jīng)??吹皆缙贏I生成視頻中人物的臉會突變、物體會憑空消失或改變形態(tài)、場景會莫名切換——這些都是時空一致性問題導(dǎo)致的。要解決這些問題,需要驚人的計算資源。
目前,在AI視頻生成領(lǐng)域的主流技術(shù)路線主要有5個。
1.生成對抗網(wǎng)絡(luò)(GAN)
早期視頻生成多采用GAN架構(gòu),算是繼承了圖像生成的思路:一個生成器不斷嘗試合成逼真幀,一個判別器則力求區(qū)分真實與合成,兩者博弈推動整體質(zhì)量提升。然而,標(biāo)準(zhǔn)GAN在長序列生成中普遍面臨幀間運動不連貫和圖像抖動等問題。為此,視頻生成模型MoCoGAN將視頻生成過程拆分為“內(nèi)容”與“運動”兩條潛在子空間,分別生成靜態(tài)語義與動態(tài)變化,通過對子空間的獨立建模顯著改善了運動連貫性和多樣性。緊隨其后,視頻生成模型TGAN提出“雙生成器”架構(gòu):時間生成器(Temporal Generator)產(chǎn)出幀級潛在序列,圖像生成器(Image Generator)將這些潛在碼映射為圖像幀,從而提高了長序列的時序一致性與語義穩(wěn)定性。
目前,GAN已逐漸被擴(kuò)散模型取代,但在特定場景下仍有應(yīng)用。GAN路線的優(yōu)勢在于生成速度快,但在處理復(fù)雜場景和長視頻方面存在局限。
2.自回歸Transformer與VQVAE的融合
基于自回歸模型與VQVAE/Transformer的視頻生成方法首先采用VQVAE將原始視頻幀分層編碼為離散潛在表示,通過3D卷積與向量量化實現(xiàn)高效壓縮,借助自注意力模塊捕捉局部與全局語義特征。
隨后,構(gòu)建GPT樣式的自回歸Transformer,將這些離散潛在碼視作“視覺詞匯”,結(jié)合時空位置編碼,以因果自注意力順序預(yù)測未來幀潛碼,從而確保生成視頻在運動軌跡和內(nèi)容連貫性上的一致性。該架構(gòu)在BAIR Robot、UCF101、TGIF等數(shù)據(jù)集上表現(xiàn)出與最優(yōu)GAN模型相當(dāng)?shù)纳少|(zhì)量,卻因逐步解碼的特性導(dǎo)致長視頻生成推理速度受限,面臨顯存壓力和并行化難題。
3.擴(kuò)散模型路線
擴(kuò)散模型路線采用類似于Stable Diffusion的架構(gòu),但針對視頻序列進(jìn)行了深度優(yōu)化。這類模型通常采用U-Net架構(gòu)進(jìn)行噪聲預(yù)測,并利用transformer結(jié)構(gòu)捕捉時間維度上的依賴關(guān)系。簡單來說,擴(kuò)散模型的視頻生成路線先通過正向擴(kuò)散,將目標(biāo)視頻幀序列逐步添加噪聲,直至近似純高斯噪聲,然后再反向去噪,模型以學(xué)習(xí)到的參數(shù)指導(dǎo)噪聲逐步還原成連續(xù)幀,從而完成視頻合成。
核心是3D UNet或帶時空注意力的變體,在空間上提取圖像特征的同時,還跨幀共享信息,以保證運動連貫性。整體而言,擴(kuò)散模型以其自然的迭代生成和強(qiáng)大的細(xì)節(jié)還原能力,已成為當(dāng)下文本到視頻、圖像到視頻等多模態(tài)生成任務(wù)的主流技術(shù)路線。
4.NeRF動態(tài)場景渲染技術(shù)路線
NeRF最初用于3D場景重建,通過對每個射線采樣顏色與體密度估計,實現(xiàn)高保真3D渲染。動態(tài)NeRF(Neural Radiance Fields)通過將時間或形變場作為額外維度輸入,擴(kuò)展了原始僅支持靜態(tài)場景的NeRF框架,使其能夠?qū)ξ矬w或場景的運動進(jìn)行高保真渲染。
以DNeRF為代表的方法,將時間t作為第六維度輸入,并分兩階段學(xué)習(xí):首先將時序體素映射到一個“規(guī)范空間”以統(tǒng)一表示場景,再通過變形網(wǎng)絡(luò)將規(guī)范空間中的體素根據(jù)時間變換回當(dāng)前時刻,從而在單目視頻或稀疏視角下重建剛性與非剛性運動對象的體素密度與視依賴-dependent輻射度。后續(xù)工作如Nerfies則進(jìn)一步在每個觀察點上優(yōu)化體素形變場,將動態(tài)場景的點云“扭曲”回統(tǒng)一的高維流形空間,從而更好地處理復(fù)雜非剛性形變。這個路線擅長生成幾何與光照一致的高質(zhì)量短視頻,但對多視圖視頻數(shù)據(jù)依賴高,計算開銷大。
5.多模態(tài)融合混合架構(gòu)
隨著技術(shù)演進(jìn),越來越多的模型采用混合架構(gòu),結(jié)合不同技術(shù)路線的優(yōu)勢。例如,一些模型使用大語言模型處理提示解析和場景規(guī)劃,再用擴(kuò)散模型生成具體視覺內(nèi)容,最后通過專門的時序一致性模塊優(yōu)化幀間連貫性。
一方面,在AI視頻生成中,幀間信息的復(fù)雜依賴使得時序一致性(temporal consistency)成為評價生成質(zhì)量的關(guān)鍵,為此,部分技術(shù)如TCVE(TemporalConsistent Video Editing)在2D圖像擴(kuò)散網(wǎng)絡(luò)之外引入專門的時序Unet,通過跨幀特征對齊和空間時序建模單元來保持視頻序列的時間連貫性擴(kuò)散視頻模型常在傳統(tǒng)的空間去噪模塊后增設(shè)時序注意力塊,使模型能夠捕捉幀序索引并在幀間執(zhí)行注意力運算,從而顯著改善運動平滑度與視覺一致性。
另一方面,多模態(tài)融合(multimodal fusion)致力于將文本、圖像、音頻及3D信息整合進(jìn)同一生成流程,從而創(chuàng)造出視聽一體的沉浸式內(nèi)容。
總結(jié)來看,AI視頻生成技術(shù)經(jīng)歷了從生成對抗網(wǎng)絡(luò)(GAN)到自回歸Transformer、擴(kuò)散模型、神經(jīng)輻射場(NeRF)以及時序一致性與多模態(tài)融合等多條技術(shù)路線疊加的迭代演進(jìn)。其中,GAN方法在早期取得了短視頻生成樣本的突破,但難以滿足長序列時序連貫要求,而自回歸模型和Transformer架構(gòu)通過離散編碼與序列預(yù)測打開了更高質(zhì)量生成的可能。擴(kuò)散模型是當(dāng)前絕對主流技術(shù)路線,但多模態(tài)的深度融合,是AI 視頻生成正逐步朝向生產(chǎn)級應(yīng)用的關(guān)鍵。
國內(nèi)外主要玩家
實力懸殊還是各有千秋?
隨著AI視頻生成競爭逐步深入,國內(nèi)外涌現(xiàn)出了非常多的大模型,盡管技術(shù)邏輯不盡相同,但都算是這一賽道的代表。我們羅列了部分國內(nèi)外AI視頻模型,方便大家了解,部分描述借鑒了官方公開表述,一切以實際使用體驗為準(zhǔn)。
先從國際方面來,首先當(dāng)然是OpenAI Sora,作為顛覆性的產(chǎn)品,Sora重新定義了行業(yè)標(biāo)準(zhǔn)。Sora能生成長達(dá)60秒的高質(zhì)量視頻,在畫面細(xì)節(jié)、動作流暢度和鏡頭語言把控較為均衡。Sora最大的優(yōu)勢在于其對物理世界規(guī)則的準(zhǔn)確理解,Sora采用了一種被稱為"視頻作為圖像補(bǔ)丁"的創(chuàng)新方法,將視頻表示為時空塊,不需要傳統(tǒng)的幀到幀預(yù)測,大大提升了生成質(zhì)量和效率。目前Sora與ChatGPT Plus深度綁定,用戶可在對話中一鍵體驗,但因為模型規(guī)模龐大,對GPU算力要求高,生成延遲相對較長。
☆Meta Movie Gen
作為社交媒體巨頭,Meta對短視頻內(nèi)容生態(tài)有著天然的重視。其Movie Gen模型支持多種生成模式,包括文本轉(zhuǎn)視頻、圖像轉(zhuǎn)視頻和視頻擴(kuò)展。Movie Gen的獨特優(yōu)勢在于其對社交媒體視頻樣式的深度理解。在生成垂直短視頻、創(chuàng)意內(nèi)容等社交媒體常見形式時,Movie Gen表現(xiàn)出色。此外,Meta還特別優(yōu)化了Movie Gen在移動設(shè)備上的性能,使其能夠在Instagram、Facebook等平臺無縫集成。與此同時,Movie Gen的獨特之處在于其對畫面構(gòu)圖的精準(zhǔn)把控,生成的視頻往往具有電影級的審美水準(zhǔn)。但在動作連貫性方面還有明顯提升空間。
☆I(lǐng)magen Video
作為AI領(lǐng)域的傳統(tǒng)巨頭,Google在視頻生成領(lǐng)域采取了相對低調(diào)的策略。其主要產(chǎn)品線包括Imagen Video和Phenaki兩款模型。
Google Labs發(fā)布的Imagen Video采用級聯(lián)擴(kuò)散策略:先生成低分辨率視頻,再層層上采樣至高清,兼顧生成速度與畫面質(zhì)量。它在物體運動的平滑度和細(xì)節(jié)還原方面優(yōu)于早期同類模型,但分階段推理導(dǎo)致算力消耗巨大,難以實現(xiàn)實時交互。
☆Google Phenaki
Phenaki是Google Research推出的自回歸文本到視頻模型,通過序列式提示將長文本分解、生成分鐘級連貫視頻,兼顧語義理解與運動規(guī)律。不過,自回歸策略生成速度緩慢,對顯存和訓(xùn)練數(shù)據(jù)的依賴也相當(dāng)高,且在復(fù)雜場景下偶爾有語義漂移現(xiàn)象。
☆Runway Gen-4 Alpha
RunwayML的Gen-4 Alpha基于多模態(tài)大規(guī)模預(yù)訓(xùn)練,憑借強(qiáng)大的Vision Transformer架構(gòu),實現(xiàn)了10–20秒短視頻的高保真合成,運動連貫與細(xì)節(jié)表現(xiàn)均表現(xiàn)搶眼。相比技術(shù)巨頭的產(chǎn)品,Runway更懂創(chuàng)意人。Gen-4不僅提供直觀的用戶界面,還有豐富的風(fēng)格預(yù)設(shè)和后期編輯功能。雖然在純技術(shù)指標(biāo)上可能不及Sora,但其開放的商業(yè)模式和對創(chuàng)意行業(yè)的深度優(yōu)化,得到了大量用戶認(rèn)可。
☆Pika Labs
Pika Labs將AI視頻生成做成一款面向普通用戶的在線工具,支持文本與圖像混合輸入,快速產(chǎn)出5–15秒的社交短視頻,且“Selfie With Your Younger Self”等創(chuàng)意功能深受年輕人喜愛。門檻低、響應(yīng)快是其優(yōu)勢,但分辨率和時長受限,不適合長視頻或?qū)I(yè)場景。
☆Dream Machine
Dream Machine由Luma AI推出,基于Ray2 Transformer架構(gòu),專注物理自然的10秒級短視頻生成,支持網(wǎng)頁和iOS端使用,用戶僅需輸入文本即可獲得富有電影質(zhì)感的作品。其“傻瓜式”體驗省去后期調(diào)參數(shù)的煩惱,但企業(yè)版價格較高,免費額度有限。
☆CogVideo
清華大學(xué)道生智能團(tuán)隊推出CogVideo模型是在9B參數(shù)Transformer上,融合CogView2文本編碼與多幀率訓(xùn)練策略,首創(chuàng)了3–5秒480p視頻的學(xué)術(shù)級生成模式,是較早問世的國產(chǎn)視頻生成模型,屬于國內(nèi)開源領(lǐng)域的頭部選手。CogVideo的最大亮點是對中文提示詞的精準(zhǔn)理解。在中國傳統(tǒng)文化元素表達(dá)上,其表現(xiàn)遠(yuǎn)超國際模型。CogVideo為國內(nèi)AI視頻技術(shù)奠定了重要基礎(chǔ)。
☆Vchitect
上海人工智能實驗室(InternVideo)基于InternVideo架構(gòu)開發(fā)的Vchitect,專注東方審美,采用創(chuàng)新的時空注意力與超分插幀技術(shù),在人物動作連貫性上表現(xiàn)出色。尤其是在舞蹈、運動等高難度動作場景中,其生成效果接近國際一線水平。
☆萬相
阿里通義萬相支持中英文雙語文本到視頻的無縫切換,并兼容圖像到視頻的混合生成,滿足電商與營銷等垂直場景需求。它的模板化和語義融合強(qiáng),但完全依賴云端接口,網(wǎng)絡(luò)與調(diào)用成本是其潛在瓶頸。
☆混元圖生視頻
騰訊混元大模型憑借對多模態(tài)預(yù)訓(xùn)練的深度優(yōu)化,能基于圖像或文本提示生成5秒內(nèi)的2K短視頻,并支持口型驅(qū)動、動作驅(qū)動及背景音效一體化。混元視頻生成模型追求輕量級而非極致畫質(zhì)。
☆百度 “一鏡流影”
百度“文心一言”4.0中的“一鏡流影”插件主打批量化短視頻生產(chǎn),能夠?qū)⑽谋咀詣愚D(zhuǎn)化為5–10秒720p視頻,并支持文本、視覺與語音的多模態(tài)融合,為新聞和教育場景提供了高效解決方案。但在深入故事化和長視頻生成方面,還需與專業(yè)創(chuàng)作管線結(jié)合使用。"一鏡流影"走了一條與眾不同的路線,即將視頻生成能力整合進(jìn)大模型生態(tài)。這種方式雖然在專業(yè)性上有所妥協(xié),但大大提高了普通用戶的可及性。
☆可靈
可靈AI(Kling AI)是快手在去年6月推出的AI視頻生成模型,可靈AI基于DiT(Diffusion Transformer)架構(gòu),提供“文生視頻”和“圖生視頻”雙模式,支持最長3分鐘、1080p、30fps的高質(zhì)量視頻輸出,同時有“視頻續(xù)寫”功能。
實測對決
誰是真正的視頻之王?
誠然,每個AI視頻生成模型都各有特點和長處,很難通過一個評測決定誰更厲害。但從用戶角度而言,根據(jù)一段文字生成符合要求的視頻是最直觀的需求。因此,根據(jù)篇幅情況,我們以通用場景和復(fù)雜場景兩種題目進(jìn)行評測,對部分AI視頻生成模型進(jìn)行測試,直觀呈現(xiàn)各模型畫面質(zhì)量、動作流暢度、創(chuàng)意表現(xiàn)等維度,測試結(jié)果僅供參考。
為進(jìn)一步均衡各模型特色,我們統(tǒng)一采用文字生視頻方式,相較于一般評測,我們會對題目進(jìn)行稍微拉升,以下是兩個場景的通用題目:
☆通用場景:城市黃昏街道漫步
生成一段15秒的高清視頻,展現(xiàn)一條現(xiàn)代化城市街道在傍晚時分的景象。
畫面主體:行人緩慢漫步、商鋪燈光初亮、路邊汽車行駛
氛圍與色調(diào):溫暖的橙紅色調(diào)、夕陽余暉反射在玻璃幕墻上
攝像機(jī)動態(tài):鏡頭由左至右平滑推進(jìn),伴隨輕微的推拉效果
附加元素:偶爾出現(xiàn)飛過的鳥群、路邊招牌稍微閃爍
☆復(fù)雜場景:夜幕下的賽博朋克式追逐
生成一段30秒的超高清視頻,場景設(shè)定為未來都市的夜晚。
畫面主體:一名身著熒光裝甲的女主角騎摩托高速穿過霓虹閃爍的街區(qū)
背景與氛圍:賽博朋克風(fēng)格,高對比冷暖光源交替,雨后濕潤街面反射霓虹燈
視覺特效:動態(tài)霓虹線條、半透明全息廣告牌、漂浮的無人機(jī)編隊
攝像機(jī)動態(tài):多機(jī)位剪輯——高速跟隨鏡頭、低角度推近、俯拍全景
敘事提示:開場女主角在橋頭躍下,隨后進(jìn)入錯綜復(fù)雜的巷道并甩開追兵
首先是OpenAI Sora,Sora目前僅對ChatGPT plus版本(20美元/月)和pro版本(200美元/月)開放,生成視頻長度為5秒鐘,生成速度非???。
在通用場景中,Sora生成的視頻對于街道、建筑物、商戶、車輛及飛鳥塑造比較成功,但人物走動稍微有些穿模。
在復(fù)雜場景測試中,Sora塑造的女主角騎摩托車,行駛速度非常緩慢,對于雨后街道、兩側(cè)建筑及無人機(jī)塑造比較貼切,有一定鏡頭跟隨。就本次測試而言,Sora表現(xiàn)并不算出色。
谷歌的Veo 2可以通過Google AI Studio 和 Gemini App進(jìn)行使用,目前可以生成8秒720p的視頻功能。實測中,Veo 2生成視頻速度非常快,不到1分鐘即可完成。
在通用場景中,Veo 2成功塑造了多個行人、商鋪燈光、汽車、街道、鳥群等元素,整體鏡頭呈現(xiàn)類似街拍。人物呈現(xiàn)非常逼真,但汽車不是在路邊行駛,路邊招牌也未閃爍,整體鏡頭從左至右平滑推進(jìn)則完全沒有呈現(xiàn)。
在復(fù)雜場景中,Veo 2把視頻創(chuàng)意設(shè)置為了類似游戲畫面,呈現(xiàn)了“一名身著熒光裝甲的女主角騎摩托高速穿過霓虹閃爍的街區(qū)”,雨后的界面,半透明全息廣告牌、無人機(jī)編隊等都有呈現(xiàn)。但可以受限時長,沒有后續(xù)的甩開追兵等內(nèi)容,也沒有多機(jī)位切換。但整體來看,畫面風(fēng)格和呈現(xiàn)已經(jīng)非常不錯。
Gen-4 Alpha支持文本到視頻、圖像到視頻等功能,對所有付費訂閱用戶開放(標(biāo)準(zhǔn)套餐15美元/月),但是由于Gen-4必須要一張圖片作為基礎(chǔ),所以我們以AI圖片為基礎(chǔ),測試AI圖片加統(tǒng)一場景描述。整體來說,Gen-4的視頻生成速度一般,超過20分鐘,可選擇6種生成視頻尺寸,視頻時長可以選擇5秒和10秒。另外,生成視頻后還可以根據(jù)該視頻生成4K版本。
通用場景使用圖片(下同)
復(fù)雜場景使用圖片(下同)
Gen-4使用界面
在通用場景中,Gen-4根據(jù)圖片,生成了動態(tài)視頻,整體來看動作較為流暢,但由于幾乎完全是根據(jù)圖片來生成視頻,所以并沒有根據(jù)描述進(jìn)行創(chuàng)新。
在復(fù)雜場景中,由于Gen-4同樣根據(jù)圖片生成視頻,不僅對圖片進(jìn)行了優(yōu)化,內(nèi)容元素也根據(jù)提示詞進(jìn)行了優(yōu)化,鏡頭也進(jìn)行了跟隨,整體來看視頻質(zhì)量很出眾。Gen-4更擅長根據(jù)圖片生成視頻,且整體視頻邏輯和質(zhì)量較為可靠。
Pika Labs則是擅長將視頻進(jìn)行扭曲調(diào)整,比如讓喝水的貓自己拿起杯子喝,比如讓書中的貓頭鷹出來、讓視頻中人的頭變成氣球飄出畫面等等。目前PIKA2.2版本僅對付費用戶開放,單月費用為28美元。
Pika使用界面
Pika效果演示
接下來是國內(nèi)AI視頻生成模型:
CogVideoX測試中,我們先對智譜清言中智譜清影-AI視頻生視頻進(jìn)行了測試。智譜清影同樣需要一個參考圖,可生成視頻為5秒,生成過程需要排隊。
智譜清影使用界面
從生成視頻結(jié)果來看,差距較為明顯,通用場景中不僅行人有倒走現(xiàn)場,甚至有詭異回頭等不和諧形式。
在復(fù)雜場景中,所生成視頻有所改觀,有部分鏡頭跟隨,但把無人機(jī)生成為了鳥,整體來看,不夠精準(zhǔn)。
另外,我們還找到了一個名為CogVideoX-5B-demo的模型倉庫,并對命題進(jìn)行了測試,結(jié)果更差,不僅人物模糊,畫面擦除現(xiàn)場非常嚴(yán)重,很難稱之為合格視頻。
CogVideoX-5B-demo
Vchitect2.0中文名為書生·筑夢,非常有意境和寓意,從官網(wǎng)進(jìn)入測試界面,僅用于學(xué)術(shù)研究及體驗性使用。由于GPU內(nèi)存限制,演示僅支持2秒的視頻生成。要使用完整版本,需要本地版本。
Vchitect2.0 書生·筑夢界面
不過有意思的是,在實際測試中,Vchitect2.0似乎很難理解中文命令,需要翻譯成英文,才能生成貼合內(nèi)容的視頻。
在通用場景測試中,盡管視頻生成僅有2秒鐘,但從展現(xiàn)出的質(zhì)量來看還有提升空間,視頻中有部分人物剪影,天空中有鳥呈現(xiàn),質(zhì)量非常一般。
在復(fù)雜場景測試中,Vchitect2.0直接出錯,提示已超出GPU配額,時間一直停留在(請求120秒,剩余85秒)。并提示創(chuàng)建免費賬戶獲取更多使用配額。
阿里通義萬相測試的是文生視頻2.1專業(yè)版,通義萬相文生視頻需要消耗10靈感值,不過每次簽到可以獲得50靈感值,頁面比較簡潔,支持4種視頻比例。視頻生成過程中會顯示預(yù)計需要用時,但實測中倒計時結(jié)束后并未生成視頻,整體視頻生成超過半小時,生成視頻后可以再次生成HD版本。
阿里通義萬相界面
在通用場景測試中,通用萬相生成的視頻只有6秒,但非常驚艷,視頻為高清版本,人物動作自然,畫面對于文案還原程度非常高,行人緩慢漫步,商鋪燈光初亮、夕陽余暉反射在玻璃幕墻上,整體呈現(xiàn)非常不錯。
在復(fù)雜場景測試中,通用萬相生成的視頻同樣6秒,整體畫面流暢,女主角騎車動作自然,有多次鏡頭切換及跟隨,但開始時無人機(jī)出現(xiàn)很突兀,整體道路、雨后路面效果還原較為自然。
騰訊混元AI視頻目前是在體驗階段,使用需要申請,不過一般都是秒過,初次可以體驗標(biāo)準(zhǔn)4次,高品質(zhì)2次,2K視頻1次,有導(dǎo)演模式,并提供5種視頻比例,視頻生成需要排隊,但比較快,10分鐘以內(nèi)可以生成完畢。值得一提的是,騰訊混元AI視頻有短信提醒功能,視頻生成完成后會進(jìn)行短信提醒。
騰訊混元AI視頻界面
在通用場景測試中,騰訊混元AI所生成視頻為5秒,并可以,視頻塑造了一個黃昏晚霞的街頭熱鬧場景,商鋪、行人、車輛、天空中緩慢飛翔的鳥群以及閃爍的紅綠燈,細(xì)節(jié)可圈可點。與此同時,鏡頭由左至右平滑推進(jìn),較完整還原了命題要求,整體來看非常驚艷。
在復(fù)雜場景測試中,騰訊混元AI同樣生成了一個5秒鐘視頻,視頻中女主角騎摩托車飛馳街頭,多機(jī)位呈現(xiàn),無人機(jī)艦隊逼真。在創(chuàng)意方面,騰訊混元AI在女主角騎摩托躍起脫離地面后,巧妙地將摩托車輪子回收,成為駕駛小型飛船畫面,這個創(chuàng)意堪稱滿分。
“一鏡流影”是百度文心一言4.0會員專屬的AI文字轉(zhuǎn)視頻插件,但目前文心一言無論是4.0Turbo還是文心4.5版本,都沒有展示插件端口。
可靈AI目前有可靈2.0大師版,連續(xù)包月58元/月,我們測試是可靈1.6版本??伸`AI視頻生成有文生視頻、圖生視頻、多模態(tài)編輯三種模式。其中文生視頻有3個比例,可生成10秒視頻,創(chuàng)意相關(guān)可調(diào)整想象力,視頻生成需排隊,但一般10分鐘以內(nèi)可以生成完畢。
可靈界面
在通用場景測試中,可靈同樣塑造了一個黃昏街頭的視頻,模擬了手持鏡頭的效果,整體呈現(xiàn)還不錯,商場玻璃倒影比較出色,無論是大樓還是車輛駛過,都比較自然。
在復(fù)雜場景測試中,可靈本次生成效果一般,女主角騎車不僅有突然調(diào)轉(zhuǎn)車輛,還有穿模現(xiàn)象,命題中要求的無人機(jī)編隊、雨后街面等都沒有呈現(xiàn)。
綜合來看,就本次評測而言,國外方面Sora、Veo 2整體呈現(xiàn)比較出眾,Gen-4 Alpha圖生視頻非常驚艷。而國內(nèi)通義萬相、騰訊混元AI視頻、可靈AI創(chuàng)意和結(jié)果呈現(xiàn)都比較好,國內(nèi)外主流AI視頻生成模型基本上平分秋色。
就目前而言,國內(nèi)外AI視頻生成的商業(yè)化路徑其實是比較清晰的,目前主要有以下類型:
第一個當(dāng)然是訂閱制SaaS服務(wù),不管是Sora、Pika、Gen-4 Alpha,還是國內(nèi)的可靈,都有開放不同等級的付費套餐。
其次是API服務(wù),據(jù)了解,目前非常多的模型主要針對企業(yè)客戶或開發(fā)者,按調(diào)用量付費,這種模式靈活性高,更受大型企業(yè)青睞。
最后一種是提供垂直行業(yè)解決方案,針對特定行業(yè)需求提供定制化視頻生成方案,如電商產(chǎn)品展示、教育內(nèi)容制作、游戲資產(chǎn)生成等。這類解決方案一般是項目制收費或年度服務(wù)費模式。
未來已來:AI視頻生成的下一站
盡管目前所有AI視頻生成模型都僅僅只能生成數(shù)秒視頻,但可以預(yù)見AI視頻技術(shù)爆發(fā)已經(jīng)不遠(yuǎn),我們大膽預(yù)測,未來2-3年,AI視頻生成領(lǐng)域會著重從以下幾個方面突破。
首先,視頻長度將從目前的秒級延伸至完整短片級別。當(dāng)AI能生成10分鐘以上的連貫敘事視頻時,內(nèi)容創(chuàng)作行業(yè)將迎來又一個革命性變革。
其次,模型將進(jìn)化出"導(dǎo)演能力",不僅能按文本生成單一鏡頭,還能理解并實現(xiàn)分鏡頭腳本、蒙太奇等高級電影語言,這是更高級和值得期待的一步。
接下來,專業(yè)化分工將更加明顯。除了通用視頻生成模型之外,針對電商、教育、游戲等垂直領(lǐng)域的專業(yè)模型將會涌現(xiàn)出來,為特定場景提供優(yōu)化解決方案。
最后,算力成本的下降會讓AI視頻生成門檻進(jìn)一步降低,會有更多AI視頻應(yīng)用形式誕生。
可以肯定的是,AI視頻生成競爭中,技術(shù)實力固然重要,但最終能否廣泛商用并創(chuàng)造價值,才是真正決定這場角逐的關(guān)鍵,好戲才剛剛開始。
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評論
不容錯過的資訊
-
1雙輪驅(qū)動保險未來:2025壽險科技創(chuàng)新論壇
-
2百度Create大會啟示錄:中國AI產(chǎn)業(yè)如何構(gòu)
-
3聯(lián)想多款超級智能體身手不凡,讓AI成為創(chuàng)
-
4傲鯊智能連續(xù)完成兩輪融資,彬復(fù)領(lǐng)投、老
-
52025年,數(shù)據(jù)產(chǎn)業(yè)的「信任革命」
-
6福建人才數(shù)字發(fā)展有限公司與支付寶達(dá)成戰(zhàn)
-
7螞蟻數(shù)科發(fā)布智能體開發(fā)平臺Agentar 金
-
8數(shù)字中國建設(shè)峰會解鎖“支付寶碰一下”,
-
9DeepSeek重新在韓國上架;國家數(shù)據(jù)局:“
-
10百度智能云兩大基礎(chǔ)設(shè)施再升級!打造AI時
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
