首頁 > 科技要聞 > 科技> 正文

谷歌發(fā)了個(gè)新模型,順手證明Sora才是最菜的

騰訊科技 整合編輯:太平洋科技 發(fā)布于:2024-12-18 16:34

在OpenAI發(fā)布會(huì)還在“產(chǎn)品雕花”的時(shí)候,谷歌繼續(xù)努力更新基礎(chǔ)模型。半個(gè)月前是3D場(chǎng)景生成基礎(chǔ)模型、一周前是大殺四方的Gemini 2,而今天則是視頻生成模型。

北京時(shí)間12月17日,谷歌發(fā)布了其文生視頻模型Veo的下一個(gè)版本Veo 2。此次升級(jí)距離谷歌在今年5月的I/O大會(huì)上首次宣布Veo已經(jīng)過去7個(gè)月。

但Veo僅在十幾天前的12月3日才登上Axtrix,在這之前,用戶只能利用VideoFX中的實(shí)驗(yàn)工具小規(guī)模試用這一視頻生成軟件。

這一版本主要帶來三個(gè)核心升級(jí)。首先是真實(shí)感和保真度大為增加,它支持對(duì)長度為8s、清晰度為4K視頻的輸出,并在細(xì)節(jié)、真實(shí)性和偽影減少方面提升巨大。

其次,Veo以其對(duì)物理學(xué)的理解及遵循詳細(xì)指令的能力,能夠高度精確地捕捉運(yùn)動(dòng)。這正是前幾日Sora頻頻翻車的點(diǎn)。

第三,Veo 2還提供了更多的相機(jī)控制選項(xiàng),你可以輸入諸如“鏡頭緩慢推進(jìn)她的面龐”、“攝像機(jī)在追逐車輛的過程中趨于穩(wěn)定”、“極近的特寫鏡頭”來去描述你需要的鏡頭模式。

當(dāng)然,從目前谷歌給出的范例來看,Veo 2 對(duì)物理世界的理解確實(shí)達(dá)到了相當(dāng)?shù)母叨龋绕涫侨祟惸酥晾ハx的動(dòng)作表現(xiàn),這些動(dòng)作與世界交互的自然感都很強(qiáng)。比如這只用喙捕獵的火烈鳥,它激起的水花就不想Sora前兩天演示時(shí)那種火山爆發(fā)般的夸張。

在實(shí)際的測(cè)試中,Veo也得到了SOTA的水平。谷歌選取了其他包括Sora在內(nèi)的頂尖模型,在Meta發(fā)布的基準(zhǔn)數(shù)據(jù)集MovieGenBench 上比拼了 1003 條提示及其對(duì)應(yīng)視頻。

從整體表現(xiàn)上看,Veo占優(yōu)的情況都接近或超過了50%,不占劣勢(shì)的情況則能達(dá)到70%左右。

比較有趣的事,Sora Turbo在谷歌測(cè)試的所有模型中居然是表現(xiàn)最差的,而表現(xiàn)最好的是可靈1.5。

在指令遵循上,Veo表現(xiàn)也達(dá)到了SOTA,其他個(gè)個(gè)模型也和整體表現(xiàn)排名差異不大。

在報(bào)告中,谷歌承認(rèn)了自己的模型也有短板。在復(fù)雜場(chǎng)景或復(fù)雜運(yùn)動(dòng)中保持完全的一致性仍然沒法被突破。在他們自己給出的范例中,依然會(huì)出現(xiàn)憑空出現(xiàn)的人物。在運(yùn)動(dòng)中,人也可能依然出現(xiàn)那種不自然的“AI扭曲”。

在推特上,已經(jīng)有一些網(wǎng)友做了測(cè)試。表明Veo 2的鏡頭控制和運(yùn)動(dòng)能力所言不虛。在提示詞為“一個(gè)人坐在咖啡館里喝咖啡的視頻。過了一會(huì)兒,鏡頭切換到另一個(gè)視角,顯示旁邊桌的人正在給他們寫信!的情況下,Veo 2可以很好的完成導(dǎo)演敘事的鏡頭切換,寫作的動(dòng)作也非常自然。

而將同一個(gè)提示詞給到Sora,它首先無法實(shí)現(xiàn)鏡頭切換,對(duì)于提示詞中兩個(gè)人對(duì)坐也未跟隨,畫面中只有一個(gè)人。而且寫作動(dòng)作也有點(diǎn)像是懸空畫筆。

之后我們還測(cè)試了其他的頂尖模型。比如海螺,它無法實(shí)現(xiàn)鏡頭切換,但用變焦實(shí)現(xiàn)了部分鏡頭切換的邏輯,空間和兩個(gè)人物的關(guān)系也符合提示詞。

混元的影視氛圍感直接拉滿,也完成了切鏡。但視頻中兩人的關(guān)系交代沒有那么清晰。

可靈確實(shí)是表現(xiàn)最好的一個(gè),切鏡、兩人的關(guān)系都把握住了。除了審美和細(xì)節(jié)上不如Veo 2外,其它部分都近乎完美。

在另一個(gè)測(cè)試中,用同樣的提示詞

這是Veo 2的結(jié)果

這是Sora的結(jié)果

就算Veo 2的輸出是有瑕疵的,但Sora這個(gè)遲緩、空蕩的場(chǎng)景已經(jīng)輸太多了。

至于其他模型,可靈輸出的場(chǎng)景感不錯(cuò),但弄臣的現(xiàn)實(shí)非?桃,從空間關(guān)系上看也不太可能,其中還有很多殘影。

而海螺則是在提示詞遵循上僅次于Veo 2,只是沒有滿足“鏡頭從女王背后取景”這點(diǎn)。但細(xì)節(jié)還原就較Veo 2差不少了。

看了這么半天,谷歌評(píng)測(cè)中說的Sora最差不無道理。

2025年還沒開始,OpenAI的王冠看起來就有點(diǎn)不穩(wěn)了。怪不得連微軟CEO最近在采訪中都豪言“沒有OpenAI,我們也能開發(fā)出最一流的模型!

看來,在這場(chǎng)AI戰(zhàn)爭(zhēng)中,還有的是逆轉(zhuǎn)的好戲。

不過谷歌這回還是沒改畫餅的毛病。Veo 2 現(xiàn)在依然在內(nèi)測(cè)階段,只能在VideoFX上排隊(duì)申請(qǐng)。希望它在25年全量和新產(chǎn)品發(fā)布的速度都能提起來。把畫餅大師的定位讓給OpenAI。畢竟Sora花了9個(gè)月才發(fā)出來,也和過去的谷歌不相上下了。

本文來源:騰訊科技

谷歌    Veo 2    Sora
騰訊科技

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 二維碼 回到頂部