太平洋科技要聞

即夢對陣可靈，重演抖音反超快手？

藍(lán)洞商業(yè) 整合編輯：太平洋科技發(fā)布于：2024-12-29 14:18

年初從抖音 CEO 位置上辭職的張楠，應(yīng)該度過了一個(gè)充實(shí)的 2024 年。

在中央美術(shù)學(xué)院設(shè)計(jì)學(xué)院四層階梯空間里，張楠這位曾經(jīng)的藝術(shù)生坐在 C 位，微笑著與一群大學(xué)生合影留念，她是評委之一。這是一場 AI 交互創(chuàng)新大賽的分享交流會，主辦方就是張楠如今負(fù)責(zé)的業(yè)務(wù)重點(diǎn)：剪映旗下的 AI 產(chǎn)品即夢，這被視作一款可能再造抖音的產(chǎn)品。

幾天之后，張楠公開把即夢定義為「想象力世界」的相機(jī)，而抖音是一個(gè)「真實(shí)世界」的相機(jī)。

要打造想象力的世界，創(chuàng)新的來源更多是年輕的頭腦。抖音的成功離不開年輕的高校學(xué)生，他們曾是抖音早期運(yùn)營團(tuán)隊(duì)關(guān)注的重點(diǎn)人群，各種經(jīng)典的挑戰(zhàn)類活動(dòng)，都是靠著這些年輕的創(chuàng)作者們踴躍參與而不斷傳播開來，但與早年間抖音運(yùn)營沒什么錢、靠打感情牌不同，如今，即夢 AI 交互創(chuàng)新大賽一等獎(jiǎng)是 10 萬元的獎(jiǎng)金。

得獎(jiǎng)人趙純想并不是學(xué)生，而是一個(gè)年輕的獨(dú)立開發(fā)者，此前憑借一款飲食記錄的產(chǎn)品「胃之書」嶄露頭角。而這次獲獎(jiǎng)的作品，是一個(gè) AI 視頻生成鏡頭精細(xì)控制 UIUX 方案，在展示的 2 分鐘 Demo 中，導(dǎo)入一張《天堂電影院》的經(jīng)典場景圖，用戶就可以生成一段視頻，實(shí)現(xiàn)推拉鏡頭、特寫、窗外鮮花盛開等 AI 創(chuàng)作。

而在即夢面世前三個(gè)月，快手可靈已經(jīng)在國內(nèi)率先上線了視頻生成大模型，它們同樣沒有忽視高校里的年輕人，快手可靈與中國美術(shù)學(xué)院等高校聯(lián)合舉辦了 AI 創(chuàng)作大賽，獲得一等獎(jiǎng)的三個(gè)作品，聚焦生活、廣告和自由發(fā)揮主題，分別拿到了獎(jiǎng)金 36666 元。

Sora 打開了為真實(shí)世界建模的 AI 大門，即夢和可靈則順著抖音和快手走過的路，用更飽和式投入，以大力出奇跡。

更大的競爭就在不遠(yuǎn)的 2025 年，網(wǎng)傳一份對字節(jié)跳動(dòng) AI 視頻生成產(chǎn)品的調(diào)研紀(jì)要顯示，「字節(jié)希望在其生態(tài)內(nèi)使用 AI 能力，認(rèn)為明年各生態(tài)將形成競爭閉環(huán)。明年五一之前，扣子智能體平臺、豆包、抖音和 B 端的能力會形成關(guān)聯(lián)的生態(tài)網(wǎng)，文生視頻將會有更多的體現(xiàn)和使用場景�！�

2025 年，在電商廣告、短劇等多個(gè)市場，抖音即夢或許將與快手可靈正面交鋒。

高開難高走

「高開低走」與「低開高走」，是現(xiàn)在抖音即夢與快手可靈最大的差別。

QuestMobile 最新數(shù)據(jù)顯示，即夢上線當(dāng)天即在抖音平臺引發(fā)了高漲的討論熱度，可靈 AI 通過熱度的持續(xù)積累也在快手站內(nèi)出現(xiàn)熱度峰值。但一個(gè)明顯的不同是，即夢的內(nèi)容互動(dòng)量在一個(gè)月高開低走，而可靈的內(nèi)容互動(dòng)量在一個(gè)月內(nèi)低開高走。

這是推廣策略、用戶體驗(yàn)、市場競爭等多種因素共同作用的結(jié)果，但一個(gè)最直接的原因，可能就是即夢的產(chǎn)品發(fā)布較晚，體驗(yàn)不如預(yù)期，用戶深入使用之后，很容易區(qū)分與同類產(chǎn)品在生成內(nèi)容上的質(zhì)量和穩(wěn)定性，即便初始階段獲得了大量預(yù)熱，目前即夢在熱度上仍不及可靈。

這并非意味著即夢的絕對落后，有 AI 產(chǎn)品深度使用的用戶認(rèn)為，當(dāng)下國產(chǎn) AI 產(chǎn)品想要用好，就不能單用一個(gè)，尤其是在文生視頻創(chuàng)作中，用戶選擇的做法往往是用即夢來做前期的文生圖，然后再用可靈來制作圖生視頻，因?yàn)椤讣磯舻?AI 生圖比較優(yōu)秀」。

字節(jié)調(diào)研紀(jì)要同樣顯示即夢和可靈之間差距很大，即夢日活用戶在 20 萬-22 萬之間，其中 70% 為個(gè)人或小型 MCN 工作室，大型企業(yè)較少，付費(fèi)用戶 2.5 萬人左右，月訂閱付費(fèi)均價(jià)在 50 元左右；而同期可靈服務(wù)用戶超 500 萬，累計(jì)付費(fèi)用戶超 200 萬，付費(fèi)金額累計(jì)約千萬級別。

這種調(diào)研紀(jì)要難辨虛實(shí)，因?yàn)槎壥袌霰鸬摹付拱拍罟伞�，字�?jié)跳動(dòng)官方曾對投資者們做出風(fēng)險(xiǎn)提示，以免遭受不必要的投資損失。

而快手可靈之所以「低開高走」，一方面是視頻生成大模型本身的能力更穩(wěn)定，占據(jù)了先發(fā)優(yōu)勢，另外一面則是營銷策略的成功�！杆{(lán)洞商業(yè)」在《快手可靈，把壓力給到了抖音剪映》中已經(jīng)提到，當(dāng)時(shí)快手通過海外科技大 V 測試可靈生成的案例，成功營造出其在海外市場火爆的氛圍，進(jìn)而「出口轉(zhuǎn)內(nèi)銷」。

半年過去，目前可靈在海外市場的關(guān)注度仍遠(yuǎn)高于即夢，社交媒體 X 的關(guān)注人數(shù)是即夢的 67 倍。

就在張楠出現(xiàn)在火山引擎大會上，發(fā)布即夢最新消息的當(dāng)天，快手又升級了可靈大模型，宣稱在內(nèi)部評測中比此前 1.5 模型整體效果提升 195% 。而此前一個(gè)月的三季度財(cái)報(bào)會上，創(chuàng)始人程一笑也提到對可靈的憧憬：可靈 AI 的商業(yè)化單月流水超千萬人民幣，有信心在明年實(shí)現(xiàn)收入規(guī)模的快速增長。

「高開低走」的即夢希望成為一種新的創(chuàng)造和體驗(yàn)方式，根據(jù)調(diào)研紀(jì)要，明年即夢沒有明確的商業(yè)回報(bào)目標(biāo)，但要有商業(yè)模式，「盈利要往后放」，明年即夢的重點(diǎn)將是與媒體、影視制作合作等產(chǎn)品形態(tài)的落地。

快手又將陷入包圍戰(zhàn)

抖音不是第一個(gè)做短視頻的，卻在 2018 年開始超越快手，后來居上成為短視頻賽道的第一。張楠曾總結(jié)過崛起的四個(gè)關(guān)鍵因素：全屏高清、音樂、特效濾鏡、個(gè)性化算法推薦技術(shù)。

如今，即夢對陣可靈，能否重演抖音對陣快手的故事？

即夢目前只是字節(jié)跳動(dòng)在多模態(tài)大模型應(yīng)用層的一款產(chǎn)品，隸屬于抖音旗下的剪映團(tuán)隊(duì)，背后支撐服務(wù)的是字節(jié)跳動(dòng)云服務(wù)的火山引擎。在火山引擎官網(wǎng)的模型廣場上，字節(jié)跳動(dòng)提供 20 個(gè)大模型產(chǎn)品，遍布文本、語音和視覺多個(gè)類型，此外火山方舟還提供月之暗面和智譜 AI 的產(chǎn)品。

AI 可能成為字節(jié)跳動(dòng)下一個(gè)核心業(yè)務(wù)支柱，相比之下，快手磁力引擎的官方網(wǎng)站上，很難找到相關(guān)大模型商業(yè)應(yīng)用的展示位。

字節(jié)跳動(dòng)在大模型領(lǐng)域的激進(jìn)姿態(tài)，今年早已經(jīng)通過 C 端的產(chǎn)品豆包展現(xiàn)出來。今年 9 月，移動(dòng)數(shù)據(jù)調(diào)研機(jī)構(gòu) Sensor Tower 曾發(fā)布全球 AI 應(yīng)用報(bào)告，其顯示了 ChatGPT 是 1-8 月全球下載量最多的 AI 應(yīng)用，谷歌的 Gemini 排在第四，字節(jié)跳動(dòng)的豆包排名第五，而且是榜單上唯一的中國產(chǎn)品。

這離不開抖音豐沛的流量廣告和投放支持，豆包和 Kimi 在今年的廣告市場上投放競爭激烈，根據(jù)廣告情報(bào)分析平臺 AppGrowing 統(tǒng)計(jì)，豆包智能助手 4 月、5 月的投放金額接近 1800 萬元，等到 6 月上旬，投放金額飆升至 1.24 億元，而且在抖音站內(nèi)限制了 Kimi 在內(nèi)的大模型廣告投放。

「營銷預(yù)算方面，即夢在 12 月預(yù)算開始提升，明年第一季度，尤其是春節(jié)前后將提到億級別的投入。」字節(jié)調(diào)研紀(jì)要提到。而除了營銷，字節(jié)跳動(dòng)在芯片底層儲備上也不可小覷。英國《金融時(shí)報(bào)》報(bào)道稱，字節(jié)跳動(dòng)采購了約 23 萬片英偉達(dá)芯片，已成為英偉達(dá)人工智能芯片的最大中國買家；The Information 也在 9 月份報(bào)道稱，字節(jié)跳動(dòng)今年訂購了超過20 萬臺 Nvidia H20。

所以基于豆包在國內(nèi)大模型市場取得的領(lǐng)先地位，未來的看點(diǎn)是，抖音和豆包如何聯(lián)動(dòng)即夢，這也意味著，快手一枝獨(dú)秀的可靈，將陷入字節(jié)跳動(dòng)大模型的包圍戰(zhàn)。

今年 9 月，對標(biāo) OpenAI 的 Sora，字節(jié)跳動(dòng)發(fā)布了兩款對標(biāo)文生視頻工具 PixelDance 和 Seaweed，即夢 AI 已經(jīng)接入了豆包，其中支撐即夢的就包括能力更優(yōu)秀的 PixelDance，官方介紹稱，能夠生成高質(zhì)量的長達(dá)兩分鐘的 1080p 分辨率視頻，擅長描繪復(fù)雜的運(yùn)動(dòng)和物體之間的互動(dòng)。

目前看，不論是抖音還是快手，AI 生成視頻最主要的落地場景都是趨同的，除了 C 端用戶收費(fèi)之外，B 端場景一個(gè)是服務(wù)于短劇等影視制作和后期市場，另外一個(gè)則是服務(wù)于廣告和電商內(nèi)容營銷，比如商品素材展示上生成不同的圖片。

在火山引擎大會上，張楠曾展示過兩個(gè)即夢創(chuàng)作者的 AI 短片，其中一個(gè)就是今年 7 月份上線的科幻短劇《覺醒》，當(dāng)時(shí)在抖音單日點(diǎn)贊破 40 萬；而同一時(shí)期，快手的可靈也打造過一部《山海奇鏡之劈波斬浪》，同樣都屬于試水制作。

但實(shí)際上，AI 生成視頻對影視制作只是輔助性的，目前階段仍然是小規(guī)模制作，要完成大批量的影視后期制作，即夢和可靈都是順著 Sora 類似的 Dit 架構(gòu)（一種結(jié)合了 Transformer 架構(gòu)的擴(kuò)散模型，用于圖像和視頻生成任務(wù)）在前進(jìn)，都有很長一段路要走，商業(yè)化也尚為時(shí)過早。

當(dāng)谷歌擊敗 Sora

OpenAI 的 Sora 開放使用之后，一系列生成視頻的表現(xiàn)并不符合外界的期待，而谷歌在近期發(fā)布的視頻生成器 Veo2，通過一系列測試表明，其有超過 Sora 的更驚艷表現(xiàn)。

尤其是一個(gè)最著名的切西紅柿的鏡頭，谷歌的 Veo2 刀子干凈利落地切開西紅柿，避開了手指，而 Sora 視頻中的刀子卻切開了手，這讓 Sora 再次成為群嘲的對象，也讓行業(yè)人士認(rèn)為，Sora 更偏向于運(yùn)動(dòng)，而 Veo2 則更注重物理的準(zhǔn)確性。

有 AI 行業(yè)人士認(rèn)為，谷歌之所以能超越 Sora，不光是發(fā)現(xiàn)了 Sora 物理準(zhǔn)確性的弱點(diǎn)，更在于其利用 YouTube 來訓(xùn)練其人工智能模型。

字節(jié)跳動(dòng)的技術(shù)團(tuán)隊(duì)并非沒有發(fā)現(xiàn) Sora 在物理準(zhǔn)確性上的弱點(diǎn)。11 月，豆包大模型團(tuán)隊(duì)曾發(fā)布過一篇論文，名為《從世界模型的角度來看，視頻生成與之相距多遠(yuǎn)：基于物理定律的視角》（《How Far is Video Generation from World Model: A Physical Law Perspective》），探究了視頻生成模型能否觀察事物間的相互關(guān)系，并從中提煉出一套穩(wěn)定的物理規(guī)律。

「視覺模糊性會導(dǎo)致在細(xì)粒度物理建模方面出現(xiàn)顯著的誤差，單純依賴視頻表示不足以進(jìn)行精確的物理建模。」該論文認(rèn)為，視頻生成模型要成為準(zhǔn)確的世界模型還面臨挑戰(zhàn)。

而研究這個(gè)方向的兩位作者都非常年輕，一位是 95 后，一位是 00 后。如同即夢和可靈，都需要年輕的藝術(shù)學(xué)院的學(xué)生參與打造想象力的世界一樣，為這個(gè) AI 想象力世界奠定技術(shù)基礎(chǔ)的，同樣來自年輕的頭腦。兩位作者耗費(fèi) 8 個(gè)月時(shí)間，就是為了找到通往世界模型的一扇大門。

找到瓶頸需要 8 個(gè)月，而打破瓶頸可能需要耗費(fèi)更長的時(shí)間。

抖音何時(shí)真正即夢？在那份調(diào)研紀(jì)要中，字節(jié)跳動(dòng)明年的 AI 發(fā)展有三條主要路徑，一是豆包大家族生態(tài)；二是抖音等產(chǎn)品的全面 AI 化；三是包括即夢在內(nèi)的多模態(tài)模型和世界大模型，而且多模態(tài)這一條是重點(diǎn)，「無限支持和投入，因?yàn)檫@是轉(zhuǎn)型的重要節(jié)點(diǎn)，可以接受較大虧損」。

當(dāng)谷歌擊敗 Sora，預(yù)示著 OpenAI 創(chuàng)造的模型神話將被打破；而快手可靈，只是抖音即夢的下一個(gè)目標(biāo)罷了。

本文來源：藍(lán)洞商業(yè)

即夢可靈 AI生成視頻

藍(lán)洞商業(yè)

原創(chuàng)欄目