太平洋科技要聞

30s生成視頻，免費(fèi)不限次數(shù)，中國版OpenAI發(fā)布的「智譜清影」被玩瘋了

appso 整合編輯：太平洋科技發(fā)布于：2024-07-28 20:52

過去半年，國內(nèi)外視頻生成模型迎來了新一輪技術(shù)大爆發(fā)，也都總能在第一時(shí)間燒遍社交網(wǎng)絡(luò)。

與以往的「掉隊(duì)」有所不同，近期趨勢卻顯示國內(nèi)在視頻生成模型這一領(lǐng)域的進(jìn)步大為超越了國際水平。不少國外網(wǎng)友表示，「中國的可靈 AI 視頻」在引爆互聯(lián)網(wǎng)，而 OpenAI 的 Sora 卻在沉睡。

近日，國內(nèi)頭部大模型廠商智譜 AI 也發(fā)布了旗下 AI 視頻生成產(chǎn)品「清影」。

當(dāng)然，國內(nèi)外的 AI 視頻模型有一個(gè)算一個(gè)，瑕疵都真不少，但比起「期貨」Sora 來說，這些 AI 視頻產(chǎn)品看得見也摸得著，頂多可能需要多嘗試幾次才能「抽」到保底的視頻。

而這種探索本身就是技術(shù)進(jìn)步的一部分。

正如 GPT-3 在誕生之初曾遭受過質(zhì)疑和批評，最終也用時(shí)間證明了自己繼往開來的價(jià)值，同理再給這些 AI 視頻生成工具一些時(shí)間，從玩具變成工具也許就在朝夕之間。

半分鐘生成 6s 視頻，「智譜清影」正式發(fā)布

相較于今天發(fā)布的智譜清影，可能很多人更為了解智譜清言，但不看廣告看療效，不妨先來看看由「清影」一手打造的演示 demo。

在蔥郁的森林里，樹葉的縫隙中灑下一些陽光，產(chǎn)生丁達(dá)爾效應(yīng)，光便有了形狀。

當(dāng)海嘯如同發(fā)飆的怪獸咆哮而來，整個(gè)村子瞬間被海水吞噬，猶如末日電影里的經(jīng)典橋段。

霓虹燈閃爍的城市夜景中，一只充滿賽博美感的小猴手持高科技工具，修理著同樣閃爍、超未來的電子設(shè)備。

再換個(gè)畫風(fēng)，小貓張大嘴巴，人性化地露出困惑表情，臉上寫滿了問號。

沒有宮斗戲碼、沒有爾虞我詐，甄嬛眉莊穿越時(shí)空的跨屏擁抱，只有真摯的姐妹情深。

得益于智譜大模型團(tuán)隊(duì)自研高效打造的視頻生成大模型 CogVideo，清影現(xiàn)已支持多種生成方式，包括文本生成視頻、圖片生成視頻，甚至也可應(yīng)用于廣告制作、電影剪輯、短視頻制作等領(lǐng)域。

清影具有強(qiáng)大的指令跟隨能力，能夠充分理解和執(zhí)行用戶給出的指令。

據(jù)介紹，智譜 AI 自研了一個(gè)端到端視頻理解模型，用于為海量的視頻數(shù)據(jù)生成詳細(xì)的、貼合內(nèi)容的描述，從而增強(qiáng)模型的文本理解和指令遵循能力，生成符合用戶需求的視頻。

在內(nèi)容連貫性上，智譜 AI 自研高效三維變分自編碼器結(jié)構(gòu)（3D VAE），將原視頻空間壓縮至 2% 大小，配合 3D RoPE 位置編碼模塊，更有利于在時(shí)間維度上捕捉幀間關(guān)系，建立起視頻中的長程依賴。

比如從土豆變成薯?xiàng)l一般需要幾步？不需要「動火」，只需一句簡單的提示詞，土豆就變成了金黃誘人的薯?xiàng)l。官方表示，無論你的想法有多么天馬行空，它都能一一地將其變成現(xiàn)實(shí)。

而參考了 Sora 算法設(shè)計(jì)的 CogVideoX 也是 DiT 架構(gòu)，能將文本、時(shí)間、空間三個(gè)維度融合起來，通過技術(shù)優(yōu)化后，CogVideoX 相比前代（CogVideo）推理速度提升了6 倍。

理論上，模型側(cè)生成 6 秒視頻僅需 30 秒時(shí)間。作為對比，目前處在第一梯隊(duì)的可靈 AI 生成單個(gè) 5s 的視頻一般耗時(shí) 2 到 5 分鐘。

在今天發(fā)布會現(xiàn)場，智譜 AI CEO 張鵬讓清影生成一個(gè)獵豹在地上睡覺，身體在微微地起伏的視頻，大約 30 秒時(shí)間大功告成。

此外，清影還貼心地提供了配樂功能，生成視頻可以添上音樂即可直接發(fā)布。

本以為宇航員彈吉他的靜態(tài)圖已經(jīng)足夠天馬行空，而當(dāng)它動起來，再配上悠然的旋律，仿佛航天員在太空中舉辦了一場演唱會。

與「期貨」Sora 有所不同，「清影」不搞饑餓營銷，一上線就全面開放，任何人都可以體驗(yàn)嘗試，不用預(yù)約也不用排隊(duì)，并且還將在后續(xù)版本中，陸續(xù)推出更高分辨率、更長時(shí)長的生成視頻功能。

張鵬也在智譜 Open Day 上表示，「所有用戶，都能通過清影（Ying）體驗(yàn) AI 文生視頻、圖生視頻能力。」

現(xiàn)在，清影處于首發(fā)測試期間，所有用戶都可以免費(fèi)使用。若追求更流暢的體驗(yàn)，花上 5 塊錢就能解鎖一天（24 小時(shí)）的高速通道權(quán)益，要是愿意付費(fèi) 199 元，就能解鎖一年的付費(fèi)高速通道權(quán)益。

另外，清影（Ying）API 也同步上線大模型開放平臺 bigmodel.cn，企業(yè)和開發(fā)者通過調(diào)用 API 的方式，體驗(yàn)和使用文生視頻以及圖生視頻的模型能力。

體驗(yàn)絲滑但還要「抽卡」，小白再也不用擔(dān)心寫不好指令了

APPSO 也第一時(shí)間體驗(yàn)了清影，在測試了一些場景后，我們也總結(jié)出關(guān)于使用清影的一些心得：

視頻生成像「煉丹」，輸出不穩(wěn)，建議多試幾次

效果上限得看提示詞，提示詞結(jié)構(gòu)要盡可能清晰

鏡頭畫面效果最好的是近景，其它景別不太穩(wěn)定

實(shí)體類型實(shí)現(xiàn)排序：動物>植物>物品>建筑>人物

不懂藝術(shù)的科學(xué)家不是好科學(xué)家，愛因斯坦彈起吉他來如魚得水，搖頭晃腦自帶節(jié)奏，不像是演的。

大熊貓彈起吉他也是有模有樣，多才多藝。

平時(shí)不茍言笑的唐僧跟你揮手打招呼，隨著節(jié)奏搖擺起來。

當(dāng)然，以上還算是一些效果比較好的視頻，在視頻生成的過程中，我們也積攢了不少廢片。

比如說，讓躺在床上的皇上用右手吃個(gè)雞腿，結(jié)果憑空多出了一只手，視頻最后一秒，我感覺皇上快要露出他的女性妝發(fā)了。

又或者張國榮看向我的那一刻，心中的哥哥已經(jīng)變成了「那個(gè)男的」。

在復(fù)雜場景中，人物動作過渡不自然、無法準(zhǔn)確模擬復(fù)雜場景的物理特性、生成內(nèi)容的準(zhǔn)確性不足等等，這些缺點(diǎn)并非是清影的「專利」，而是視頻生成模型目前的局限。

在實(shí)際應(yīng)用中，盡管用戶能通過優(yōu)化提示詞來提升視頻質(zhì)量，但「翻車」也是常有的事，好在質(zhì)量尚可的提示詞能夠在很大程度上保證了視頻生成模型的下限。

為了照顧部分小白玩家，我們也特地準(zhǔn)備了一些提示詞的小訣竅：

簡單公式：[攝像機(jī)移動]+[建立場景]+[更多細(xì)節(jié)]

復(fù)雜公式：[鏡頭語言] + [光影] + [主體 (主體描述)] + [主體運(yùn)動] +[場景 (場景描述)] +[情緒/氛圍]

攝影機(jī)平移（鏡頭移動），一個(gè)小男孩坐在公園的長椅上（主體描述），手里拿著一杯熱氣騰騰的咖啡（主體動作）。他穿著一件藍(lán)色的襯衫，看起來很愉快（主體細(xì)節(jié)描述），背景是綠樹成蔭的公園，陽光透過樹葉灑在男孩身上（所處環(huán)境描述）。

如果你還是沒有頭緒，那么我推薦你使用智譜清言提供的幫寫視頻提示詞的智能體，哪怕是輸入生活中常見的普通場景，都能獲得三個(gè)優(yōu)質(zhì)提示詞。

比如，隨手的一句「柯基在沙灘上曬太陽」，然后就能得到如下自然風(fēng)光攝影風(fēng)格中英文提示詞，并且還有水彩畫風(fēng)格、3D 動畫風(fēng)格等多種風(fēng)格提示詞供你挑選：

中文：在陽光明媚的沙灘上，一只柯基犬懶洋洋地躺在沙灘巾上，享受著溫暖的陽光。鏡頭從低角度拍攝，背景是廣闊的藍(lán)色海洋和潔白的沙灘，海浪輕輕拍打著岸邊，氣氛寧靜，畫質(zhì) 4K 超清。

英文：On a sunny beach, a Corgi lies lazily on a beach towel, basking in the warm sunlight. The camera captures the scene from a low angle, showcasing the vast blue ocean and pristine white sand in the background, with gentle waves lapping at the shore. The atmosphere is tranquil, captured in 4K ultra-high definition.

看到如此令人滿意的提示詞，不錯(cuò)，我當(dāng)時(shí)也確實(shí)是想這么寫的。

圖片生成視頻同理，輸入圖像主體，選擇圖像風(fēng)格，就能讓智譜清言幫你寫出對應(yīng)的提示詞。從無提示詞、到「戴眼鏡」，再到「唐僧伸出手，戴上眼鏡」的進(jìn)化，效果嘛，也是天壤之別。

工欲善其事，必先利其器，把格局再打開一點(diǎn)，你還可以在智譜清言里體驗(yàn)更多的內(nèi)容創(chuàng)作工具。

從最初的選題材料收集階段，到腳本撰寫環(huán)節(jié)，圖片與視頻創(chuàng)作過程，再到推廣文案，幾乎能打通視頻生成創(chuàng)意的全鏈條，就差沒明說，你只顧想創(chuàng)意，剩下的交給它。

我們發(fā)現(xiàn)，包括可靈在內(nèi)最近發(fā)布的 AI 視頻產(chǎn)品，都在通過首尾幀控制等方式提升可控性。

AI 創(chuàng)作者陳坤曾告訴 APPSO，現(xiàn)在可用于商業(yè)化交付的 AI 視頻，幾乎全都是圖生視頻，因?yàn)槲纳曨l還做不到，其實(shí)就是可控性的問題。

今天智譜 AI 發(fā)布的清影則進(jìn)一步提升了文字生成視頻的可控性，智譜 AI 接受 APPSO 采訪時(shí)表示，文字生成視頻體現(xiàn)了更通用的可控性。

AI 生成的視頻大部分還是由人用語言的方式去控制的。所以如何讓文字或者簡單的語言指令的識別，是更高層面的控制性。

AI 視頻，正在從玩具到創(chuàng)作者工具

如果去年是大模型爆發(fā)的元年，今年可是說 AI 視頻走向應(yīng)用的重要節(jié)點(diǎn)。

雖然引爆這一切的 Sora 至今仍未上線，但它給 AI 視頻帶來了一些啟發(fā)。

Sora 通過合理的細(xì)節(jié)設(shè)計(jì)解決了幀間細(xì)節(jié)跳變的問題。同時(shí)直接生成了高分辨率（1080p）的視頻圖像，可以生成語義豐富的長達(dá) 60 秒的視頻，說明背后訓(xùn)練的序列也比較長。

僅在這兩個(gè)月，就有不下 10 家公司推出 AI 視頻新產(chǎn)品或大更新。

就在智譜清影發(fā)布前幾天，快手的可靈 AI 在全球開放內(nèi)測，而另外一個(gè)被認(rèn)為 Sora 的 PixVerse 發(fā)布了 V2版本，支持一鍵生成 1-5 段連續(xù)的視頻內(nèi)容。

不久前，Runway Gen 3 Alpha 也開啟付費(fèi)用戶公測，細(xì)節(jié)的精致度和絲滑程度上有不錯(cuò)的提升。上個(gè)月剛剛發(fā)布的電影級視頻生成模型 Dream Machine，也在最近更新了首尾幀功能。

短短幾個(gè)月內(nèi)，AI 視頻生成在物理模擬、運(yùn)動流暢度、對提示詞理解方面都有大幅的提升。AI 玄幻劇導(dǎo)演陳坤對此的感受更為敏感，他認(rèn)為 AI 視頻生成技術(shù)的進(jìn)步或許比想象得更快。

2023 年的 AI 視頻，更像動態(tài) PPT，人物在表演慢動作，靠蒙太奇剪輯拉分。但現(xiàn)在，AI 視頻的「PPT 味」已經(jīng)淡了不少。

陳坤導(dǎo)演的國內(nèi)首部 AIGC 奇觀劇《山海奇鏡之劈波斬浪》最近剛剛上線，他用 AI 取代不少傳統(tǒng)影視實(shí)拍的環(huán)節(jié)，他告訴 APPSO 以前要做類似的玄幻題材，至少需要 100 個(gè)人，而他的團(tuán)隊(duì)只有 10 多個(gè)人，大大縮短制作周期和成本。

這半年，可以看到更多專業(yè)的影視創(chuàng)作者開始嘗試 AI 視頻。國內(nèi)快手抖音都上線 AI 短劇，50 位 AIGC 創(chuàng)作者合作完成的首部 AI 長篇電影《Our T2 Remake》在洛杉磯舉行首映。

雖然 AI 視頻生成在在人物和場景一致性、人物表演、動作交互等方面還有局限，但不否認(rèn) AI 視頻正在從去年嘗鮮的玩具，慢慢轉(zhuǎn)變成創(chuàng)作者的工具。

這或許也是包括智譜清影、快手可靈、 Luma Dream Machine 等產(chǎn)品都開始推出會員體系的重要原因，要知道國內(nèi)大模型面向 C 端的產(chǎn)品大都以免費(fèi)為主，這和國內(nèi)訂閱付費(fèi)習(xí)慣和優(yōu)先追求用戶增長策略有關(guān)，AI 視頻的付費(fèi)除了好奇的用戶，必須有更多內(nèi)容創(chuàng)作者支持才能持續(xù)。

當(dāng)然，AI 視頻生成還處于比較早期的階段，所謂「一句話生成電影」只是標(biāo)題黨式的誤導(dǎo)，視頻模型需要具有更好的指令遵循能力和可控性，才能更好地理解物理世界。

智譜在今天的發(fā)布會也提到，多模態(tài)模型的探索還處于非常初級的階段。

從生成視頻的效果看，對物理世界規(guī)律的理解、高分辨率、鏡頭動作連貫性以及時(shí)長等，都有非常大的提升空間。

從模型本身角度看，需要更具突破式創(chuàng)新的新模型架構(gòu)，它應(yīng)該更高效壓縮視頻信息，更充分融合文本和視頻內(nèi)容，貼合用戶指令的同時(shí)，讓生成內(nèi)容真實(shí)感更高。

「我們積極在模型層面探索更高效的 scaling 方式�！沟珡堸i也對多模態(tài)模型的發(fā)展充滿信心，「隨著算法、數(shù)據(jù)不斷迭代，相信 Scaling Law 將繼續(xù)發(fā)揮強(qiáng)大威力。」

AI 創(chuàng)作者陳坤認(rèn)為，AI 生成的鏡頭要 100% 扛得住大銀幕，只是時(shí)間問題。這個(gè)時(shí)間是多久并不是最值得關(guān)心的，參與這個(gè)過程反而更加重要，就像智譜 AI CEO 張鵬此前接受 APPSO 采訪提到的：

很多事情要前赴后繼地去探索，這個(gè)過程就很重要，不要只看到最終的結(jié)果，更重要的是我們采取行動，我覺得這才是目前大家更應(yīng)該關(guān)注的事情。

本文來源：Appso

AI視頻生成模型智譜清影可靈 AI 視頻

appso

原創(chuàng)欄目