OpenAI直播第三彈,Sora終于現(xiàn)身了! 才一上線,網(wǎng)頁就已經(jīng)瞬間擠爆。現(xiàn)在,所有新用戶注冊已經(jīng)緊急暫停(不定期)。 奧特曼與Sora團隊負(fù)責(zé)人Bill Peebles、研究副總Aditya Ramesh,以及Rohan Sahai、Joey Flynn開啟了短短20分鐘的在線直播。 相較于2月的原版Sora,他們今天帶來了更高級的加速版Sora Turbo。 Sora能生成任意長寬比的視頻,分辨率從480p到1080p,時長從5秒到20秒,還可以一次生成多個方向的視頻版本,讓我們選擇其中最理想的一個。 包括文本到視頻、圖像到視頻、視頻到視頻的功能。 這次,OpenAI著重介紹了Sora的幾項功能:Remix(重混)、Re-cut(重新剪輯)、Storyboard(故事板)、Loop(循環(huán))、Blend(混合)以及Style presets(風(fēng)格預(yù)設(shè))。 所有新功能一覽: OpenAI專為Sora設(shè)計的全新UI 等了大半年,Sora終于不再只是藝術(shù)家們的工具,現(xiàn)在所有的ChatGPT Plus/Pro用戶皆可使用。 唯一區(qū)別是,使用限制不同:Plus用戶每個月有50次生成額度,Pro用戶可以獲得500次快速生成額度(如果選擇的分辨率更高,則次數(shù)更少)或是無限次慢速生成額度。 奧特曼本人表示,對我來說,Sora最令人興奮的一點是,它使得與他人共作變得如此容易。這感覺像是一個有趣的全新事物! 它就像視頻領(lǐng)域的GPT-1,現(xiàn)在還處于初期階段,但我已經(jīng)覺得這個信息流非常吸引人。 Sora團隊研究者自豪地表示,突破視覺生成的界限,就是在機器學(xué)習(xí)和人機交互方面取得突破。 誠如這條讀者評論所言:Sora之所以令人激動,不止是因為我們現(xiàn)在在哪里;更重要的,是想象我們的前進方向?梢源_信,我們正在經(jīng)歷一個不平凡的年代。 直播20分鐘,全程高能 在Library中,我們可以查看視頻的所有版本,通過幾種不同的方式對此處的視圖進行切片。 現(xiàn)場,幾位工作人員給我們實測了一把Sora的文生視頻功能。 在輸入「長毛猛犸象走過沙漠景觀」的prompt,等待一段時間后,四個視頻就出現(xiàn)了,我們可以選擇最理想的那個。 甚至,我們可以把猛犸象變成「機械猛犸」。 只需要通過Remix描述希望視頻怎樣更改(無論是大的更改,還是希望背景中多一些風(fēng)或者沙),接下來的工作就可以直接交給Sora。 故事版功能,可以讓我們使用時間軸,在整個序列中產(chǎn)生一個包含多個動作的視頻。 在其中,我們可以描述環(huán)境、角色、想要在特定點發(fā)生的動作。在prompt中我們寫得越少,Sora就會填充得越多,反之亦然。 比如,我們想要一個美麗白鶴站在小溪里的場景。 在時間軸的開頭,我們可以直接設(shè)置場景:開始白鶴站著,然后將頭進入水中,捉出一條魚。 在幾組動作中,需要給Sora足夠的時間來連接這些想法 可以看到,Sora非常準(zhǔn)確地理解了研究者的想法。 我們還可以使用Re-cut,將其中的片段剪切到新的故事板中,在留白的地方創(chuàng)建其余的片段,比如一個結(jié)尾。 接下來是另一個功能。 上傳一個燈塔的圖像后,它被放入第一張卡片,然后Sora創(chuàng)建了一個全新的卡片。 厲害的地方來了!Sora已經(jīng)看過了該圖像,并且還添加進了關(guān)于我們希望圖像怎樣動的理解。 最終的視頻生成效果果然非常好。 最后,研究者再給我們展示了一個大驚喜。 通過Blend功能,Sora甚至還能將兩個場景完美地混到同一個視頻中,可以理解為這某種維度上粉碎兩個視頻,然后組成一個新的。 研究者強調(diào)說,這是他此前在其他AI視頻從未見過的功能! 比如,把猛犸象和機器象混合。 Sora功能全面介紹 足見,Sora具備了令人印象深刻的視頻生成能力。 利用Sora,我們不僅可以制作分辨率最高1080p、時長最長 20 秒的各種格式視頻,并且還可以通過文本生成新內(nèi)容,或者增強、重混和融合自己的素材。 此外,通過「精選」和「最新」來查看社區(qū)的創(chuàng)作,也可以為自己的新想法提供靈感。 這款模型基于DALL·E和GPT模型豐富的經(jīng)驗而打造,可以為用戶提供更強大的講故事和創(chuàng)意表達工具。 與GPT模型類似,Sora使用Transformer架構(gòu),解鎖了卓越的擴展性能。 此外,它采用了擴散模型技術(shù),從看似靜態(tài)噪聲的基礎(chǔ)視頻開始,逐步去除噪聲,最終生成完整視頻。 值得注意的是,Sora解決了視頻生成中的一個關(guān)鍵挑戰(zhàn)——主體一致性。 通過讓模型同時預(yù)測多個幀,確保即使主體暫時消失在視野之外,也能保持一致性。 在數(shù)據(jù)標(biāo)注上,Sora核心秘密武器便是DALL·E 3——為視覺訓(xùn)練數(shù)據(jù)生成高度詳細的描述性標(biāo)注。 因此,訓(xùn)練后的Sora能夠以前所未有的精度,遵循用戶在生成視頻時的文本指令。 Sora的能力遠遠超出了簡單文生視頻,它還能將靜態(tài)圖變身動畫,添加細節(jié)。 它還可以擴展現(xiàn)有視頻,或填充缺失的幀。 更令人興奮地是,Sora作為理解和模擬真實世界的模型基礎(chǔ),被OpenAI視為邁向AGI的關(guān)鍵里程碑。 除了20分鐘發(fā)布會上的內(nèi)容,OpenAI在官網(wǎng)上,也放出了新功能的詳細介紹和示例。 Storyboard(故事板)帶有關(guān)鍵幀的時間軸,是Sora非常亮眼的新功能。在個人時間軸上,可以組織和編輯獨特的視頻序列。 注意:不要上傳帶人物的圖像,否則無法生成視頻 A vast redlandscape with adocked spaceship in the distance 廣袤的紅色星球景觀中,一艘銀光閃閃的宇宙飛船靜靜?吭谶h處 Looking out frominside thespaceship, a spacecowboy standscenter frame 透過宇宙飛船的舷窗向外眺望,一位星際牛仔挺立在畫面中央 Detailed close up view of astronaut'seyes framed by aknitted fabricmask 特寫鏡頭下,宇航員深邃的雙眼透過織物面罩的框架凝視著前方 Remix(重混)這個功能,可以讓我們替換、刪除或重新想象視頻中的元素。 比如,我們先生成一個場景——打開通向圖書館的大門。 然后,通過Remix把門更換成法式的門。 再把圖書館變成一艘宇宙飛船。 接著去掉宇宙飛船,加入?yún)擦謭鼍啊?/span> 最后把叢林換成月球表面。 Re-cut(重新剪輯)這個功能,能讓我們找到并且選中最佳幀,向任一方向延伸。 比如,選出這段「水獺玩球」視頻中自己最心儀的那幾幀,Sora可以生成在它之前或者之后的幀。 Loop(循環(huán))通過這個功能,Sora可以修剪并創(chuàng)建無縫的重復(fù)視頻。 Sora會在開頭和結(jié)尾中添加大量幀,來將它們連接起來。 Blend(混合) 通過這個功能,可以把兩個完全不同的視頻,融合為一個無縫剪輯。 Style presets(風(fēng)格預(yù)設(shè))這個功能,可以讓我們充分發(fā)揮想象力,創(chuàng)建想要的風(fēng)格。 比如原始視頻,是兩頭猛犸象在雪地里走路的場景。 我們可以將它轉(zhuǎn)換為紙工藝品風(fēng)。 Earthy tones with muted pastels and pops of color. Soft, diffused lighting enhances handcrafted textures. Everything—characters, objects, and scenery—is transformed into cardboard and paper, complete with visible creases and folds 以大地色調(diào)為基礎(chǔ),配以柔和的粉彩色,并點綴上鮮艷的色彩。柔和的環(huán)境光勾勒出精致的手工質(zhì)感。畫面中從人物、物件到背景的一切元素,都被重塑成紙板與紙張的質(zhì)地,呈現(xiàn)出自然的折痕與起伏 檔案風(fēng)。 Shot on 100t film, the image quality is grainy and high contrast, with shallow depth of field and cinematic look, epic and dramatic shot, very nostalgic 采用100T膠片拍攝,呈現(xiàn)獨特的顆粒質(zhì)感和高對比度效果,配合淺景深營造電影感,畫面富有史詩感和戲劇性,散發(fā)濃郁的懷舊氛圍 黑白電影風(fēng)。 Shot in high-contrast black and white with deep shadows and selective highlights. Features low-key chiaroscuro lighting, hard shadows, and venetian blind effects. Moody, mysterious, and suspenseful, with a vintage cinematic vibe 采用高反差黑白攝影手法,營造出深邃的暗部和精準(zhǔn)的亮部層次。運用低調(diào)的明暗對比打光,呈現(xiàn)出銳利的陰影效果和威尼斯百葉窗光影。整體氛圍充滿憂郁、神秘和懸疑感,完美展現(xiàn)復(fù)古電影的美學(xué) 一大波效果 OpenAI科學(xué)家Noam Brown表示,「Sora,是scale力最直觀的證明之一」。 OpenAI Sora研究員Will Depue展示了一些生成虛構(gòu)歷史影像的demo。 found footage of Genghis Khan on the steppe with his warriors in the 1200s 13世紀(jì)成吉思汗與他的戰(zhàn)士們在草原上的歷史影像片段 found footage from Kyoto in the 1600s 17世紀(jì)日本京都的歷史影像記錄 OpenAI COP Kevin Weil總結(jié)了今天的發(fā)布,并給了一個海馬泡泡的演示。 小狗超人在觀景臺上瞭望。 一部分網(wǎng)友也迫不及待開始試用了,比如秋葉原的十字路口飄著雪花。 一位自信地走向鏡頭的女人。 woman confidently walking towards the camera, there are paparazzis behind her, tokyo high high contrast background 一位女性自信地迎著鏡頭走來,身后跟隨著一群狗仔隊記者,背景是東京,光影對比強烈 視頻為什么如此重要? 今年2月,OpenAI搶先推出了自家首個視頻生成模型Sora。 隨即,他們又放出了首批訪問者利用Sora做出的7個創(chuàng)意的演示,還有一支由Sora制作的MV——Worldweight,引全網(wǎng)圍觀。 直播開場,奧特曼本人介紹了,視頻對于OpenAI如此重要的原因,主要有三點。 第一,對于OpenAI而言,Sora不僅僅是一項技術(shù),更是一種賦能創(chuàng)意人士的工具。在公司的文化基因中,用AI激發(fā)人類創(chuàng)造力,也很重要。 通過Sora,OpenAI看到了一種全新的協(xié)作模式:AI和人類共同創(chuàng)造,開啟了富有想象力的可能性。 早期測試中出現(xiàn)的創(chuàng)新性互動,預(yù)示著AI創(chuàng)意工具將極大地改變我們思考和創(chuàng)意的方式。 其次,文本曾是人機交互主要形式,但OpenAI堅信,這遠遠不夠。 僅僅通過文字來理解和表達,我們將會錯過豐富的信息維度。 視頻,作為一種更加立體、生動的交互方式,能夠傳遞更多情感、語境、細節(jié)。 最后,Sora之于OpenAI,不僅僅是一個視頻生成工具,更是AGI路線圖上的重要里程碑。 通過學(xué)習(xí)和生成視頻,AI將獲得更豐富、更深入的世界理解。 讓我們拭目以待,看看Sora將為人類世界帶去怎樣的驚喜。 參考資料: https://sora.com/ 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選