AI 生圖工具,已經(jīng)多得泛濫了,但 Google 最新推出的 Whisk,還是找到了一種很新的玩法,讓見過世面的網(wǎng)友也直呼好玩。 只需輸入三張圖片,subject(主題)、scene(場景)、style(風(fēng)格),Whisk 就可以生成一張博采眾長的圖片。 圖片來自:Google 舉個例子,主題是老人,場景是藤蔓,風(fēng)格是 90 年代復(fù)古動漫,寫上「角色騎著飛行自行車」的提示詞,等待一會兒,一張類似吉卜力畫風(fēng)的新圖片誕生了。 圖片來自:Google 老人還是那個老人,戴帽子,穿西裝,拿著書,但他騎上了提示詞里的車,場景和風(fēng)格也都變成了參考圖片的樣子。 Whisk 的長處便在這里——讓我們少寫、不寫提示詞的同時,輕松玩轉(zhuǎn)各種風(fēng)格,媽媽再也不擔(dān)心我不會寫提示詞了。 別寫復(fù)雜的提示詞了,直接把圖片端上來就行 別看只需要幾張圖片,Whisk 的玩法簡單,卻又無窮無盡。 刷刷刷上傳三張圖片——主題圖片,麥當(dāng)勞薯條;場景圖片,莫奈畫作《睡蓮》;風(fēng)格圖片,像素風(fēng)游戲《星露谷物語》。 不寫提示詞,直接生成,Whisk 給出的結(jié)果,一張更比三張強。 除了上傳自己的圖片,我們也可以擲骰子,讓 Whisk 隨機生成主題、場景、風(fēng)格。 其實,Whisk 為我們提供的預(yù)設(shè)風(fēng)格已經(jīng)很夠用,徽章、貼紙、刺繡、黏土、美漫、馬賽克拼貼等等,特色鮮明,效果立竿見影。 只要有腦洞和想象力,無需一個字,僅僅通過不同圖片的排列組合,我們可以不斷地做完形填空的游戲——主題+場景+風(fēng)格,而且不是每個空都必須填。 1.主題圖片,熏雞;2.場景圖片,梵高《星月夜》畫作;3.風(fēng)格圖片,日本木版畫 1.主題圖片,《戴珍珠耳環(huán)的少女》;2.場景圖片,電影《千與千尋》劇照;3.風(fēng)格圖片,蒙德里安抽象畫 1.主題圖片,微信「死亡笑臉」表情包;2.場景圖片,電影《星際穿越》劇照;3.風(fēng)格圖片,史努比漫畫截圖 1.主題圖片,沖浪默認頭像粉色恐龍 momo;2.風(fēng)格圖片,Jellycat 玩偶 另外,Whisk 的每一次生成,場景和風(fēng)格只能選擇一個參考圖片,但主題可以選擇多個。這意味著什么?我們可以讓多個角色同框了! 比如,讓馬斯克、奧特曼、扎克伯格通通變成琺瑯徽章。 三位的服裝、裝飾、神態(tài)都還原得挺好,扎克伯格的話筒和項鏈都沒漏掉,但人臉沒法保持一致性,全部變成了大眾臉。 雖然 Whisk 減少了寫提示詞的需求,但你需要寫的話,Whisk 也鼓勵。 在對話框加上一句「角色們都舉著一塊告示牌,上面寫著 AGI」,徽章小人們輕輕松松地遵循了提示詞。 如果我們需要某個場景或者某種風(fēng)格,但一時找不到參考圖,Whisk 的預(yù)設(shè)也沒有提供呢? 解決方式很簡單,沒有圖片,那就寫提示詞,讓 Whisk 臨場發(fā)揮一個。 就像我需要一個讓角色站上去的、像素風(fēng)格的底座作為場景,就讓 Whisk 幫我生成了。 然后,再把貓貓表情包作為主題圖片,把像素小雞作為風(fēng)格圖片,就可以得到一個有底座的像素貓貓。 總之,Whisk 就是非常自由,像橡皮泥一樣,怎么捏都可以。 既生圖又識圖,把復(fù)雜的工作流包裝成有趣的「打蛋器」 Whisk,其實是 Google 多模態(tài)模型秀肌肉的一種方式。 為了讓我們少寫提示詞,Whisk 整合了視覺理解和圖片生成能力。 Gemini 模型識別圖片,自動生成詳細的描述,然后這些描述會被輸入到 Google 的圖片生成模型 Imagen 3,由 Imagen 3 生圖。 Whisk 是這樣的,用戶只要上傳和生成圖片就可以了,但它自己要考慮的事情就很多了。 Whisk 的每張圖片,不管是上傳的還是生成的,都寫了很長的底層提示詞,并且不藏著掩著,我們點開圖片就能看,也可以上手修改。 如果把一個人作為主題圖片,Whisk 會詳細地描述他的外貌特征,場景圖片也是類似的。 Whisk 對奧特曼的描述:「一個膚色較淺的男子,有著短而深棕色的卷發(fā),從胸部以上展示。他有著淺色的眼睛。他穿著一件淺米色的針織圓領(lǐng)毛衣。背景是一面斑駁的灰色混凝土墻。男子的表情嚴(yán)肅而中性。光線有些昏暗,他的右臉有輕微的陰影! 風(fēng)格圖片略有些不同,如果把一張動畫截圖作為風(fēng)格參考,Whisk 不會說,畫面里有三個人,而是描述這幅畫的色彩、光線、線條...... Whisk 對史努比畫風(fēng)的描述:「這張圖片以卡通風(fēng)格呈現(xiàn),具有粗獷的輪廓和平面著色。色彩調(diào)色板有限,主要使用原色和柔和的次要顏色。光線均勻,缺乏強烈的陰影或高光,給人一種簡單、幾乎孩童般的質(zhì)感。線條清晰且一致,帶有輕微不均勻的質(zhì)感,暗示手繪的效果。整體美學(xué)讓人聯(lián)想到經(jīng)典的連環(huán)漫畫或兒童動畫! 所以,Whisk 不是精準(zhǔn)地復(fù)制圖片,而是提取圖片的特點和精髓,將主題、場景、風(fēng)格自然地融合在一起,各司其職,互不干擾。 同時,Whisk 也疊了甲——只從圖片提取少量關(guān)鍵特征,結(jié)果可能和預(yù)期不同。這也解釋了,為什么 Whisk 做不到人臉的精準(zhǔn)還原。 所以,哪怕選擇不那么抽象的復(fù)古膠片風(fēng)格,三位大佬的臉也是和本尊都不挨著,但其他細節(jié)都很準(zhǔn)確。 物體也是一樣,特斯拉的賽博皮卡,經(jīng)過特征提取再生成之后,變得非常普通。 但如果是麥當(dāng)勞薯條這種素材豐富的超級 IP,效果倒還不錯,可以拿來當(dāng)廣告圖了。試過一些迪士尼的角色,Whisk 復(fù)刻得也原模原樣,但圖就不放上來了。 另外,Whisk 還存在一個問題——沒法做很細致的風(fēng)格參考,模仿不了某種特定的畫風(fēng)。 當(dāng)我讓 Whisk 生成蒙娜麗莎的樂高小人,出來的結(jié)果讓我兩眼一黑,但多加一句提示詞,「讓角色更像樂高人物」,Whisk 又能模仿個七八成。 某個漫畫家的畫風(fēng)就更難模仿了,上傳漫畫截圖讓 Whisk 參考,它最終給出的是一個非常普通的漫畫風(fēng)格圖片,就算通過提示詞強調(diào)作品、角色、漫畫家,也不起什么作用。 其實,Whisk 好玩就夠了,它更適合做一些不追求精準(zhǔn)的創(chuàng)意探索,俗稱整活。 Whisk 可以翻譯為「攪拌」或者「打蛋器」,Google 的這個名字取得即視感很強,可不就是把食材都混搭在一起嗎? Whisk 的不精準(zhǔn),也讓它的定位和傳統(tǒng)的圖片編輯器不同,更像是一種創(chuàng)意工具。有了什么腦洞,由它實現(xiàn)粗略的視覺效果。 Whisk 生成,1.主題圖片,《火影忍者》截圖;2.風(fēng)格圖片,毛絨玩具 以前實現(xiàn) Whisk 這種風(fēng)格化的效果,跑通一整個圖像生成的流程,我們可能需要在 ComfyUI 搭建工作流。 但現(xiàn)在有了 Whisk,好像就在玩抽卡游戲或者開盲盒,而且只要能登錄(限美國地區(qū)),目前還免費。 體驗指路 https://labs.google/fx/zh/tools/whisk Google 領(lǐng)先的模型能力固然是前提和基礎(chǔ),但設(shè)計出被大家需要的產(chǎn)品,仍然需要創(chuàng)造力和審美。 很喜歡 Whisk 的 slogan:「prompt less, play more.」(少寫提示詞,多玩耍。) Whisk 出自 Google labs,之前爆火的 AI 播客 NotebookLM,也是出自這里,后來慢慢發(fā)展為成熟的項目。這個實驗室,本身就是這句 slogan 的最好注解。 強大的模型能力,有新意的產(chǎn)品,開放的心態(tài),曾經(jīng)似乎被 OpenAI 威脅的 Google,風(fēng)輕云淡地展現(xiàn)出了王者歸來的姿態(tài)。 本文來源:Appso |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選