太平洋科技要聞

首頁 > 科技要聞 > 科技> 正文

這個AI生圖神器太好玩了，連提示詞都不用寫

appso 整合編輯：太平洋科技發(fā)布于：2024-12-24 17:36

AI 生圖工具，已經(jīng)多得泛濫了，但 Google 最新推出的 Whisk，還是找到了一種很新的玩法，讓見過世面的網(wǎng)友也直呼好玩。

只需輸入三張圖片，subject（主題）、scene（場景）、style（風(fēng)格），Whisk 就可以生成一張博采眾長的圖片。

圖片來自：Google

舉個例子，主題是老人，場景是藤蔓，風(fēng)格是 90 年代復(fù)古動漫，寫上「角色騎著飛行自行車」的提示詞，等待一會兒，一張類似吉卜力畫風(fēng)的新圖片誕生了。

圖片來自：Google

老人還是那個老人，戴帽子，穿西裝，拿著書，但他騎上了提示詞里的車，場景和風(fēng)格也都變成了參考圖片的樣子。

Whisk 的長處便在這里——讓我們少寫、不寫提示詞的同時，輕松玩轉(zhuǎn)各種風(fēng)格，媽媽再也不擔(dān)心我不會寫提示詞了。

別寫復(fù)雜的提示詞了，直接把圖片端上來就行

別看只需要幾張圖片，Whisk 的玩法簡單，卻又無窮無盡。

刷刷刷上傳三張圖片——主題圖片，麥當(dāng)勞薯條；場景圖片，莫奈畫作《睡蓮》；風(fēng)格圖片，像素風(fēng)游戲《星露谷物語》。

不寫提示詞，直接生成，Whisk 給出的結(jié)果，一張更比三張強。

除了上傳自己的圖片，我們也可以擲骰子，讓 Whisk 隨機生成主題、場景、風(fēng)格。

其實，Whisk 為我們提供的預(yù)設(shè)風(fēng)格已經(jīng)很夠用，徽章、貼紙、刺繡、黏土、美漫、馬賽克拼貼等等，特色鮮明，效果立竿見影。

只要有腦洞和想象力，無需一個字，僅僅通過不同圖片的排列組合，我們可以不斷地做完形填空的游戲——主題+場景+風(fēng)格，而且不是每個空都必須填。

1.主題圖片，熏雞；2.場景圖片，梵高《星月夜》畫作；3.風(fēng)格圖片，日本木版畫

1.主題圖片，《戴珍珠耳環(huán)的少女》；2.場景圖片，電影《千與千尋》劇照；3.風(fēng)格圖片，蒙德里安抽象畫

1.主題圖片，微信「死亡笑臉」表情包；2.場景圖片，電影《星際穿越》劇照；3.風(fēng)格圖片，史努比漫畫截圖

1.主題圖片，沖浪默認頭像粉色恐龍 momo；2.風(fēng)格圖片，Jellycat 玩偶

另外，Whisk 的每一次生成，場景和風(fēng)格只能選擇一個參考圖片，但主題可以選擇多個。這意味著什么？我們可以讓多個角色同框了！

比如，讓馬斯克、奧特曼、扎克伯格通通變成琺瑯徽章。

三位的服裝、裝飾、神態(tài)都還原得挺好，扎克伯格的話筒和項鏈都沒漏掉，但人臉沒法保持一致性，全部變成了大眾臉。

雖然 Whisk 減少了寫提示詞的需求，但你需要寫的話，Whisk 也鼓勵。

在對話框加上一句「角色們都舉著一塊告示牌，上面寫著 AGI」，徽章小人們輕輕松松地遵循了提示詞。

如果我們需要某個場景或者某種風(fēng)格，但一時找不到參考圖，Whisk 的預(yù)設(shè)也沒有提供呢？

解決方式很簡單，沒有圖片，那就寫提示詞，讓 Whisk 臨場發(fā)揮一個。

就像我需要一個讓角色站上去的、像素風(fēng)格的底座作為場景，就讓 Whisk 幫我生成了。

然后，再把貓貓表情包作為主題圖片，把像素小雞作為風(fēng)格圖片，就可以得到一個有底座的像素貓貓。

總之，Whisk 就是非常自由，像橡皮泥一樣，怎么捏都可以。

既生圖又識圖，把復(fù)雜的工作流包裝成有趣的「打蛋器」

Whisk，其實是 Google 多模態(tài)模型秀肌肉的一種方式。

為了讓我們少寫提示詞，Whisk 整合了視覺理解和圖片生成能力。

Gemini 模型識別圖片，自動生成詳細的描述，然后這些描述會被輸入到 Google 的圖片生成模型 Imagen 3，由 Imagen 3 生圖。

Whisk 是這樣的，用戶只要上傳和生成圖片就可以了，但它自己要考慮的事情就很多了。

Whisk 的每張圖片，不管是上傳的還是生成的，都寫了很長的底層提示詞，并且不藏著掩著，我們點開圖片就能看，也可以上手修改。

如果把一個人作為主題圖片，Whisk 會詳細地描述他的外貌特征，場景圖片也是類似的。

Whisk 對奧特曼的描述：「一個膚色較淺的男子，有著短而深棕色的卷發(fā)，從胸部以上展示。他有著淺色的眼睛。他穿著一件淺米色的針織圓領(lǐng)毛衣。背景是一面斑駁的灰色混凝土墻。男子的表情嚴(yán)肅而中性。光線有些昏暗，他的右臉有輕微的陰影�！�

風(fēng)格圖片略有些不同，如果把一張動畫截圖作為風(fēng)格參考，Whisk 不會說，畫面里有三個人，而是描述這幅畫的色彩、光線、線條......

Whisk 對史努比畫風(fēng)的描述：「這張圖片以卡通風(fēng)格呈現(xiàn)，具有粗獷的輪廓和平面著色。色彩調(diào)色板有限，主要使用原色和柔和的次要顏色。光線均勻，缺乏強烈的陰影或高光，給人一種簡單、幾乎孩童般的質(zhì)感。線條清晰且一致，帶有輕微不均勻的質(zhì)感，暗示手繪的效果。整體美學(xué)讓人聯(lián)想到經(jīng)典的連環(huán)漫畫或兒童動畫�！�

所以，Whisk 不是精準(zhǔn)地復(fù)制圖片，而是提取圖片的特點和精髓，將主題、場景、風(fēng)格自然地融合在一起，各司其職，互不干擾。

同時，Whisk 也疊了甲——只從圖片提取少量關(guān)鍵特征，結(jié)果可能和預(yù)期不同。這也解釋了，為什么 Whisk 做不到人臉的精準(zhǔn)還原。

所以，哪怕選擇不那么抽象的復(fù)古膠片風(fēng)格，三位大佬的臉也是和本尊都不挨著，但其他細節(jié)都很準(zhǔn)確。

物體也是一樣，特斯拉的賽博皮卡，經(jīng)過特征提取再生成之后，變得非常普通。

但如果是麥當(dāng)勞薯條這種素材豐富的超級 IP，效果倒還不錯，可以拿來當(dāng)廣告圖了。試過一些迪士尼的角色，Whisk 復(fù)刻得也原模原樣，但圖就不放上來了。

另外，Whisk 還存在一個問題——沒法做很細致的風(fēng)格參考，模仿不了某種特定的畫風(fēng)。

當(dāng)我讓 Whisk 生成蒙娜麗莎的樂高小人，出來的結(jié)果讓我兩眼一黑，但多加一句提示詞，「讓角色更像樂高人物」，Whisk 又能模仿個七八成。

某個漫畫家的畫風(fēng)就更難模仿了，上傳漫畫截圖讓 Whisk 參考，它最終給出的是一個非常普通的漫畫風(fēng)格圖片，就算通過提示詞強調(diào)作品、角色、漫畫家，也不起什么作用。

其實，Whisk 好玩就夠了，它更適合做一些不追求精準(zhǔn)的創(chuàng)意探索，俗稱整活。

Whisk 可以翻譯為「攪拌」或者「打蛋器」，Google 的這個名字取得即視感很強，可不就是把食材都混搭在一起嗎？

Whisk 的不精準(zhǔn)，也讓它的定位和傳統(tǒng)的圖片編輯器不同，更像是一種創(chuàng)意工具。有了什么腦洞，由它實現(xiàn)粗略的視覺效果。

Whisk 生成，1.主題圖片，《火影忍者》截圖；2.風(fēng)格圖片，毛絨玩具