首頁 > 科技要聞 > 科技> 正文

Midjourney地位不穩(wěn)?AI繪圖又一黑馬出現(xiàn),附4款產(chǎn)品一手實測

量子位 整合編輯:太平洋科技 發(fā)布于:2024-08-28 17:17

AI圈,再次開卷圖像生成。

一連串進展扎堆:

8月21日,Ideogram正式推出2.0版本,聲稱文本渲染能力更強。

沒錯,就是那個成立于去年8月,由谷歌AI繪畫4大牛集體離職創(chuàng)業(yè)的項目,曾獲得過一眾AI大佬投資。

此番Ideogram還公開叫板Flux,官方自信表示其人類評估明顯優(yōu)于Flux Pro。

要知道,F(xiàn)lux由Stable Diffusion原班人馬打造,最近正在因生成以假亂真的TED演講“照片”而走紅各大網(wǎng)絡(luò)。

除此之外,一周前,谷歌正式放出了Imagen 3,在官方評估中,號稱表現(xiàn)優(yōu)于DALL-E 3、Midjourney v6、Stable Diffusion 3等一眾繪圖模型。

或許是受刺激了(doge),Midjourney竟然也轉(zhuǎn)性了,在8月22日直接向所有用戶推出了免費網(wǎng)頁版。

這下有好戲看了!

既然大家都宣稱自己很強,那我們不妨把大家拉到一桌,來搞個面對面PK。

誰是最強繪圖AI?

先請出咱們的4位參賽選手(全部使用網(wǎng)頁版):

1號選手:Ideogram 2.0。每天免費有10積分,1積分可以生成4張圖,每天最多生成40張圖;

2號選手:Flux.1。黑森林官方在Hugging Chat提供了免費demo(選FLUX.1 Schnell版本);

3號選手:Imagen 3。在Image FX上可以免費無限次使用;

4號選手:Midjourney。免費試用期一共只有生成25張圖的機會;

下面正式進入比賽環(huán)節(jié)。

黑猴子全翻車了

一上來,為了檢驗這些國外AI是否理解中文提示詞,咱們也來蹭一波當(dāng)今頂流黑猴子的熱度。

prompt:游戲角色,一只猴子,身披盔甲,頭戴鳳羽金冠,手上拿著一根金箍棒,站在一座懸崖之上。

不出意外,意外發(fā)生了……

相信大家一眼都被3號的大紅叉給吸引了。沒錯,同一提示詞下,只有3號Imagen 3拒絕了生成請求

看到這兒,第一反應(yīng)是我們的提示詞是不是觸發(fā)了版權(quán)保護。于是先刪掉了提示詞中的“游戲角色”,結(jié)果還是提醒無法生成。

難道是谷歌Imagen 3不支持中文?于是又隨機換了一個更簡單的提示詞,這下倒是有圖了。

只不過結(jié)果一整個大錯誤,而且換了多個中文提示詞,最終都是一些毫不相關(guān)的紋路圖。

看來谷歌Imagen 3確實對中文提示詞不ok。


3號落榜之后,再看其他幾位,也只有1號Ideogram 2.0表現(xiàn)最佳。

2號倒還能看出國漫的影子,4號Midjourney則完全放飛自我了~(主打一個毫不相干)

最后還是要表揚下Ideogram 2.0,精準(zhǔn)命中了所有關(guān)鍵元素。

雖然不是本人心中想要的東西(想要黑神話),但提示詞還原度確實沒毛病。

是真人還是AI?傻傻分不清楚

接下來進入各位選手的舒適區(qū)——人像生成。

遙想當(dāng)年,Midjourney以一張?zhí)炫_情侶合照火爆網(wǎng)絡(luò);眼下,F(xiàn)lux更是以一組TED演講圖風(fēng)靡全網(wǎng)……

究竟誰更勝一籌?答案馬上揭曉。

prompt:A young man with auburn hair, wearing a checkered shirt in teal and cream, captured with a 50mm lens for a vintage look. Rich colors, sharp focus, and a touch of retro charm.
一位紅褐色頭發(fā)的年輕男性,身著藍(lán)綠色奶油色方格襯衫,用50mm鏡頭捕捉復(fù)古風(fēng)格。色彩豐富,焦點清晰,帶有一絲復(fù)古魅力。

先單看2號和4號,很明顯,Midjourney贏了!

從細(xì)節(jié)上看,2號Flux.1稍有偏差,衣服顏色多了兩種,這在一水的藍(lán)綠格子襯衫中尤為突出。

另外,一上來我們還發(fā)現(xiàn)了Imagen 3獨有的一個小亮點:在生成開始前圈出關(guān)鍵詞。

借著它完成的工作,我們正好可以檢驗幾位選手對關(guān)鍵元素(藍(lán)綠色方格襯衫、50mm鏡頭等)的還原程度。

可以看到,整體上幾位選手表現(xiàn)都不錯(除了2號),還原度較高且都看向了鏡頭。

而且,要不是這些都是本人親自用AI生成的,還真無法一下子辨認(rèn)與真人的區(qū)別。(汗顏)

最后悄咪咪說一句,4號選手Midjourney顏值最高。

老大難:圖片顯示文字

成功騙過了所有人之后,是時候讓AI吃點苦頭了——

給圖片加文字。

這事兒一直都是個老大難,也成了檢驗AI生圖水平的標(biāo)準(zhǔn)之一。

話不多說,直接讓幾位選手制作一塊精美的廣告牌。請各位看官老爺自行帶入甲方爸爸角色。

prompt:A horizontal brass sign reading ‘Festive Season’ in a stylish script, encircled by pine and holly on a dark wood backdrop, with a close-up focus on the golden lettering.
一塊水平黃銅標(biāo)牌,上面以時尚手寫體寫著’Festive Season’,周圍環(huán)繞著松枝和冬青,背景是深色木材,特寫鏡頭聚焦于金色字體。

一眼掃過,是不是都還不錯,好像都高度還原了提示詞?

但是,一旦拿出甲方爸爸的犀利眼神,這2號可就藏不住了。

注意看,2號Flux.1偷工減料了,單詞“Season”少了一個字母“S”。

不過除了2號,其他幾位還是不錯滴,看來各家AI在文字渲染功能上都下功夫了。

所以接下來就是,蘿卜青菜各有所愛,大家憑個人喜好做選擇。(私心投給了Midjourney)

對了,1號Ideogram這次型號升級還特意拿“文字渲染”功能做宣傳了,大家不妨多試試。

參考麥當(dāng)勞,整點AI廣告

最近,麥當(dāng)勞請了11個AI美女為薯條瘋狂打call,狠狠火了一把~

其實原理也比較簡單,無非是用AI生成不同角色宣傳薯條的圖片,再拼接成一個視頻。

沒想到效果驚人,僅在推特一個平臺,相關(guān)視頻就獲得了近千萬瀏覽量。

掌握財富密碼后,咱們正式開干,身為中國人,AI助農(nóng)高低得走起~

prompt:Against the backdrop of a cyberpunk-style metropolis, a girl is promoting organic agricultural products in her hands.
在賽博朋克風(fēng)格的都市背景下,一位女孩正宣傳著手中的有機農(nóng)產(chǎn)品。

很好,3號選手再次“擺爛了”。不過這波著實令人費解,提示詞既不是中文,也沒有明顯違禁的地方……

淘汰3號后,1號選手Ideogram 2.0帶貨種類最為豐富,大白菜、西紅柿、紫甘藍(lán)等應(yīng)有盡有。

而且它是唯一一個打出文字招牌來宣傳有機食品的,看得出來相當(dāng)賣力了~

另外,細(xì)看還能發(fā)現(xiàn)只有1號在盡力模仿真人,而2號和4號則完全走上了二刺猿。

u1s1,如果參考麥麥的廣告風(fēng)格,這一次的短暫生成確實沒有達(dá)到理想效果。(希望更貼近真實一點)

但是,好在這幾個AI工具目前都可以免費用,多來幾次也不是不行,重點還是方法論。[doge]

別急著走,其實還有一個更靠譜的搞錢方法——

用AI輕松拿捏棚拍商業(yè)宣傳海報,省下請攝影師、場地和后期的錢不香嘛。

A sleek lipstick tube gleams against a backdrop of sophistication, highlighting the rich pigment and smooth glide. Evoke luxury with sharp focus and a hint of shimmer.
一支光滑的口紅管在精致的背景前閃耀,突顯出濃郁的色澤和順滑的涂抹感。以銳利的焦點和一抹微光喚起奢華感。

考考大家,假如你要給身邊某位女性挑一只口紅,你會選哪只?(死亡考驗來了)

嘿嘿,所以有人選4號了嗎?

雖然4號Midjourney看起來灰常高級,但這個黑色可能有點小眾了。(慎選)

除了它,接下來表現(xiàn)最好的是3號Imagen 3,底下絲絨布料襯托出奢華感,且最重要的是,口紅質(zhì)地很真實。

對比之下,1號和2號都顯得有點假,“塑料感”撲面而來。

因此這一局,整體來說3號選手獲勝。

小結(jié)一下,整體而言4位選手表現(xiàn)都非常不錯。中文提示詞下,黑馬選手Ideogram 2.0表現(xiàn)最好。

誰是Ideogram?

今年2月,Ideogram推出了1.0版本,短短半年時間,它再次進化上線了2.0版本。

事實上,Ideogram與谷歌可謂“沾親帶故”。

成立于去年8月,創(chuàng)始團隊中前4人都是谷歌文生圖研究Imagen論文作者。

CEO Mohammad Norouzi,論文共同一作,他在多倫多大學(xué)計算機科學(xué)博士就讀期間拿到了谷歌ML博士獎學(xué)金。

畢業(yè)后他加入谷歌大腦工作了7年,職位也一路升至高級研究科學(xué)家,主要研究的就是生成模型。

此外,他也是谷歌神經(jīng)機器翻譯團隊的原始成員,Hinton團隊自監(jiān)督對比學(xué)習(xí)框架SimCLR的合著者。

CTO William Chan(陳俊樂),論文共同一作,他先后就讀于加拿大滑鐵盧大學(xué)、卡內(nèi)基梅隆大學(xué)。

他2012年加入谷歌時先做的機器學(xué)習(xí)廣告工程,后轉(zhuǎn)到谷歌大腦作NLP研究。

聯(lián)合創(chuàng)始人 Jonathan Ho,博士畢業(yè)于UC伯克利,曾在OpenAI工作一年,后加入谷歌。

他除了是Imagen論文的核心貢獻(xiàn)者,還是去噪擴散模型奠基之作《Denoising Diffusion Probabilistic Models》的一作,這篇論文合著者中的Pieter Abbeel也是Ideogram AI的投資人。

聯(lián)合創(chuàng)始人 Chitwan Saharia,論文共同一作,本科畢業(yè)于孟買理工學(xué)院,2019年加入谷歌,在谷歌主要負(fù)責(zé)領(lǐng)導(dǎo)image-to-image擴散模型的工作。

創(chuàng)始團隊中的另外三人,Shayaan Abdullah曾是Twitter的機器學(xué)習(xí)工程師,于去年4月離職,后加入Ideogram AI。

Jacob Lu為軟件工程師,加入Ideogram之前曾在亞馬遜等公司任職;Jenny Lei是軟件工程實習(xí)生,加入Ideogram AI之前曾在谷歌實習(xí)。

可以看出,Ideogram由頂級擴散模型研究團隊組成,自成立之初便獲得了資本青睞。

Ideogram種子輪融資由a16zIndex Ventures領(lǐng)投,金額1650萬美元 (當(dāng)時約1.2億人民幣)。

個人投資者中也不乏Andrej Karpathy、強化學(xué)習(xí)大牛Pieter Abbeel,GitHub聯(lián)合創(chuàng)始人Tom Preston-Werner等。

另外,今年2月,多方消息傳出Ideogram進行了新一輪融資。

據(jù)稱成功籌集了8000萬美元(約57億人民幣)A輪融資,領(lǐng)投方為Andreessen Horowitz,其他參與投資者包括Index Ventures、Redpoint Ventures、Pear VC和SV Angel。

看來有錢、有技術(shù)的Ideogram無疑又是AI生圖領(lǐng)域的一匹黑馬。

卷,繼續(xù)卷。

本文來源:量子位

AI圈    圖像生成    Ideogram 2   0
量子位

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部