AI圈,再次開卷圖像生成。 一連串進展扎堆: 8月21日,Ideogram正式推出2.0版本,聲稱文本渲染能力更強。 沒錯,就是那個成立于去年8月,由谷歌AI繪畫4大牛集體離職創(chuàng)業(yè)的項目,曾獲得過一眾AI大佬投資。 此番Ideogram還公開叫板Flux,官方自信表示其人類評估明顯優(yōu)于Flux Pro。 要知道,F(xiàn)lux由Stable Diffusion原班人馬打造,最近正在因生成以假亂真的TED演講“照片”而走紅各大網(wǎng)絡(luò)。 除此之外,一周前,谷歌正式放出了Imagen 3,在官方評估中,號稱表現(xiàn)優(yōu)于DALL-E 3、Midjourney v6、Stable Diffusion 3等一眾繪圖模型。 或許是受刺激了(doge),Midjourney竟然也轉(zhuǎn)性了,在8月22日直接向所有用戶推出了免費網(wǎng)頁版。 這下有好戲看了! 既然大家都宣稱自己很強,那我們不妨把大家拉到一桌,來搞個面對面PK。 誰是最強繪圖AI? 先請出咱們的4位參賽選手(全部使用網(wǎng)頁版): 1號選手:Ideogram 2.0。每天免費有10積分,1積分可以生成4張圖,每天最多生成40張圖; 2號選手:Flux.1。黑森林官方在Hugging Chat提供了免費demo(選FLUX.1 Schnell版本); 3號選手:Imagen 3。在Image FX上可以免費無限次使用; 4號選手:Midjourney。免費試用期一共只有生成25張圖的機會; 下面正式進入比賽環(huán)節(jié)。 黑猴子全翻車了 一上來,為了檢驗這些國外AI是否理解中文提示詞,咱們也來蹭一波當(dāng)今頂流黑猴子的熱度。 prompt:游戲角色,一只猴子,身披盔甲,頭戴鳳羽金冠,手上拿著一根金箍棒,站在一座懸崖之上。 不出意外,意外發(fā)生了…… 相信大家一眼都被3號的大紅叉給吸引了。沒錯,同一提示詞下,只有3號Imagen 3拒絕了生成請求。 看到這兒,第一反應(yīng)是我們的提示詞是不是觸發(fā)了版權(quán)保護。于是先刪掉了提示詞中的“游戲角色”,結(jié)果還是提醒無法生成。 難道是谷歌Imagen 3不支持中文?于是又隨機換了一個更簡單的提示詞,這下倒是有圖了。 只不過結(jié)果一整個大錯誤,而且換了多個中文提示詞,最終都是一些毫不相關(guān)的紋路圖。 看來谷歌Imagen 3確實對中文提示詞不ok。 3號落榜之后,再看其他幾位,也只有1號Ideogram 2.0表現(xiàn)最佳。 2號倒還能看出國漫的影子,4號Midjourney則完全放飛自我了~(主打一個毫不相干) 最后還是要表揚下Ideogram 2.0,精準(zhǔn)命中了所有關(guān)鍵元素。 雖然不是本人心中想要的東西(想要黑神話),但提示詞還原度確實沒毛病。 是真人還是AI?傻傻分不清楚 接下來進入各位選手的舒適區(qū)——人像生成。 遙想當(dāng)年,Midjourney以一張?zhí)炫_情侶合照火爆網(wǎng)絡(luò);眼下,F(xiàn)lux更是以一組TED演講圖風(fēng)靡全網(wǎng)…… 究竟誰更勝一籌?答案馬上揭曉。 prompt:A young man with auburn hair, wearing a checkered shirt in teal and cream, captured with a 50mm lens for a vintage look. Rich colors, sharp focus, and a touch of retro charm. 先單看2號和4號,很明顯,Midjourney贏了! 從細(xì)節(jié)上看,2號Flux.1稍有偏差,衣服顏色多了兩種,這在一水的藍(lán)綠格子襯衫中尤為突出。 另外,一上來我們還發(fā)現(xiàn)了Imagen 3獨有的一個小亮點:在生成開始前圈出關(guān)鍵詞。 借著它完成的工作,我們正好可以檢驗幾位選手對關(guān)鍵元素(藍(lán)綠色方格襯衫、50mm鏡頭等)的還原程度。 可以看到,整體上幾位選手表現(xiàn)都不錯(除了2號),還原度較高且都看向了鏡頭。 而且,要不是這些都是本人親自用AI生成的,還真無法一下子辨認(rèn)與真人的區(qū)別。(汗顏) 最后悄咪咪說一句,4號選手Midjourney顏值最高。 老大難:圖片顯示文字 成功騙過了所有人之后,是時候讓AI吃點苦頭了—— 給圖片加文字。 這事兒一直都是個老大難,也成了檢驗AI生圖水平的標(biāo)準(zhǔn)之一。 話不多說,直接讓幾位選手制作一塊精美的廣告牌。請各位看官老爺自行帶入甲方爸爸角色。 prompt:A horizontal brass sign reading ‘Festive Season’ in a stylish script, encircled by pine and holly on a dark wood backdrop, with a close-up focus on the golden lettering. 一眼掃過,是不是都還不錯,好像都高度還原了提示詞? 但是,一旦拿出甲方爸爸的犀利眼神,這2號可就藏不住了。 注意看,2號Flux.1偷工減料了,單詞“Season”少了一個字母“S”。 不過除了2號,其他幾位還是不錯滴,看來各家AI在文字渲染功能上都下功夫了。 所以接下來就是,蘿卜青菜各有所愛,大家憑個人喜好做選擇。(私心投給了Midjourney) 對了,1號Ideogram這次型號升級還特意拿“文字渲染”功能做宣傳了,大家不妨多試試。 參考麥當(dāng)勞,整點AI廣告 最近,麥當(dāng)勞請了11個AI美女為薯條瘋狂打call,狠狠火了一把~ 其實原理也比較簡單,無非是用AI生成不同角色宣傳薯條的圖片,再拼接成一個視頻。 沒想到效果驚人,僅在推特一個平臺,相關(guān)視頻就獲得了近千萬瀏覽量。 掌握財富密碼后,咱們正式開干,身為中國人,AI助農(nóng)高低得走起~ prompt:Against the backdrop of a cyberpunk-style metropolis, a girl is promoting organic agricultural products in her hands. 很好,3號選手再次“擺爛了”。不過這波著實令人費解,提示詞既不是中文,也沒有明顯違禁的地方…… 淘汰3號后,1號選手Ideogram 2.0帶貨種類最為豐富,大白菜、西紅柿、紫甘藍(lán)等應(yīng)有盡有。 而且它是唯一一個打出文字招牌來宣傳有機食品的,看得出來相當(dāng)賣力了~ 另外,細(xì)看還能發(fā)現(xiàn)只有1號在盡力模仿真人,而2號和4號則完全走上了二刺猿。 u1s1,如果參考麥麥的廣告風(fēng)格,這一次的短暫生成確實沒有達(dá)到理想效果。(希望更貼近真實一點) 但是,好在這幾個AI工具目前都可以免費用,多來幾次也不是不行,重點還是方法論。[doge] 別急著走,其實還有一個更靠譜的搞錢方法—— 用AI輕松拿捏棚拍商業(yè)宣傳海報,省下請攝影師、場地和后期的錢不香嘛。 A sleek lipstick tube gleams against a backdrop of sophistication, highlighting the rich pigment and smooth glide. Evoke luxury with sharp focus and a hint of shimmer. 考考大家,假如你要給身邊某位女性挑一只口紅,你會選哪只?(死亡考驗來了) 嘿嘿,所以有人選4號了嗎? 雖然4號Midjourney看起來灰常高級,但這個黑色可能有點小眾了。(慎選) 除了它,接下來表現(xiàn)最好的是3號Imagen 3,底下絲絨布料襯托出奢華感,且最重要的是,口紅質(zhì)地很真實。 對比之下,1號和2號都顯得有點假,“塑料感”撲面而來。 因此這一局,整體來說3號選手獲勝。 小結(jié)一下,整體而言4位選手表現(xiàn)都非常不錯。中文提示詞下,黑馬選手Ideogram 2.0表現(xiàn)最好。 誰是Ideogram? 今年2月,Ideogram推出了1.0版本,短短半年時間,它再次進化上線了2.0版本。 事實上,Ideogram與谷歌可謂“沾親帶故”。 成立于去年8月,創(chuàng)始團隊中前4人都是谷歌文生圖研究Imagen論文作者。 CEO Mohammad Norouzi,論文共同一作,他在多倫多大學(xué)計算機科學(xué)博士就讀期間拿到了谷歌ML博士獎學(xué)金。 畢業(yè)后他加入谷歌大腦工作了7年,職位也一路升至高級研究科學(xué)家,主要研究的就是生成模型。 此外,他也是谷歌神經(jīng)機器翻譯團隊的原始成員,Hinton團隊自監(jiān)督對比學(xué)習(xí)框架SimCLR的合著者。 CTO William Chan(陳俊樂),論文共同一作,他先后就讀于加拿大滑鐵盧大學(xué)、卡內(nèi)基梅隆大學(xué)。 他2012年加入谷歌時先做的機器學(xué)習(xí)廣告工程,后轉(zhuǎn)到谷歌大腦作NLP研究。 聯(lián)合創(chuàng)始人 Jonathan Ho,博士畢業(yè)于UC伯克利,曾在OpenAI工作一年,后加入谷歌。 他除了是Imagen論文的核心貢獻(xiàn)者,還是去噪擴散模型奠基之作《Denoising Diffusion Probabilistic Models》的一作,這篇論文合著者中的Pieter Abbeel也是Ideogram AI的投資人。 聯(lián)合創(chuàng)始人 Chitwan Saharia,論文共同一作,本科畢業(yè)于孟買理工學(xué)院,2019年加入谷歌,在谷歌主要負(fù)責(zé)領(lǐng)導(dǎo)image-to-image擴散模型的工作。 創(chuàng)始團隊中的另外三人,Shayaan Abdullah曾是Twitter的機器學(xué)習(xí)工程師,于去年4月離職,后加入Ideogram AI。 Jacob Lu為軟件工程師,加入Ideogram之前曾在亞馬遜等公司任職;Jenny Lei是軟件工程實習(xí)生,加入Ideogram AI之前曾在谷歌實習(xí)。 可以看出,Ideogram由頂級擴散模型研究團隊組成,自成立之初便獲得了資本青睞。 Ideogram種子輪融資由a16z和Index Ventures領(lǐng)投,金額1650萬美元 (當(dāng)時約1.2億人民幣)。 個人投資者中也不乏Andrej Karpathy、強化學(xué)習(xí)大牛Pieter Abbeel,GitHub聯(lián)合創(chuàng)始人Tom Preston-Werner等。 另外,今年2月,多方消息傳出Ideogram進行了新一輪融資。 據(jù)稱成功籌集了8000萬美元(約57億人民幣)A輪融資,領(lǐng)投方為Andreessen Horowitz,其他參與投資者包括Index Ventures、Redpoint Ventures、Pear VC和SV Angel。 看來有錢、有技術(shù)的Ideogram無疑又是AI生圖領(lǐng)域的一匹黑馬。 卷,繼續(xù)卷。 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選