比PS更懂你的AI圖片編輯工具——MagicQuill(魔法羽毛)來(lái)了! 1分鐘出圖:不用打字、簡(jiǎn)單勾畫(huà)幾筆就能編輯圖片。 還支持直接在iPad上在線編輯! 研究團(tuán)隊(duì)來(lái)自香港科技大學(xué)、螞蟻集團(tuán)、浙江大學(xué)和香港大學(xué)等機(jī)構(gòu)。 我們先一起看個(gè)例子感受一下—— 有了MagicQuill,現(xiàn)在當(dāng)你想要給人物更換衣服時(shí),就可以直接畫(huà)出領(lǐng)子,它會(huì)自動(dòng)幫你補(bǔ)全。 加條項(xiàng)鏈、去除路人,幾秒鐘就搞定: 你還可以更換發(fā)色、讓人物戴上花環(huán),甚至更改花朵的顏色: 只需要1分鐘多的時(shí)間,就可以實(shí)現(xiàn)上面這么多編輯效果,尤其是對(duì)于想要快速修改照片的用戶來(lái)說(shuō),簡(jiǎn)直太方便了! 還有更多有趣的例子,機(jī)器人、汽車、蛋糕等,都可以快速修改! 有多位網(wǎng)友評(píng)論說(shuō),AI圖像編輯真的進(jìn)步飛快,“能讀懂用戶心思”是非常具有未來(lái)感的用戶體驗(yàn)。 甚至還有網(wǎng)友說(shuō),顫抖吧,PS! MagicQuill目標(biāo)是理解精細(xì)修改意圖 雖然目前AI圖像編輯工具是百花齊放,但想要實(shí)現(xiàn)精細(xì)編輯,很多工具的效果還是比較令人捉急。 MagicQuill團(tuán)隊(duì)的目標(biāo)是實(shí)現(xiàn)一個(gè)高效且精確的圖像編輯系統(tǒng),能夠在用戶進(jìn)行細(xì)微修改時(shí)提供更好的使用體驗(yàn)。 這不僅包括實(shí)現(xiàn)細(xì)粒度的圖像編輯控制、還要提供直觀的用戶界面、并實(shí)時(shí)預(yù)測(cè)用戶意圖。 最終團(tuán)隊(duì)選擇基于擴(kuò)散模型、文本和掩碼的圖像編輯方法、以及多模態(tài)大型語(yǔ)言模型(MLLMs) 進(jìn)行實(shí)現(xiàn),并設(shè)計(jì)了簡(jiǎn)約實(shí)用的用戶界面。 MagicQuill的具體構(gòu)成 一起來(lái)看看MagicQuill系統(tǒng)的具體構(gòu)成是什么樣的。主要分為3個(gè)部分: 1.編輯處理器 編輯處理器采用雙分支架構(gòu),包括內(nèi)容感知修復(fù)分支和結(jié)構(gòu)引導(dǎo)分支。 內(nèi)容感知修復(fù)分支利用UNet架構(gòu),結(jié)合掩碼圖像特征和預(yù)訓(xùn)練的擴(kuò)散網(wǎng)絡(luò)進(jìn)行像素級(jí)修復(fù)。 結(jié)構(gòu)引導(dǎo)分支則通過(guò)ControINet插入條件控制,確保編輯操作的精確性。 2.繪畫(huà)助手 繪畫(huà)助手通過(guò)多模態(tài)大型語(yǔ)言模型(MLLM)實(shí)時(shí)預(yù)測(cè)用戶意圖。 具體的任務(wù)稱為“Draw&Guess”,也就是通過(guò)圖像上下文解釋用戶筆畫(huà)并自動(dòng)生成相關(guān)提示。 團(tuán)隊(duì)采用的數(shù)據(jù)集通過(guò)生成邊緣圖和模擬用戶筆畫(huà)進(jìn)行構(gòu)建,并使用LLaMA模型進(jìn)行微調(diào)。 3.創(chuàng)意收集器 創(chuàng)意收集器為用戶提供了一個(gè)簡(jiǎn)約直觀的界面,它兼容多個(gè)平臺(tái),團(tuán)隊(duì)也提供了在線demo,你可以在電腦或iPad上直接使用! 界面主要包括提示區(qū)、工具欄、圖層管理、主畫(huà)布、生成圖像預(yù)覽區(qū)、執(zhí)行按鈕和參數(shù)調(diào)整區(qū)。 按鈕設(shè)計(jì)非常簡(jiǎn)潔,有上傳圖片、“增加”畫(huà)筆、“減少”畫(huà)筆、改顏色畫(huà)筆、橡皮等等。 下方的參數(shù)調(diào)整區(qū)域更適合有豐富的生圖經(jīng)驗(yàn)的專業(yè)人士: 比如在Base Model Name里,你可以選擇不同的基礎(chǔ)模型,有適合生成真實(shí)風(fēng)格的SD1.5/realisticVisionV60B1_v51VAE.safetensors、適合生成幻想風(fēng)格的SD1.5/DreamShaper.safetensors等。 你還可以調(diào)整Negative Prompt避免生成部分內(nèi)容、還有Fine Edge精細(xì)邊緣調(diào)整、Grow Size調(diào)整筆觸大小等等。完整工作流程如下圖所示。 實(shí)際效果怎樣呢? 為了更準(zhǔn)確地測(cè)試MagicQuill的具體效果,團(tuán)隊(duì)還設(shè)計(jì)了3個(gè)驗(yàn)證實(shí)驗(yàn): 1.可控生成評(píng)估 將MagicQuill與四個(gè)基線方法(SmartEdit、SketchEdit、BrushNet及其組合)進(jìn)行比較,評(píng)估編輯處理器的可控生成能力,尤其關(guān)注邊緣對(duì)齊和顏色保真度。 結(jié)果顯示,MagicQuill的編輯處理器在所有指標(biāo)上均優(yōu)于基線方法,具有更高的邊緣對(duì)齊度和顏色保真度。 2.預(yù)測(cè)準(zhǔn)確性評(píng)估 為了評(píng)估MagicQuill在模擬手繪輸入下的語(yǔ)義預(yù)測(cè)準(zhǔn)確性,團(tuán)隊(duì)將它的繪畫(huà)助手與三種最先進(jìn)的MLLMs (LLaVA-1.5、LLaVA-Next、GPT-4o)進(jìn)行了比較。 結(jié)果顯示,繪畫(huà)助手在所有測(cè)試的MLLMS中表現(xiàn)最佳,可以更準(zhǔn)確地捕捉和預(yù)測(cè)用戶繪圖的語(yǔ)義含義。 3.創(chuàng)意收集器有效性評(píng)估 團(tuán)隊(duì)還通過(guò)用戶研究評(píng)估了創(chuàng)意收集器的效率和可用性,并比較了它與基線系統(tǒng)的差異。 用戶研究結(jié)果顯示,MagicQuill在所有評(píng)估維度上都顯著優(yōu)于基線系統(tǒng),包括復(fù)雜性和效率、一致性和集成、易用性以及總體滿意度4個(gè)方面。 看來(lái)體驗(yàn)過(guò)的用戶反饋都不錯(cuò)呢! 未來(lái)工作 團(tuán)隊(duì)還表示,這將是一個(gè)長(zhǎng)期的工作,未來(lái)他們的目標(biāo)是擴(kuò)展系統(tǒng)功能,納入更多的編輯類型,如基于參考的編輯,這將允許用戶使用外部圖像指導(dǎo)修改。 他們還計(jì)劃實(shí)現(xiàn)分層圖像生成,可以讓編輯更加靈活、支持更多復(fù)雜合成。 系統(tǒng)也會(huì)支持排版,能夠處理更多圖像中的文本元素。 目前MagicQuill的代碼、論文和Demo都已上線,感興趣的小伙伴可以馬上試用起來(lái)了!鏈接就在下方。 參考鏈接:https://magicquill.art/demo/ 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選