又是發(fā)布即開(kāi)源! Meta“分割一切AI”二代SAM2在SIGGRAPH上剛剛亮相。 相較于上一代,它的能力從圖像分割拓展到視頻分割。 可實(shí)時(shí)處理任意長(zhǎng)視頻,視頻中沒(méi)見(jiàn)過(guò)的對(duì)象也能輕松分割追蹤。 更關(guān)鍵的是,模型代碼、權(quán)重以及數(shù)據(jù)集通通開(kāi)源! 它和Llama系列一樣遵循Apache 2.0許可協(xié)議,并根據(jù)BSD-3許可分享評(píng)估代碼。 網(wǎng)友yygq:我就問(wèn)OpenAI尷尬不尷尬。 Meta表示,此次開(kāi)源的數(shù)據(jù)集包含51000個(gè)真實(shí)世界視頻和600000個(gè)時(shí)空掩碼(masklets,spatio-temporal masks),規(guī)模遠(yuǎn)超此前最大同類(lèi)數(shù)據(jù)集。 可在線試玩的demo也同步上線,大家都能來(lái)體驗(yàn)。 在SAM之上加入記憶模塊 相較于SAM一代,SAM2的能力升級(jí)主要有: 支持任意長(zhǎng)視頻實(shí)時(shí)分割 實(shí)現(xiàn)zero-shot泛化 分割和追蹤準(zhǔn)確性提升 解決遮擋問(wèn)題 它進(jìn)行交互式分割的過(guò)程主要分為兩步:選擇和細(xì)化。 在第一幀中,用戶通過(guò)點(diǎn)擊來(lái)選擇目標(biāo)對(duì)象,SAM2根據(jù)點(diǎn)擊自動(dòng)將分割傳播到后續(xù)幀,形成時(shí)空掩碼。 如果SAM2在某些幀中丟失了目標(biāo)對(duì)象,用戶可以通過(guò)在新一幀中提供額外的提示來(lái)進(jìn)行校正。 如果在第三幀中需要需要恢復(fù)對(duì)象,只需在該幀中點(diǎn)擊即可。 SAM2的核心思路是將圖像視作單幀視頻,因此可以從SAM直接擴(kuò)展至視頻領(lǐng)域,同時(shí)支持圖像和視頻輸入。 處理視頻唯一的區(qū)別在于,模型需要依賴內(nèi)存來(lái)回憶處理過(guò)的信息,以便在當(dāng)前時(shí)間步長(zhǎng)上準(zhǔn)確分割對(duì)象。 與圖像分割相比,視頻分割中,物體的運(yùn)動(dòng)、變形、遮擋和光線等都會(huì)發(fā)生強(qiáng)烈變化。同時(shí)分割視頻中的對(duì)象需要了解實(shí)體跨越空間和時(shí)間的位置。 所以Meta主要做了三部分工作: 設(shè)計(jì)一個(gè)可提示的視覺(jué)分割任務(wù) 在SAM基礎(chǔ)上設(shè)計(jì)新模型 構(gòu)建SA-V數(shù)據(jù)集 首先,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)視覺(jué)分割任務(wù),將圖像分割任務(wù)推廣到視頻領(lǐng)域。 SAM被訓(xùn)練成以圖像中的輸入點(diǎn)、框或掩碼來(lái)定義目標(biāo)并預(yù)測(cè)分割掩碼(segmentation mask)。 然后訓(xùn)練SAM在視頻的任意幀中接受prompt來(lái)定義要預(yù)測(cè)的時(shí)空掩碼(masklet)。 SAM2根據(jù)輸入提示對(duì)當(dāng)前幀上的掩碼進(jìn)行即時(shí)預(yù)測(cè),并進(jìn)行臨時(shí)傳播,在所有幀上都可生成目標(biāo)對(duì)象的掩碼。 一旦預(yù)測(cè)到初始掩碼,就可以通過(guò)任何幀中向SAM2提供額外提示來(lái)進(jìn)行迭代改進(jìn),它可以根據(jù)需要重復(fù)多次,直到獲取到所有掩碼。 通過(guò)引入流式記憶(streaming memory),模型可以實(shí)時(shí)處理視頻,還能更加準(zhǔn)確分割和跟蹤目標(biāo)對(duì)象。 它由記憶編碼器、記憶庫(kù)和記憶注意力模塊組成。讓模型一次只處理一幀圖像,利用先前幀信息輔助當(dāng)前幀的分割任務(wù)。 分割圖像時(shí),內(nèi)存組件為空,模型和SAM類(lèi)似。分割視頻時(shí),記憶組件能夠存儲(chǔ)對(duì)象信息以及先前的交互信息,從而使得SAM2可以在整個(gè)視頻中進(jìn)行掩碼預(yù)測(cè)。 如果在其他幀上有了額外提示,SAM2可以根據(jù)目標(biāo)對(duì)象的存儲(chǔ)記憶進(jìn)行糾錯(cuò)。 記憶編碼器根據(jù)當(dāng)前預(yù)測(cè)創(chuàng)建記憶,記憶庫(kù)保留有關(guān)視頻目標(biāo)對(duì)象過(guò)去預(yù)測(cè)的信息。記憶注意力機(jī)制通過(guò)條件化當(dāng)前幀特征,并根據(jù)過(guò)去幀的特征調(diào)整以產(chǎn)生嵌入,然后將其傳遞到掩碼解碼器以生成該幀的掩碼預(yù)測(cè),后續(xù)幀不斷重復(fù)此操作。 這種設(shè)計(jì)也允許模型可以處理任意時(shí)長(zhǎng)的視頻,不僅對(duì)于SA-V數(shù)據(jù)集的注釋收集很重要,也對(duì)于機(jī)器人等領(lǐng)域應(yīng)有有影響。 如果被分割對(duì)象比較模糊,SAM2還會(huì)輸出多個(gè)有效掩碼。比如用戶點(diǎn)擊了自行車(chē)的輪胎,模型可以將此理解為多種掩碼,可能是指輪胎、可能是指自行車(chē)全部,并輸出多個(gè)預(yù)測(cè)。 在視頻中,如果在一幀圖像中僅有輪胎可見(jiàn),那么可能需要分割的是輪胎;如果視頻后續(xù)幀中很多都出現(xiàn)了自行車(chē),那么可能需要分割的是自行車(chē)。 如果還是不能判斷用戶到底想分割哪個(gè)部分,模型會(huì)按照置信度進(jìn)行選擇。 此外,視頻中還容易出現(xiàn)分割對(duì)象被遮擋的情況。為了解決這個(gè)新情況,SAM2還增加了一個(gè)額外的模型輸出“遮擋頭”(occlusion head),用來(lái)預(yù)測(cè)對(duì)象是否出現(xiàn)在當(dāng)前幀上。 此外,在數(shù)據(jù)集方面。 SA-V中包含的視頻數(shù)量是現(xiàn)有最大同類(lèi)數(shù)據(jù)集的4.5倍,注釋量則是53倍。 為了收集到如此多的數(shù)據(jù),研究團(tuán)隊(duì)構(gòu)建了一個(gè)數(shù)據(jù)引擎。人工會(huì)利用SAM2在視頻中注釋時(shí)空掩碼,然后將新的注釋用來(lái)更新SAM2。多次重復(fù)這一循環(huán),就能不斷迭代數(shù)據(jù)集和模型。 和SAM相似,研究團(tuán)隊(duì)不對(duì)注釋的時(shí)空掩碼進(jìn)行語(yǔ)義約束,而是更加關(guān)注完整的物體。 這一方法讓收集視頻對(duì)象分割掩碼速度也大幅提升,比SAM快8.4倍。 解決過(guò)度分割、超越SOTA 對(duì)比來(lái)看,使用SAM2可以很好解決過(guò)度分割的問(wèn)題。 實(shí)驗(yàn)數(shù)據(jù)顯示,和半監(jiān)督SOTA方法比較,SAM2各項(xiàng)性能都表現(xiàn)不錯(cuò)。 不過(guò)研究團(tuán)隊(duì)也表示,SAM2還有不足, 比如可能會(huì)跟丟對(duì)象。如果相機(jī)視角變化大、在比較擁擠的場(chǎng)景里,就容易出現(xiàn)這類(lèi)情況。所以他們?cè)O(shè)計(jì)了實(shí)時(shí)交互的模式,支持手動(dòng)修正。 以及目標(biāo)對(duì)象移動(dòng)過(guò)快,可能會(huì)細(xì)節(jié)上有缺失。 最后,模型不僅開(kāi)源支持免費(fèi)使用,并已在Amazon SageMaker 等平臺(tái)上托管。 值得一提的是,有人發(fā)現(xiàn)論文中提到SAM2訓(xùn)練是在256塊A100上耗時(shí)108小時(shí)完成,對(duì)比SAM1則花了68小時(shí)。 從圖像分割擴(kuò)展到視頻領(lǐng)域,成本如此低? 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。