當(dāng)你在綠茵場(chǎng)上進(jìn)行一場(chǎng)緊張刺激的足球比賽時(shí),大腦會(huì)像一位精明的導(dǎo)演,不斷地在腦海中預(yù)演著比賽的下一步發(fā)展。你會(huì)想象如何帶球突破對(duì)方防線、如何與隊(duì)友配合制造進(jìn)球機(jī)會(huì)等。 這種內(nèi)心的想象是基于豐富的比賽經(jīng)驗(yàn)、對(duì)足球規(guī)則的深刻理解以及對(duì)隊(duì)友特點(diǎn)的熟悉。 大腦能夠迅速?gòu)挠洃浿刑崛⌒畔,結(jié)合當(dāng)前的比賽狀況,預(yù)測(cè)未來可能出現(xiàn)的場(chǎng)景,并以近乎動(dòng)畫的形式在腦海中迅速閃現(xiàn),幫助人類做出更好的決策。 正如足球比賽中展現(xiàn)的一樣,大腦的預(yù)演能力實(shí)際上是一個(gè)精簡(jiǎn)版的“世界模型”,通過模擬未來可能發(fā)生的情景來指導(dǎo)人類行為。 受此啟發(fā),具身智能研究中有望通過構(gòu)建類似的“視頻預(yù)測(cè)模型”作為機(jī)器人“世界模型”,通過歷史序列和實(shí)時(shí)觀測(cè),預(yù)測(cè)未來可能發(fā)生的事件,形成對(duì)機(jī)器人未來行為的視頻預(yù)測(cè)。 世界模型給機(jī)器人提供了一個(gè)“內(nèi)心預(yù)演”的工具,能夠在實(shí)際采取行動(dòng)之前評(píng)估可能的行動(dòng)方案及后果,幫助機(jī)器人進(jìn)行決策。 近期,中國(guó)電信集團(tuán)CTO、首席科學(xué)家、中國(guó)電信人工智能研究院(TeleAI)院長(zhǎng)李學(xué)龍教授帶領(lǐng)團(tuán)隊(duì)基于長(zhǎng)期以來在擴(kuò)散噪聲、正激勵(lì)噪聲、張量噪聲等噪聲分析的基礎(chǔ)上,對(duì)具身世界模型構(gòu)建中的樣本效率難題進(jìn)行了深入研究,在少樣本驅(qū)動(dòng)的具身世界模型構(gòu)建方面邁出了重要的一步。 這項(xiàng)工作提出了全新的具身視頻噪聲擴(kuò)散模型的訓(xùn)練方法,通過充分挖掘大量人類操作視頻和機(jī)器人操作的共同模式,在僅使用少量具身數(shù)據(jù)的情況下訓(xùn)練高效的具身世界模型。 論文由TeleAI院長(zhǎng)李學(xué)龍教授、TeleAI研究科學(xué)家白辰甲博士聯(lián)合香港科技大學(xué)、上海交通大學(xué)、上海人工智能實(shí)驗(yàn)室等單位共同完成,近期被國(guó)際人工智能頂會(huì)NeurIPS 2024錄用,HKUST在讀博士何浩然為該論文的第一作者。 研究動(dòng)機(jī) 構(gòu)建通用的機(jī)器人世界模型是一項(xiàng)長(zhǎng)期的挑戰(zhàn)。盡管以Sora為代表的視頻生成模型在通用視頻生成中有出色的表現(xiàn),但依賴于對(duì)大規(guī)模視頻數(shù)據(jù)集學(xué)習(xí)。 然而,在具身智能領(lǐng)域,高質(zhì)量的機(jī)器人操作視頻的獲取是非常困難的,且不同類型的機(jī)器人數(shù)據(jù)難以通用。具身世界模型的學(xué)習(xí)非常具有挑戰(zhàn)性,亟需一種通過少量數(shù)據(jù)學(xué)習(xí)的通用具身世界模型構(gòu)建方法。 本研究提出,能否利用在其他相似領(lǐng)域的大規(guī)模視頻數(shù)據(jù),特別是人類操作視頻來幫助學(xué)習(xí)具身世界模型?人類在現(xiàn)實(shí)場(chǎng)景中第一視角的物體操作視頻和機(jī)器人操作任務(wù)具有高度的相似性,包含了物理世界的交互信息,并具有多元的任務(wù)場(chǎng)景、復(fù)雜的視覺背景、多樣的物體類型,能夠幫助具身世界模型學(xué)習(xí)物體操作的先驗(yàn)知識(shí)。 近期部分工作開始利用人類操作數(shù)據(jù)來策略學(xué)習(xí),然而局限于從人類視頻中提取圖像表征或Affordance區(qū)域,忽略了人類操作視頻中蘊(yùn)含的豐富的時(shí)序信息的行為決策信息,不同于現(xiàn)有方法,本研究提出構(gòu)建基于人類操作的視頻預(yù)測(cè)(video prediction)來進(jìn)行世界模型構(gòu)建,同時(shí)通過少量含有動(dòng)作的機(jī)器人數(shù)據(jù)獲得可執(zhí)行的策略,充分挖掘在人類操作視頻和機(jī)器人數(shù)據(jù)上統(tǒng)一的決策行為模式。 為了有效利用大量人類數(shù)據(jù),本方法設(shè)計(jì)了預(yù)訓(xùn)練(pre-training)和微調(diào)(fine-tuning)的框架,前者可以遵循scaling law快速擴(kuò)展到大規(guī)模的人類操作視頻數(shù)據(jù)集,后者可以利用少量機(jī)器人數(shù)據(jù)快速遷移至下游任務(wù)。整體框架如圖1所示。 △圖1:算法整體框架本方法從大規(guī)模人類操作數(shù)據(jù)集(如Ego4d)中學(xué)習(xí)統(tǒng)一的視頻表征,使用大量無動(dòng)作視頻構(gòu)建自監(jiān)督的視頻預(yù)測(cè)擴(kuò)散模型作為預(yù)訓(xùn)練任務(wù),并在少量有動(dòng)作標(biāo)記的具身數(shù)據(jù)上進(jìn)行高效策略微調(diào),能夠使通用人類操作視頻中編碼的物理世界先驗(yàn)知識(shí)適應(yīng)于具身環(huán)境模型構(gòu)建,在下游任務(wù)中利用少量機(jī)器人軌跡即可在通用機(jī)械臂操作任務(wù)集合中獲得優(yōu)異的性能。 研究方法 本文方法從三個(gè)方面利用人類操作數(shù)據(jù)構(gòu)建具身世界模型,實(shí)現(xiàn)高效的具身策略學(xué)習(xí): 在大量人類操作數(shù)據(jù)和少量機(jī)器人數(shù)據(jù)中構(gòu)建統(tǒng)一的、可泛化、可遷移的視頻表征; 構(gòu)建自監(jiān)督預(yù)測(cè)任務(wù)進(jìn)行軌跡層面整體建模,實(shí)現(xiàn)人類和機(jī)器人通用的具身視頻預(yù)測(cè); 新穎的擴(kuò)散架構(gòu)實(shí)現(xiàn)可擴(kuò)展的人類視頻學(xué)習(xí),同時(shí)在小規(guī)模機(jī)器人數(shù)據(jù)上快速泛化。 人類和機(jī)器人數(shù)據(jù)的統(tǒng)一token化 為了從數(shù)據(jù)分布極廣的各類視頻數(shù)據(jù)中提取有效的信息輸入進(jìn)行世界模型構(gòu)建,提出構(gòu)建人類視頻和機(jī)器人視頻統(tǒng)一的視頻編碼。 使用VQ-VAE將高維視頻片段壓縮成信息豐富的離散化潛在token,不僅為混合視頻提供了統(tǒng)一的碼本,還減輕了人類和機(jī)器人視頻之間的域差異。通過將連續(xù)特征轉(zhuǎn)換為離散空間,提取出人類和機(jī)器人操作的共同模式。 此外,通過統(tǒng)一的動(dòng)作離散化方法將動(dòng)作空間的連續(xù)維度離散化成有序的整數(shù),使機(jī)器人的動(dòng)作可以通過離散的token來表示,為后續(xù)的預(yù)訓(xùn)練和微調(diào)階段提供了便利。 通過這種方式,能夠?qū)?strong>人類視頻中的動(dòng)態(tài)行為模式和機(jī)器人的動(dòng)作指令統(tǒng)一起來,構(gòu)建出一個(gè)能夠處理大規(guī)模視頻數(shù)據(jù)并提取有用特征的框架。見圖2第一階段所示。 △圖2:三階段學(xué)習(xí)框架離散擴(kuò)散模型的視頻預(yù)測(cè)學(xué)習(xí)在視頻預(yù)測(cè)模型的訓(xùn)練階段,利用離散擴(kuò)散模型從大量人類視頻中提取與物理交互有關(guān)的普適知識(shí)。具體的,給定一段歷史視頻和文本作為 prompts,利用大規(guī)模擴(kuò)散模型預(yù)測(cè)未來視頻 token 序列。 當(dāng)模型能很好地理解交互模式并預(yù)測(cè)到準(zhǔn)確的未來軌跡時(shí),智能體能夠對(duì)未來可能發(fā)生的行為進(jìn)行預(yù)估,從而用該信息去指導(dǎo)下游任務(wù)的決策過程。 為了處理信息量豐富的離散視頻編碼,并且支持提出的預(yù)訓(xùn)練及微調(diào)的兩階段訓(xùn)練模式,提出表達(dá)力極強(qiáng)的離散擴(kuò)散模型(Discrete Diffusion)架構(gòu)進(jìn)行視頻建模。 模型訓(xùn)練中通過引入一個(gè)掩碼和替換的擴(kuò)散策略,能夠?qū)W習(xí)到視頻中的動(dòng)態(tài)變化規(guī)律,并生成在潛在空間中具有連貫性的未來視頻token。 這一過程不僅涉及對(duì)視頻內(nèi)容的理解,還包括對(duì)視頻上下文的深入分析,從而為機(jī)器人策略學(xué)習(xí)提供了豐富的先驗(yàn)知識(shí)。見圖2第二階段所示。 世界模型驅(qū)動(dòng)的具身策略學(xué)習(xí) 通過從大規(guī)模人類數(shù)據(jù)集中學(xué)習(xí)世界模型,模型已經(jīng)編碼了的普適的視頻預(yù)測(cè)模式,在下游機(jī)器人任務(wù)中僅需要依賴少量機(jī)器人數(shù)據(jù)就能夠快速的學(xué)習(xí)策略。 具體的,提出了基于少量樣本的微調(diào)策略,通過凍結(jié)預(yù)訓(xùn)練模型并僅調(diào)整動(dòng)作學(xué)習(xí)網(wǎng)絡(luò)的參數(shù),能夠在有限的機(jī)器人數(shù)據(jù)集上快速適應(yīng)并預(yù)測(cè)動(dòng)作序列。 在預(yù)訓(xùn)練階段模型使用Perceiver Transformer作為噪聲擴(kuò)散模型的主干網(wǎng)絡(luò),在微調(diào)階段使用 GPT2作為主干網(wǎng)絡(luò)以便于在小規(guī)模機(jī)器人數(shù)據(jù)集中進(jìn)行策略學(xué)習(xí)。 這一微調(diào)過程有效地將從人類視頻中學(xué)到的豐富視頻預(yù)測(cè)知識(shí)轉(zhuǎn)移到機(jī)器人控制任務(wù)中,顯著提高了機(jī)器人在多任務(wù)操作中的性能和樣本效率。見圖2第三階段所示。 實(shí)驗(yàn)結(jié)果 本方法在單視角視覺觀測(cè)的機(jī)械臂操作任務(wù)集和使用多視角觀測(cè)的3D操作任務(wù)集合中評(píng)估有效性。 結(jié)果發(fā)現(xiàn),論文提出的方法可以在人類物體操作和機(jī)器人物體操作中成功預(yù)測(cè)準(zhǔn)確的未來運(yùn)動(dòng)軌跡,無論是單視角還是多視角,這些都通過一個(gè)離散擴(kuò)散模型生成。 下方視頻顯示了方法在合成人類操作視頻方面的效果。在復(fù)雜的人類物體操作場(chǎng)景中,本文方法能夠精確的建模人類手部的運(yùn)動(dòng)細(xì)節(jié)和運(yùn)動(dòng)軌跡,從而在構(gòu)建世界模型中為機(jī)器人末端的運(yùn)動(dòng)提供指導(dǎo)。 進(jìn)而,通過人類視頻和機(jī)器人視頻的統(tǒng)一token編碼,人類操作視頻的預(yù)測(cè)學(xué)習(xí)能夠極大的幫助模型在少量機(jī)器人視頻中學(xué)習(xí)具身世界模型。下方視頻顯示了機(jī)器人操作任務(wù)中,本方法能夠準(zhǔn)確根據(jù)自然語言指令對(duì)機(jī)械臂未來的軌跡進(jìn)行預(yù)測(cè)和規(guī)劃,從而指導(dǎo)下一階段的機(jī)械臂動(dòng)作預(yù)測(cè)。 此外,通過對(duì)少量真實(shí)機(jī)械臂操作視頻的學(xué)習(xí),世界模型可以快速泛化到對(duì)真實(shí)機(jī)械臂視頻產(chǎn)生準(zhǔn)確的預(yù)測(cè),從而指導(dǎo)真實(shí)機(jī)械臂的策略學(xué)習(xí)。 通過具身世界模型的構(gòu)建,模型能夠在少量帶有動(dòng)作標(biāo)記的數(shù)據(jù)中進(jìn)行快速微調(diào),從而使模型能夠產(chǎn)生實(shí)際的機(jī)器人動(dòng)作決策序列,指導(dǎo)下游任務(wù)的學(xué)習(xí)。 下面顯示了在RLBench任務(wù)中的策略執(zhí)行效果。通過多視角的視頻預(yù)測(cè),世界模型能夠全方位預(yù)測(cè)機(jī)器人的周圍環(huán)境變化,從而指導(dǎo)機(jī)器人在三維空間中進(jìn)行復(fù)雜的任務(wù)決策。 研究總結(jié) 該成果提出了一種少樣本的高效具身世界模型架構(gòu)和訓(xùn)練方法,通過設(shè)計(jì)統(tǒng)一token編碼、離散噪聲擴(kuò)散模型為基礎(chǔ)的運(yùn)動(dòng)軌跡(視頻)預(yù)訓(xùn)練、以及少量機(jī)器人數(shù)據(jù)的知識(shí)遷移和泛化,能夠使用人類操作視頻的行為模式指導(dǎo)機(jī)器人進(jìn)行決策,從而解決了機(jī)器人數(shù)據(jù)代價(jià)昂貴的問題。 提出的方法可以靈活地處理各種視頻輸入的機(jī)械臂操作任務(wù),包括單視角2D操作、多視角相機(jī)3D操作、真實(shí)機(jī)械臂操作等,為世界模型邁向機(jī)器人做出了重要貢獻(xiàn)。 團(tuán)隊(duì)負(fù)責(zé)人介紹: 李學(xué)龍,中國(guó)電信集團(tuán)CTO、首席科學(xué)家,中國(guó)電信人工智能研究院(TeleAI)院長(zhǎng)。主要關(guān)注人工智能、臨地安防、圖像處理、具身智能、噪聲分析。 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來者必須面對(duì)越來越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。