首頁 > 科技要聞 > 科技> 正文

o3挑戰(zhàn)ARC-AGI,遇見大網(wǎng)格就懵圈?英國工程師:ARC-AGI不適合大模型

量子位 整合編輯:太平洋科技 發(fā)布于:2024-12-29 14:23

o3在超難推理任務(wù)ARC-AGI上的成績,屬實給人類帶來了不少震撼。

但有人專門研究了它不會做的題之后,有了更有趣的發(fā)現(xiàn)——

o3之所以不會做這些題,原因可能不是因為太難,而是題目的規(guī)模太大了

來自英國的ML工程師Mikel Bober-Irizar(不妨叫他米哥),對ARC題目進行了細(xì)致觀察。

結(jié)果米哥發(fā)現(xiàn),題目中的網(wǎng)格規(guī)模越大,大模型的表現(xiàn)也就越差。

而且不僅是o3,o1和o1 mini,還有隔壁的Claude,都出現(xiàn)了這樣的現(xiàn)象。

米哥的這項研究,引起了人們對大模型工作機制的許多討論。

世界首位全職提示詞工程師Riley Goodside看到后,也認(rèn)為這是一項很好的研究。

大模型被困在了網(wǎng)格規(guī)模上

還是先簡單回顧一下ARC挑戰(zhàn),題目帶有色塊的網(wǎng)格陣列(以文本形式表述,用數(shù)字代表顏色),大模型需要觀察每道題目中3個輸入-輸出示例,然后根據(jù)規(guī)律填充新的空白網(wǎng)格。

米哥發(fā)現(xiàn),在ARC挑戰(zhàn)中,規(guī)模越大,也就是網(wǎng)格的數(shù)量越多,大模型的表現(xiàn)也就越差。

o3也逃不過這樣的魔咒,但相比于其他模型,o3表現(xiàn)的明顯下降出現(xiàn)得更晚,大約在網(wǎng)格數(shù)量達(dá)到1024個之后(請記住這個位置,后面還會講到)。

為了進一步驗證這個發(fā)現(xiàn),米哥還用o1-mini進行了實際測試。

下圖當(dāng)中,左右兩欄的題目乍一看上去好像沒什么區(qū)別,但在右邊,米哥對網(wǎng)格進行了細(xì)粒度的切割,原來的一個格子被切成了4(2×2)個。

結(jié)果原來能做對的題,切成小塊之后,o1-mini還真就不靈了。

進一步地,米哥還對ARC數(shù)據(jù)集中的規(guī)模分布進行了統(tǒng)計,結(jié)果剛好是規(guī)模在1024個像素的題目數(shù)量最多。

還記得前面o3成績下降趨勢突然變大的位置吧,剛好就是在1024附近。

米哥認(rèn)為,這就是o3在ARC挑戰(zhàn)上取得優(yōu)異成績的重要因素,而其他模型成績不佳,是因為對應(yīng)的小規(guī)模試題占比較少。

所以在米哥看來,ARC挑戰(zhàn)并不能完全反映大模型真實的推理能力——有不少模型都被低估,o3則是被高估了

ARC挑戰(zhàn)不適合大模型?

那么,為什么題目中網(wǎng)格數(shù)量一多,大模型的表現(xiàn)就不好了呢?

先來看米哥的分析。

米哥引用了紐約大學(xué)的一項研究結(jié)果(arXiv:2409.01374),這項研究發(fā)現(xiàn)人類在挑戰(zhàn)這樣的問題時并不會出現(xiàn)這種現(xiàn)象。

如果在人類和模型之間做個比較,那么在規(guī)模較小時o3的表現(xiàn)可以說完勝人類,但規(guī)模較大時優(yōu)勝方就變成了人類。

這說明,大模型在解決此類問題時,思考方式和人類依然存在差別。

當(dāng)然,大模型在挑戰(zhàn)ARC時看到的不是圖像,而是用數(shù)字代表的矩陣,這是顯而易見的,但差別還不止于此。

人類在面對ARC問題時,即使是用這種數(shù)字矩陣來表示,也能夠看出視覺信息,理解其中的位置關(guān)系。

在空間中,ARC是一個二維問題,需要跨行和列進行推理,但大模型在處理token時是以一維格式進行的。

這意味著,大模型進行跨列推理時,需要組合較長的上下文信息。

而隨著網(wǎng)格變得更大,模型需要對更長的上下文進行推理,并且必須對相距較遠(yuǎn)的數(shù)字進行組合和推理。

米哥之前曾經(jīng)和劍橋大學(xué)高級研究員Soumya Banerjee此前進行的一項研究(arXiv:2402.03507)表明,通過對矩陣進行90度旋轉(zhuǎn),讓模型分別基于行和列進行推理,比直接做題成績提高了一倍。

所以米哥認(rèn)為,是觀察問題的維度影響了大模型的成績,ARC這種任務(wù)并不適合大模型。

他還表示在NeurIPS上聽到了一個很好的類比——

將二維的ARC任務(wù)交給大模型,就像期望人類在四維空間中進行推理。

同時網(wǎng)友們還指出,雖然本質(zhì)上涉及了維度差異,但視覺依然是一個重要因素。

想象一下,如果人沒有視覺能力,單純依靠聽或其他方式獲得關(guān)于其中網(wǎng)格的信息,也很難直接構(gòu)建出二維的矩陣。

不過說到這,即便模型擁有“視覺”能力,也是將視覺信息轉(zhuǎn)換為Token,和人類的視覺也未必相同。

網(wǎng)友認(rèn)為,真正的視覺需要能夠處理并行輸入的信息,而不是逐個Token的串行輸入,二進制IO數(shù)據(jù)流或許是一種解決方案。

One More Thing

根據(jù)ARC挑戰(zhàn)官方的說法,ARC-AGI的下一代ARC-AGI-2即將推出。

早期測試表明,其將對o3構(gòu)成重大挑戰(zhàn)——

即使在高計算量模式下,o3的得分也可能會降低到30%以下(而聰明人仍然能夠得分超過95%)

本文來源:量子位

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部