o1-preview終于贏過了mini一次! 亞利桑那州立大學(xué)的最新研究表明,o1-preview在規(guī)劃任務(wù)上,表現(xiàn)顯著優(yōu)于o1-mini。 相比于傳統(tǒng)模型的優(yōu)勢更是碾壓級別,在超難任務(wù)上的準(zhǔn)確率比Llama3.1-405B高了11倍。 要知道之前,OpenAI自己人也發(fā)了一張圖,顯示preview論性能比不過滿血版,論經(jīng)濟性又不如mini,處于一個十分尷尬的地位。 作者在推文中表示,盡管存在可保證性和成本問題,但僅針對CoT而言,o1已經(jīng)超越了大模型的“近似檢索”性質(zhì),提升到了“近似推理”層次。 并且在論文中,o1全程被稱作LRM(Large Reasoning Model,大型推理模型),而非一般大型語言模型的LLM。 o1團(tuán)隊的核心成員Noam Brown也轉(zhuǎn)發(fā)了這項研究,順便給o1-preview打了個call。 還有網(wǎng)友翻出了隔壁Meta的LeCun半個多月前的推文,當(dāng)時LeCun說大模型沒有規(guī)劃能力,結(jié)果現(xiàn)在OpenAI就帶著o1來踢館了。 用“搭積木”測試大模型 為了評估o1系列模型的規(guī)劃能力,作者使用了PlanBench評估基準(zhǔn)。 該基準(zhǔn)的提出者中也正好包含了本文三名作者中的兩名——共同一作Karthik Valmeekam,以及他的導(dǎo)師Subbarao Kambhampati。 PlanBench專門為評估大模型規(guī)劃能力而設(shè)計,任務(wù)類型涵蓋了計劃生成、成本最優(yōu)規(guī)劃、計劃驗證等。 具體到這個實驗,作者使用了其中來自于國際規(guī)劃競賽(IPC)的Blocksworld和其變體。 此類問題涉及在桌子上堆疊積木塊,目標(biāo)是從一個初始狀態(tài),重新排列到目標(biāo)配置。 木塊用不同的顏色標(biāo)識,一次只能移動一個積木塊,且只能移動每一堆中頂部的積木塊,被拿起的積木塊也只能放在頂部或直接放在桌子上。 變體Mystery Blocksworld則是在Blockworlds的基礎(chǔ)上加入混淆機制,用一些毫不相干的詞語來代替操作中的動作。 在此基礎(chǔ)之上,還有更為復(fù)雜的全隨機變體,指令進(jìn)一步從其他英文單詞變成了無意義的字符串。 在o1之前,Blockworlds上的SOTA模型是Llama3.1-405B,成績?yōu)檫_(dá)到 62.6%,而在Mystery Blockworlds上,沒有任何模型的成績能超過5%。 o1-preview超強規(guī)劃 o1這邊的測試結(jié)果顯示,preview相比mini,成績優(yōu)勢十分明顯。 在Blockworlds任務(wù)上,preview版準(zhǔn)確率達(dá)98%,而mini只有56.6%,表現(xiàn)還不如llama。 當(dāng)然加入了混淆之后,mini相比于llama也顯示出了一些優(yōu)勢—— 在零樣本配置下,preview版的準(zhǔn)確率超過了一半,比llama的4.3%高出了11倍多;mini版也達(dá)到了19.1%,比llama高3.4倍。 最后在全隨機版本下,o1-preview還能擁有37.3%的準(zhǔn)確率。 以上結(jié)果顯示出了o1系列模型,特別是o1-preview的超強規(guī)劃能力,但是不足之處也十分明顯。 一是隨著規(guī)劃長度的增加,模型的性能也會迅速下降,即使對于未混淆的Blockworlds來說也同樣如此。 另外,Blockworlds系列問題并非全部可解,作者發(fā)現(xiàn)o1在識別不可解問題上的準(zhǔn)確率依然存在不足。 對于未混淆版本準(zhǔn)確率只有27%,但沒有誤判為不可解的情況;對于全隨機版本則只有16%,另外還有11.5%的概率將可解問題誤判為不可解。 甚至作者還發(fā)現(xiàn),o1有時也會狡辯,提出令人信服的合理理由,讓人們相信其錯誤答案。 在模型本身的性能之外,成本和時間消耗也是一個重要考量,相比于傳統(tǒng)大模型,o1-mini的成本相比GPT4-Turbo直接翻番,preview更是高出了數(shù)量級。 那么,如果你是開發(fā)者,會愿意為了o1的高性能付出更多的成本嗎?歡迎評論區(qū)交流。 期待與數(shù)百萬從業(yè)者共同見證榮譽時刻。 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選