CoT鑄就了o1推理王者。 它開創(chuàng)了一種推理scaling新范式——隨著算力增加、更長響應(yīng)時(shí)間,o1性能也隨之增長。 這一點(diǎn),為AI scaling開辟了新的可能性。 既然如此,若是將o1這一訓(xùn)練過程直接應(yīng)用到所有LLM中,豈不皆是「推理王者」。 然而,研究機(jī)構(gòu)Epoch AI發(fā)現(xiàn),結(jié)果并不是這樣的。 單純的擴(kuò)展推理計(jì)算,根本不能彌合o1-preview和GPT-4o之間的差距。 他們稱,「雖然o1使用了逐步推理方法訓(xùn)練,但其性能改進(jìn),可能還存在其他的因素」。 o1的秘訣是什么? 上周,在o1-preview和o1-mini發(fā)布之后,Epoch AI研究人員開啟了GPT-4o和o1-preview對比實(shí)驗(yàn)。 他們選擇了一個(gè)具有挑戰(zhàn)性的基準(zhǔn)測試GPQA進(jìn)行評估,其中包含STEM領(lǐng)域研究生級(jí)別的多項(xiàng)選擇題,而且考慮到模型的隨機(jī)性進(jìn)行了多次運(yùn)行。 結(jié)果發(fā)現(xiàn)o1-preview的性能遠(yuǎn)遠(yuǎn)好于GPT-4o,比Claude 3.5 Sonnet、Llama3.1 405B也拉開了相當(dāng)大的差距。 這個(gè)結(jié)果也和OpenAI自己放出的測試結(jié)果相吻合,尤其是在AIME和Codeforces這類難度更高的基準(zhǔn)上,o1-preview相比GPT-4o的提升更加明顯。 然而,考慮到o1模型相比GPT-4o使用了更多的推理時(shí)計(jì)算,而且每個(gè)問題生成的token也更多,這種比較顯得不太公平。 因此,研究人員使用了兩種方法嘗試增加GPT-4o的輸出token,類似于讓GPT-4o模仿o1的思考過程。 - 多數(shù)投票(majority voting):選擇k個(gè)推理軌跡中最常見的答案 - 修正(revision):給模型n次反思和改進(jìn)答案的機(jī)會(huì) 值得注意的是,這些都是相對簡單的方法。其實(shí)存在更復(fù)雜、有效的方法來利用推理時(shí)間計(jì)算,比如讓過程獎(jiǎng)勵(lì)模型作為驗(yàn)證器參與搜索。 o1模型很可能使用了更復(fù)雜的方法,但Epoch研究人員只是想建立一個(gè)比較基線,因此選擇了較為基礎(chǔ)的方法。 結(jié)果顯示,雖然這兩種方法都生成了更多的token,并提高了GPT-4o的準(zhǔn)確性,但依舊無法匹敵o1-preview的性能。 GPT-4o變體的準(zhǔn)確率仍然顯著低于o1-preview,差距始終大于10個(gè)百分點(diǎn)。 與o1-preview相比,輸出token數(shù)量對GPT-4o在GPQA上性能的影響 即使考慮到o1-preview每個(gè)輸出token的成本更高,這種性能差距仍然存在。 Epoch AI團(tuán)隊(duì)的推算結(jié)果表明,即使在GPT-4o上花費(fèi)1000美元用于輸出token,準(zhǔn)確率仍將比o1-preview低10多個(gè)百分點(diǎn)。 對GPT-4o mini進(jìn)行相同操作后也能得到類似的結(jié)果,但在進(jìn)行模型修正后,結(jié)果存在一些差異。 隨著修正次數(shù)的增加,模型準(zhǔn)確性不會(huì)持續(xù)提升,反而會(huì)在到達(dá)一定閾值后開始下降。這可能是由于GPT-4o mini在長上下文推理方面的局限。 從以上結(jié)果可以看出,僅僅擴(kuò)大推理處理能力并不足以解釋o1的卓越性能。 研究作者認(rèn)為,先進(jìn)的強(qiáng)化學(xué)習(xí)技術(shù)和改進(jìn)的搜索方法可能發(fā)揮了關(guān)鍵作用,凸顯了在Scaling Law之外,算法創(chuàng)新對AI發(fā)展的重要性。 但是,我們也并不能確定算法改進(jìn)是o1-preview優(yōu)于GPT-4o的唯一因素,更高質(zhì)量的訓(xùn)練數(shù)據(jù)也可能導(dǎo)致性能差異。 推理很強(qiáng)的o1,差在規(guī)劃能力 雖然GPQA或AIME這類問題相當(dāng)困難,但一般只會(huì)考察模型的在STEM領(lǐng)域的知識(shí)儲(chǔ)備和推理能力。那么強(qiáng)如o1,它的規(guī)劃能力如何? 2022年,亞利桑那州大學(xué)的學(xué)者們曾經(jīng)提出過一個(gè)用于評測LLM規(guī)劃能力的基準(zhǔn)套件PlanBench,包括了來自Blocksworld領(lǐng)域的600個(gè)任務(wù),要求將一定數(shù)量的積木按照指定順序堆疊起來。 在MMLU、GSM8K等傳統(tǒng)基準(zhǔn)相繼飽和時(shí),兩年前提出的PlanBench依舊沒有飽和,可見當(dāng)今的LLM在規(guī)劃能力方面依舊有很大的提升空間。 o1之前的模型中,PlanBench準(zhǔn)確率很少超過50% 最近,提出PlanBench團(tuán)隊(duì)又測試了一下最新的o1-preview模型,發(fā)現(xiàn)雖然o1的結(jié)果已經(jīng)表現(xiàn)出了實(shí)質(zhì)性改進(jìn),但仍然存在很大的局限性,不能完全解決規(guī)劃任務(wù)。 在Blocksworld任務(wù)上,o1實(shí)現(xiàn)了97.8%的準(zhǔn)確率,遠(yuǎn)遠(yuǎn)優(yōu)于LLaMA 3.1 405B之前達(dá)到的最好成績62.6%。 在更具挑戰(zhàn)性的任務(wù)版本Mystery Blocksworld上,之前的LLM幾乎完全失敗,而o1達(dá)到了52.8%的準(zhǔn)確率。 此外,為了排除o1的性能提升源于訓(xùn)練數(shù)據(jù)中包含基準(zhǔn)測試,研究人員還創(chuàng)建了Mystery Blocksworld的隨機(jī)變體進(jìn)行測試(表2中的Randomized Mystery Blocksworld)。 o1在隨機(jī)變體測試集上的成績從52.8%下降至37.3%,但依舊超過得分接近于0的之前其他模型。 雖然o1和o1-mini都取得了不錯(cuò)的成績,但性能并不穩(wěn)健。隨著任務(wù)逐漸復(fù)雜、計(jì)劃步驟增加,性能會(huì)出現(xiàn)直線下降。 在這組含有110個(gè)實(shí)例的較大Blocksworld數(shù)據(jù)集上,每個(gè)問題都需要20~40個(gè)步驟的最佳計(jì)劃,而o1的準(zhǔn)確率從之前報(bào)告的97.8%直接下降至23.6%,而且這些準(zhǔn)確率大部分都來自步驟少于28的問題。 相比準(zhǔn)確性更高、成本更低的傳統(tǒng)方法,如經(jīng)典規(guī)劃器Fast Downward或LLM-Modulo系統(tǒng),o1這樣的大型推理模型(LRM)非常缺乏正確性保證,而且使得可解釋性幾乎不可能,因此很難在實(shí)際應(yīng)用中部署。 o1雖強(qiáng),但絕不是萬能的。OpenAI想要真正實(shí)現(xiàn)AGI,還需要走很長一段路。 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選