2022年,AI大牛Ilya Sutskever曾預(yù)測:「隨著時間推移,人類預(yù)期和AI實際表現(xiàn)差異可能會縮小」。 然而,一篇最新發(fā)表在Nature上的研究表明,事實并非如此! 世界上所有的大模型,甚至指令微調(diào)后的LLM,竟是一個「巨大的草臺班子」。 來自VRAIN、劍橋等機(jī)構(gòu)研究人員對o1-preview等領(lǐng)先的LLM開啟了全方位評測,結(jié)果發(fā)現(xiàn): - LLM&人類無法保持一致:人類認(rèn)為復(fù)雜的任務(wù),LLM輕易解決;而對人類小菜一碟的問題,LLM卻失敗了。 - LLM不會「回避」復(fù)雜任務(wù),而是強(qiáng)撐面子費力思考半天,最終仍舊答錯。 - 提示工程,無法挽救LLM的不可靠。 且看CoT「推理王者」o1-preview,既能解決非常復(fù)雜的字謎任務(wù),卻在超級簡單的任務(wù)中犯錯。 (上)根據(jù)所給字母,成功拼出了electroluminescence(電場發(fā)光);(下)回答錯誤,正確答案是yummy 而且,在更具挑戰(zhàn)性任務(wù)上,o1-mini和o1-preview實際上根本不會做。 但為了給一個答案,它們往往耗時50-140多秒,絞盡腦汁去想半天。 結(jié)果,還是在所有任務(wù)中,都失敗了。 o1-mini在思考103秒之后,仍舊計算錯誤 要知道,o1系列模型最強(qiáng)大之處在于,使用RL+CoT等策略,實現(xiàn)推理能力暴漲。 就連o1都這么不可靠,Claude、Llama等大模型更是如此。 LLM并不可靠 更大參數(shù)、更大數(shù)據(jù)、更長訓(xùn)練時間,外加RLHF、輸出過濾審核等技術(shù)加持,LLM肉眼可見地性能提升。 而且,以人類視角來看,它們也變得越來越可靠。 但事實上,這僅是一種表象。 為了評測當(dāng)前LLM可靠性,劍橋等機(jī)構(gòu)研究人員將GPT系列、Llama系列、以及Bloom系列32個模型,展開評測。 之所以選擇這些模型,是因為它們代表了不同參數(shù)規(guī)模,并使用RLHF等方法優(yōu)化的模型 正如開篇所述,他們從三個方面對此,展開了評測。 1. 難度(不)一致性 2. 任務(wù)回避 3. 提示敏感性和穩(wěn)定性 復(fù)雜任務(wù)一舉攻破,簡單任務(wù)錯誤百出難度一致性上,不得不得承認(rèn),LLM確實在人類認(rèn)為困難的任務(wù)上,回答準(zhǔn)確率較低。 而奇怪的發(fā)現(xiàn)是,它們在還沒有完全掌握簡單任務(wù)之前,就能成功完成更復(fù)雜的任務(wù)。 實際上,最新LLM比如o1系列,在高難度實例上有所改進(jìn),更是加劇人類預(yù)期和LLM能力之間不一致性。 這將導(dǎo)致,人類無法確定應(yīng)該在怎樣安全操作條件下,信任大模型。 下圖中,展示了一些關(guān)鍵指標(biāo)。 那些經(jīng)過微調(diào)的模型(藍(lán)色),在提示變化方面,表現(xiàn)更加穩(wěn)定正確,但在與人類任務(wù)難度的判斷的一致性降低。 而且,整體失敗次數(shù)增加,謹(jǐn)慎性降低。 對于Llama家族來說,沒有一個模型能在最簡單的難度水平上,達(dá)到60%的準(zhǔn)確率。唯一例外的是,GPT-4在低難度科學(xué)任務(wù)上,幾乎在中等難度水平上,取得了完美的結(jié)果。 如上指標(biāo)總結(jié)了LLM在5個精心選擇基準(zhǔn)測試上表現(xiàn),包括簡單數(shù)字運(yùn)算、詞匯充足、地理知識、多樣化科學(xué)技能、以信息為中心轉(zhuǎn)換 太過自信,不會硬答其次,「回避」是指LLM偏離問題的回應(yīng),或給出類似「我不知道」這樣的回答。 以往,因為一些安全限制,人們經(jīng)常吐槽「大模型拒絕回答問題」。 而現(xiàn)在,通過scaling算力、規(guī)模、數(shù)據(jù),和算法優(yōu)化(指令微調(diào)、RLHF)方法,LLM倒是從謹(jǐn)慎回避轉(zhuǎn)變?yōu)榱私o出錯誤答案。 因此,較新的LLM的錯誤率,已經(jīng)大幅增加。 比如,GPT-4比GPT-3錯的更離譜,就是因為太過自信,很少回避回答超出自己能力范圍的問題。 最壞的結(jié)果是,那些過度依賴LLM解決不擅長任務(wù)的用戶,會逐漸對它喪失信任。 那么,大模型這種回避傾向,會隨著任務(wù)難度提高而增加嗎,就像人類那樣「知難而退」? 研究人員發(fā)現(xiàn),它們并不會! 即便是給出錯誤的回答,也要迎難而上。 這樣一來,對于人類來說,驗證大模型輸出結(jié)果,又多了一大負(fù)擔(dān)。 如下圖所示,GPT-3.5 Turbo不會回避復(fù)雜問題現(xiàn)象,更為明顯,越有難度越激進(jìn)。Llama系列更是如此...... 提示詞,不通用最后是模型對提示詞的「敏感性」和「穩(wěn)定性」。 前者的問題在于,那些在復(fù)雜任務(wù)中表現(xiàn)優(yōu)異的提示詞,被復(fù)用到簡單任務(wù)中時,模型竟無法輸出正確的結(jié)果。 后者的問題在于,對于相同的任務(wù),但采用不同的提示詞時,模型就會輸出錯誤的結(jié)果。 也就是說,「提示工程」這項技術(shù)活,不具普適性。 而且,同樣一道題,用不同提示來詢問,也會影響模型輸出的結(jié)果。 下表中呈現(xiàn)了,經(jīng)過微調(diào)的模型通過對「提示變化」并不敏感。 而再從上圖中scaling數(shù)據(jù)中,觀察這一維度的演變,就能發(fā)現(xiàn)原始模型(GPT-3 davinci)和GPT家族其他模型,存在很大差異。 Llama家族的模型變化,相對較小。 原始GPT和所有Llama模型,對提示詞高度敏感,即使在「加法」這樣高度明確任務(wù)中,也是如此。 而且,難度似乎對敏感性影響不大。對于簡單的任務(wù),原始模型(特別是GPT-3 davinci和Llama模型)只有通過精心挑選的提示才能解答。 對于那些經(jīng)過微調(diào)后的模型,即最后6個GPT模型和最后3個Llama Chat模型,卻發(fā)生了實質(zhì)性變化。 這些模型表現(xiàn)更加穩(wěn)定,但在不同難度水平上,結(jié)果仍存在變數(shù)。 RLHF被判「死刑」? 再來看常見的RLHF。 通過人類反饋強(qiáng)化學(xué)習(xí)后的LLM,可靠性有所改進(jìn)嗎? 研究發(fā)現(xiàn),RLHF根本無法彌補(bǔ)大模型不可靠性。 在人類意識到很難的應(yīng)用領(lǐng)域中,對于LLM輸出結(jié)果,往往會表現(xiàn)出一種「不懂裝懂」的樣子。 「心里OS:我也不懂怎么解,或許LLM回答就是對的」。 他們通常會將不正確的結(jié)果,也視為正確答案。這種判斷誤差,導(dǎo)致大模型的RLHF,也是越來越離譜。 甚至,對于簡單任務(wù)而言,也不存在一個既能保證AI低錯誤率,又能保證人類監(jiān)督低錯誤率的「安全操作空間」。 如下圖所示,人類監(jiān)督錯誤率隨著任務(wù)難度的演變。 作者介紹 Lexin Zhou在劍橋大學(xué)獲得計算機(jī)科學(xué)碩士學(xué)位,由Andreas Vlachos教授指導(dǎo)。此前,在瓦倫西亞理工大學(xué)完成了數(shù)據(jù)科學(xué)學(xué)士學(xué)位,導(dǎo)師是Jose Hernandez-Orallo教授。 就讀期間,他曾在Meta AI、OpenAI、Krueger AI安全實驗室實習(xí),并在VRAIN和歐盟委員會JRC等機(jī)構(gòu),擔(dān)任AI評估的研究/咨詢角色。 他稱自己大部分時間都在思考: (1)設(shè)計具有解釋和預(yù)測能力的穩(wěn)健評估方法,以評估AI的能力、局限性和風(fēng)險; (2)尋找積極塑造AI系統(tǒng)的可靠性和可預(yù)測性的途徑。 此外,他還對AI的社會影響、心理測量學(xué)、認(rèn)知科學(xué)和AI安全性廣泛感興趣,尤其對LLM這樣的通用系統(tǒng)特別感興趣。 補(bǔ)充評測 為了更好地展示LLM存在不可靠性問題——難題能答對但在簡單題目上翻車(難度不一致性),無法回避超出模型能力的任務(wù)(任務(wù)回避),以及對提示詞的穩(wěn)定性,論文還附上了補(bǔ)充測評的結(jié)果。 研究人員針對o1-mini、o1-preview、Claude 3.5 Sonnet和Llama 3.1 405B Instruct Turbo做了數(shù)十個真實的評測,部分結(jié)果如下。 難度不一致性 在這里,每個LLM分別展示了1~2對示例,其中每對首先包含一個成功解決的困難任務(wù),另一個是同一領(lǐng)域的、但LLM犯錯的簡單任務(wù)。 比如,o1-preview在字謎任務(wù)中,可以識別出「tnelcccerneiumleoes」是單詞「electroluminescence」的順序顛倒,但對字謎「myyum」,卻給出了錯誤的響應(yīng)「mummy」。 o1-preview 復(fù)雜的科學(xué)任務(wù),回答正確 簡單任務(wù),回答錯誤(正確答案是A) o1-mini 復(fù)雜的轉(zhuǎn)換任務(wù),回答正確 簡單任務(wù),回答錯誤(正確答案是17-07-2004) Claude 3.5 Sonnet復(fù)雜的科學(xué)任務(wù),回答正確 簡單任務(wù),回答錯誤(正確答案是A) Llama 3.1 405B Instruct Turbo 復(fù)雜的加法任務(wù),回答正確 簡單的任務(wù),回答錯誤(正確答案是以214結(jié)尾) 復(fù)雜的字謎任務(wù),回答正確 簡單任務(wù),回答錯誤(正確答案是yummy) 任務(wù)回避 研究者從LLM無法解決的多個領(lǐng)域中隨機(jī)提取了一些非常有挑戰(zhàn)性的問題,結(jié)果發(fā)現(xiàn),模型的響應(yīng)始終過于自信。 o1-mini和o1-preview通常會花費50~140秒,甚至更長的時間來思考這些任務(wù)(最終也沒有做對),而不是簡單地說「我無法解決這個問題」。 o1-preview 在這道加法題上,o1-preview思考了55秒,然后給出了一個錯誤答案。 類似的題型,o1-preview這次思考了長達(dá)102秒,但還是做錯了。 對于下面這道具有挑戰(zhàn)性的轉(zhuǎn)換任務(wù),o1-preview花了80秒的時間來計算這個「錯誤答案」。 o1-mini 相比之下,o1-mini的思考時間會更快一些。 o1-mini只用了22秒,就給出了這道單詞重組游戲的「錯誤答案」。 (正確答案是entrepreneurialism) 在地理任務(wù)上,更是只用了幾秒的時間,但答案依然不對。 (正確答案是Shiprock) Claude 3.5 Sonnet同樣的問題,Claude 3.5 Sonnet也沒做出來。 加法: 地理: (正確答案是Shiprock) 科學(xué): (正確答案是A) Llama 3.1 405B Instruct Turbo Llama 3.1 405B Instruct Turbo也不出意外地敗下陣來。 加法: 字謎: (正確答案是compartmentalisation) 提示穩(wěn)定性在這里,研究人員證明,對于相同的問題,如果采用不同的提示詞,模型給出的回答也會不一樣。 以下所有例子都遵循相同的模式:首先是一個得到正確答案的提示詞示例,緊接著是一個詢問相同問題但使用不同提示詞的示例,而后者得到的卻是錯誤的答案。 o1-preview 地理: o1-mini 字謎: 科學(xué): Claude 3.5 Sonnet 轉(zhuǎn)換: Llama 3.1 405B Instruct Turbo 加法: 這些例子表明,目前LLM對于提示詞的穩(wěn)定性依舊不理想,將相同的問題換個說法,就可能導(dǎo)致模型答案發(fā)生顯著變化。 作者希望,未來在通用AI設(shè)計和開發(fā)方面,尤其是那些需要精確控制錯誤分布的高風(fēng)險領(lǐng)域,需要進(jìn)行根本的變革。 而且,在實現(xiàn)這一目標(biāo)之前,研究人員必須警惕,過度依賴人類監(jiān)督所帶來潛在風(fēng)險。 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選