沒(méi)眼看……“9.11和9.9哪個(gè)大”這樣簡(jiǎn)單的問(wèn)題,居然把主流大模型都難倒了?? 強(qiáng)如GPT-4o,都堅(jiān)定地認(rèn)為9.11更大。 谷歌Gemini Advanced付費(fèi)版,同樣的口徑。 新王Claude 3.5 Sonnet,還一本正經(jīng)的給出離譜的計(jì)算方法。
到這一步還是對(duì)的,但下一步突然就不講道理了
這你還解釋啥啊解釋,簡(jiǎn)直要懷疑是全世界AI聯(lián)合起來(lái)欺騙人類了。 艾倫AI研究所成員林禹臣換了個(gè)數(shù)字測(cè)試,GPT-4o依舊翻車,他表示:
也有網(wǎng)友發(fā)現(xiàn)了華點(diǎn),如果是說(shuō)軟件版本號(hào),那么9.11版本確實(shí)比9.9版本更大(更新)。 而AI都是軟件工程師開(kāi)發(fā)的,所以…… 那么,究竟是怎么回事? 先進(jìn)大模型集體翻車 一覺(jué)醒來(lái),一眾響當(dāng)當(dāng)?shù)拇竽P烷_(kāi)始認(rèn)為“9.11>9.9”了? 發(fā)現(xiàn)這個(gè)問(wèn)題的是Riley Goodside,有史以來(lái)第一個(gè)全職提示詞工程師。 簡(jiǎn)單介紹下,他目前是硅谷獨(dú)角獸Scale AI的高級(jí)提示工程師,也是大模型提示應(yīng)用方面的專家。 最近他在使用GPT-4o時(shí)偶然發(fā)現(xiàn),當(dāng)提問(wèn):
GPT-4o竟毫不猶豫回答前者更大。 面對(duì)這一常識(shí)性“錯(cuò)誤”,他不死心地又去問(wèn)了其他大模型,結(jié)果幾乎全軍覆沒(méi)。 好家伙,身為一名提示工程師,他敏銳意識(shí)到可能是“打開(kāi)方式有誤”。 于是他又換了個(gè)問(wèn)法,將提問(wèn)限定在“實(shí)數(shù)”,結(jié)果還是翻車了。 不過(guò),有網(wǎng)友試著給提問(wèn)換了個(gè)順序,沒(méi)想到這下AI竟反應(yīng)過(guò)來(lái)了。 看到AI對(duì)詞序如此“敏感”,該網(wǎng)友進(jìn)一步推測(cè):
看到這里,其他網(wǎng)友也紛紛拿相同提示試了一把,結(jié)果翻車的不在少數(shù)。 面對(duì)這一個(gè)詭異的問(wèn)題,國(guó)產(chǎn)大模型表現(xiàn)如何呢? 我們簡(jiǎn)單測(cè)試一番,問(wèn)題也換成中文提問(wèn),結(jié)果翻車率也比較高,選取幾個(gè)有代表性的展示: Kimi也是不加解釋就直接給出錯(cuò)誤結(jié)論。 智譜清言APP上的ChatGLM,自動(dòng)觸發(fā)了聯(lián)網(wǎng)查詢,然后描述了自己的比較方法,可惜卻執(zhí)行錯(cuò)了。 不過(guò)也有表現(xiàn)不錯(cuò)的,騰訊元寶先復(fù)述了一遍選項(xiàng),然后直接做對(duì)。 字節(jié)豆包是少數(shù)能把比較方法描述清楚,而且用對(duì)的。甚至還聯(lián)系實(shí)際舉例來(lái)驗(yàn)證。 比較可惜的是文心一言,面對(duì)這個(gè)問(wèn)題,也是觸發(fā)了聯(lián)網(wǎng)查詢。 本來(lái)都已經(jīng)做對(duì)了,但突然話鋒一轉(zhuǎn)又導(dǎo)向了錯(cuò)誤結(jié)論。 不過(guò)從文心一言的思路解釋上,也可以看出背后問(wèn)題所在。 由于大模型以token的方式來(lái)理解文字,當(dāng)9.11被拆成“9”、“小數(shù)點(diǎn)”和“11”三部分時(shí),11確實(shí)比9大。 由于OpenAI使用的Tokenizer開(kāi)源,可以用來(lái)觀察大模型是如何理解這個(gè)問(wèn)題。 上圖可以看出,9和小數(shù)點(diǎn)分別被分配為“24”和“13”,小數(shù)點(diǎn)后的9同樣也是“24”,而11被分配到“994”。 所以使用這種tokenizer方法的大模型會(huì)認(rèn)為9.11更大,其實(shí)是認(rèn)為11大于9。 也有網(wǎng)友指出,像是書(shū)籍目錄里第9.11節(jié)也比第9.9節(jié)大,所以最終可能還是訓(xùn)練數(shù)據(jù)里見(jiàn)這種見(jiàn)得多了,而手把手教基礎(chǔ)算數(shù)的數(shù)據(jù)很少。 也就是問(wèn)題本身對(duì)人類來(lái)說(shuō),一看就知道問(wèn)的是算數(shù)問(wèn)題,但對(duì)AI來(lái)說(shuō)是一個(gè)模糊的問(wèn)題,并不清楚這兩個(gè)數(shù)字代表什么。 只要向AI解釋明白這是一個(gè)雙精度浮點(diǎn)數(shù),就可以做對(duì)了。 在有額外條件的情況下,tokenizer這一步依然會(huì)給11分配更大的token。但是在后續(xù)自注意力機(jī)制的作用下,AI就會(huì)明白要把9.11連起來(lái)處理了。 后來(lái)Goodside也補(bǔ)充,并不是說(shuō)大模型無(wú)論如何都認(rèn)定了這個(gè)錯(cuò)誤結(jié)論。而是當(dāng)以特定方式提問(wèn)時(shí),許多領(lǐng)先模型都會(huì)告訴你9.11>9.9,這很奇怪。 經(jīng)過(guò)反復(fù)嘗試后他發(fā)現(xiàn),想讓AI上這個(gè)當(dāng),需要把選項(xiàng)放在提問(wèn)前面,如果調(diào)換順序就不會(huì)出錯(cuò)。 但是只要選項(xiàng)在問(wèn)題前面,改變提問(wèn)的方式,如加標(biāo)點(diǎn)、換詞匯都不會(huì)有影響。 雖然問(wèn)題很簡(jiǎn)單,錯(cuò)誤很基礎(chǔ)。 但了解出錯(cuò)原理之后,許多人都把這個(gè)問(wèn)題當(dāng)成了檢驗(yàn)提示詞技巧的試金石,也就是:用什么提問(wèn)方法能引導(dǎo)大模型的注意力機(jī)制正確理解問(wèn)題呢? 首先,大名鼎鼎的Zero-shot CoT思維鏈,也就是“一步一步地想”,是可以做對(duì)的。 不過(guò)角色扮演提示,在這里作用就有限了。 剛好最近也有微軟和OpenAI都參與的一項(xiàng)研究,分析了1500多份論文后發(fā)現(xiàn),隨著大模型技術(shù)的進(jìn)步,角色扮演提示不像一開(kāi)始那樣有用了…… 具體來(lái)說(shuō),同一個(gè)問(wèn)題提示“你是一個(gè)天才……”比“你是一個(gè)傻瓜……”的正確率還低。 也是讓人哭笑不得了。 One More Thing 與此同時(shí),路透社的更新了。 更新內(nèi)容為:另一位線人報(bào)告,OpenAI已經(jīng)在內(nèi)部測(cè)試了新模型,在MATH數(shù)據(jù)集上得分超過(guò)90%。路透社無(wú)法確定這是否與“草莓”是同一個(gè)項(xiàng)目。 MATH數(shù)據(jù)集包含競(jìng)賽級(jí)別的數(shù)學(xué)題,目前不用多次采樣等額外方法,最高分是谷歌Gemini 1.5 Pro數(shù)學(xué)強(qiáng)化版的80.6%。 但是OpenAI新模型在沒(méi)有額外提示情況下,能不能自主解決“9.11和9.9哪個(gè)大?”。 突然沒(méi)信心了,還是等能試玩了再看結(jié)果吧…… 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。