前幾日,頻頻霸榜的綜藝《歌手》又一次沖上了熱搜。不過這次,話題的焦點無關(guān)“好聽”“難聽”,而是從臺上競演的嘉賓轉(zhuǎn)移到了臺下討論的網(wǎng)友身上。 13.8%和13.11%哪個大? 誰也沒有想到,這道本質(zhì)上源于小學四年級數(shù)學內(nèi)容的問題,居然難倒了一眾網(wǎng)友。 對此,有網(wǎng)友感嘆:“現(xiàn)在知道天天在網(wǎng)上抬杠的都是什么人了吧?”也有網(wǎng)友無奈回懟:“實在不知道誰大誰小,就去問問AI吧!” 然而,當你真的把這個問題拋給AI來解答,你會驚訝地發(fā)現(xiàn)——AI也不會。 AI2的研究員林禹臣在推特上貼出了自己用GPT-4o嘗試的結(jié)果。面對13.11與13.8哪個大這一問題,GPT-4o認為13.11大于13.8,并解釋稱:“雖然13.8看起來更大,因為它小數(shù)點后的數(shù)字更少,但13.11實際上更大。這是因為13.8相當于13.80,而13.80小于13.11! 對此,林禹臣評論說:“常識對AI來說仍然很難!薄斑@種常識性的人工智能失敗案例讓我不斷想起@YejinChoinka的TED 演講:為什么人工智能既聰明無比,又愚蠢至極! 大模型的作答現(xiàn)場 帶著這個問題,我們對當下主流模型進行了簡單的測試。其中,通義千問、文心一言、360智腦、字節(jié)豆包、百小應和訊飛星火都作出了正確的回答。不過在原因解釋方面,訊飛星火略顯遜色,其余模型則都是按照分開比較整數(shù)和小數(shù)部分的思路進行了較為詳細的回答。
而月之暗面旗下的kimi和ChatGPT在這一問題上則雙雙翻車。 當kimi被問到“13.11和13.8哪個大”時,它首先給出了13.11大于13.8的答案: 經(jīng)過進一步追問原因,kimi轉(zhuǎn)而又作出了截然不同的回答: 經(jīng)過第三次追問,kimi終于意識到自己在此前的回答中存在錯誤,對這一問題的答案進行了修改糾正: 反觀ChatGPT,就顯得不甚善于反思: 經(jīng)過兩次反問,ChatGPT表示自己對此前錯誤的回答感到抱歉,并承認13.8大于13.11。但當詢問它能否解釋原因時,它卻給出了這樣的回答:This is because the number 13.8 is read as "thirteen point eight," which is larger than "thirteen point eleven". 大模型為什么會“數(shù)學不好” 回答不好小學生數(shù)學題,人工智能大模型又一次被送上了輿論的風口浪尖。面對現(xiàn)今蓬勃發(fā)展的各類大模型,人們?nèi)杂幸蓱]: 這到底是人工智能,還是人工智障? 實際上,這一問題并不是最近才出現(xiàn)的,“數(shù)學不好”一直是各類大模型的短板。根據(jù)上海人工智能實驗室旗下司南評測體系OpenCompass進行的高考全卷測試結(jié)果,包括GPT-4在內(nèi)的七個大型人工智能模型在高考語文和英語科目的測試中普遍表現(xiàn)出色,然而在數(shù)學科目上則均未能達到及格線,最高分也僅達到了75分。 業(yè)內(nèi)人士將大模型“數(shù)學不好”的問題根源追溯至LLM(大型語言模型)的架構(gòu)設(shè)計本身。 LLM通常依賴監(jiān)督學習,特別是通過預測文本中下一個詞的方式來訓練。這一過程中,模型被投喂海量的文本數(shù)據(jù)集,學習并預測給定文本后下一個詞出現(xiàn)的概率分布。通過不斷將模型的預測與實際文本進行對比和調(diào)整,語言模型逐漸掌握了語言的內(nèi)在規(guī)律,從而能夠預測并生成連貫的文本。 然而在LLM的框架內(nèi),存在使用Tokenizer這一關(guān)鍵環(huán)節(jié)。它負責將輸入的文本分割成更小的單元(tokens),以便模型處理。問題在于,Tokenizer的設(shè)計初衷并非專門服務(wù)于數(shù)學處理,因此在處理包含數(shù)字的文本時,可能會將數(shù)字看做文本字符串而非數(shù)值,從而進行不合理地拆分,導致數(shù)字的整體性和意義在模型內(nèi)部被破壞。 對此,360CEO周鴻祎以9.9和9.11為例,進行了更為通俗的解釋: “大模型全稱叫大語言模型,它首先解決的是對人類自然語言理解的問題。所以大模型并沒有把9.9和9.11當成一個數(shù)字來看,而是把它們分成了兩個token。沒有經(jīng)過專門特別的提示和訓練,大模型是不懂阿拉伯數(shù)字也不懂數(shù)學的,所以大模型是按照一個文字的邏輯來進行比較的。9前面是一樣大的,那么11比9要大,所以就得出來9.11比9.9要大! 除了架構(gòu)設(shè)計存在不足外,大模型“數(shù)學不好”或許還與它所接受的訓練方式有關(guān)。主流模型的訓練主要源于互聯(lián)網(wǎng)的文本數(shù)據(jù),這類數(shù)據(jù)中數(shù)學問題和解決方案相對匱乏,也在一定程度上限制了模型在此類技能上的發(fā)展。 因此,在各類大模型井噴式誕生與發(fā)展的現(xiàn)在,也許我們也應當反思:AI該如何進一步設(shè)計與訓練,才能真正像人類一樣思考? 本文來源:網(wǎng)易科技 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選