o1 Pro挑戰(zhàn)最難本科數(shù)學(xué)考試,人類要考6小時,AI半小時交卷! 普特南數(shù)學(xué)競賽(The Putnam exam),今年剛剛舉行,卷子新鮮出爐就被拿來測試AI了。 這個比賽有多難呢?看了一下歷年成績,只能說令人咂舌—— 通常由數(shù)學(xué)專業(yè)的本科生參加,滿分120分,但平均分通常是0分或1分。 再看一組2003年的數(shù)據(jù),在3615名參賽學(xué)生中,有1024人(28%)得分10分或以上,42分就能進(jìn)入前1%。 最終,個人得分前五名的學(xué)生獲得普特南學(xué)者稱號。而經(jīng)過這種難度的“磨煉”,普特南學(xué)者中后來誕生了3位菲爾茲獎得主以及兩位諾貝爾物理學(xué)獎得主。 總之一句話,即使對美國頂尖大學(xué)的頂尖數(shù)學(xué)學(xué)生來說,這個比賽的難度都堪稱地獄級。 所以,o1 Pro具體表現(xiàn)如何呢?? o1 Pro挑戰(zhàn)最難本科數(shù)學(xué)考試 普特南數(shù)學(xué)競賽于每年12月的第一個周六舉行,總共上下兩場(每場3小時),每場6道題,每題10分,考查范圍覆蓋了本科數(shù)學(xué)中的高級概念,包括群論、集合論、圖論、格論和數(shù)論等。 由于剛考完,官方還未正式公布今年的參考答案,所以下面我們先整體感受一下。 從時間來看,Pro完成12道題用時36分鐘16秒,交卷速度非?,平均每道用時2~3分鐘。 完成的題也很復(fù)雜,隨機(jī)挑一道康康。 比如這道A6,需要考生通過序列所生成的函數(shù),來構(gòu)建矩陣,并最終計算出這個矩陣的行列式。 這是一個典型的組合數(shù)學(xué)和線性代數(shù)的交叉問題。 最終,Pro給出了一大堆讓人頭疼的數(shù)學(xué)公式進(jìn)行解答。(非專業(yè)選手兩眼一黑的程度) 為了進(jìn)一步了解Pro的答題過程,我們再挑一道網(wǎng)友們都在cue的題——A1。 原題及Dan Hendrycks博士輸入的提示詞如下: 大意為,確定所有正整數(shù),使得存在正整數(shù),和滿足下列方程。 Pro的作答過程如下,并得出答案為1: 結(jié)合網(wǎng)友們給出的評價,均提到Pro漏掉了n=2這種情況。 總之,從大家對Pro的打分來看,其回答質(zhì)量仍有待進(jìn)一步完善。 由于目前還沒有標(biāo)準(zhǔn)答案,因此AI究竟做對了多少還要等等結(jié)果。 除此之外,首位全職提示詞工程師Riley Goodside也對o1 Pro模式進(jìn)行了其他諸多測試。 挑戰(zhàn)指令跟隨的極限 比如用它設(shè)計一個7x7的網(wǎng)格,網(wǎng)格的外圍一圈填入7個字母的單詞,這些單詞代表Fantastic Four(神奇四俠)中每個成員的昵稱。每個單詞的首尾字母需要重疊,以便可以順時針方向連續(xù)閱讀,形成閉環(huán)。 PS:Fantastic Four包括漫威中的神奇先生(Mr. Fantastic)、隱形女(Invisible Woman)、霹靂火(Human Torch) 、石頭人(The Thing)。 看完這個測試,有網(wǎng)友借機(jī)許愿: 是否能夠根據(jù)每個玩家剩余的棋子列表,創(chuàng)建一個checkmate(指另一方無法解圍的情況,也稱“將死”)的棋盤。 受此啟發(fā),Riley Goodside轉(zhuǎn)頭就測上了。 他用Pro擺出了一個“將軍”格局——每位玩家只剩下兩個兵和一個車,棋盤上其他格子都是空的。(布局是人為設(shè)計的) 就這,還是他一番努力嘗試后的結(jié)果。他一開始用了兩個兵、兩個象和一個車的棋局,但在多次嘗試中,Pro出現(xiàn)了錯誤,或者返回了不符合的棋局。 不過他也提到,在5分45秒的時間內(nèi),Pro生成了與答案大致一致的COT思維鏈解釋。 總之,要問定價200美元的Pro到底值不值? 還是參考奧特曼的回答,絕大多數(shù)人用免費版或20美元版就足夠了,Pro版只適合很小一部分人,他們想要大量使用,且愿意為解決真正困難的問題付更多錢。 One More Thing 不過,如果你也心癢想要玩一玩,現(xiàn)在有個省錢的方法。根據(jù)網(wǎng)友提醒—— 月底買Pro,只需按比例支付了。 具體來說,如果你之前訂閱了ChatGPT Plus,如果在訂閱接近結(jié)束時升級到Pro版,就可以在剩余時間內(nèi)按照200美元的百分比支付。 參考鏈接: 文本來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選