首頁 > 科技要聞 > 科技> 正文

27億刀天價員工首個成果,谷歌版o1算出最難高考數(shù)學(xué)題!物理代碼難題閃電秒解

新智元 整合編輯:太平洋科技 發(fā)布于:2024-12-23 16:03

OpenAI十二天直播,殺瘋了的竟然是谷歌。

就在深夜,「谷歌版o1」Gemini 2.0 Flash Thinking突然發(fā)布。

跟o1的策略類似,它同樣是將更多計算能力投入「推理時計算」——即模型實際解決問題的時長。

但不一樣的是,F(xiàn)lash Thinking能清晰地展示思考過程。

一經(jīng)發(fā)布,它就直接屠榜Chatbot Arena。

從戰(zhàn)績來看,新模型在總榜位列第一,數(shù)學(xué)榜單第一,創(chuàng)意寫作第一,Hard Promt第一,視覺榜單第一!

舉一個比較復(fù)雜的概率問題的例子。

如果一直擲硬幣,直到得到「正正正」或「正反正」,得到其中一個的幾率和另一個的幾率之比是多少?

這種水平的概率題,絕大多數(shù)LLM都會折戟。

但模型展示出了詳細完備的思考過程,并行云流水般地在34.7秒內(nèi)就給出了最終答案——2:3。

現(xiàn)在,Gemini 2.0 Flash Thinking已經(jīng)在Google AI Studio和Vertex AI中上線了,開發(fā)者可以去免費測試。

對此,網(wǎng)友紛紛表示,明明是OpenAI的圣誕特別活動,怎么發(fā)出炸裂成果的全是谷歌?

現(xiàn)在都是谷歌每天欺負OpenAI

谷歌版o1徹底殺瘋了,全是第一

在LLM競技場上,Gemini 2.0 Flash Thinking連同Gemini-Exp-1206一起,「橫掃所有類別,榮登榜首」。

無論是復(fù)雜提示、代碼、數(shù)學(xué)、創(chuàng)意寫作、指令跟隨、長QA等等。

不過,這些排名并未包含OpenAI的完整o1模型。

但無論如何,F(xiàn)lash Thinking打了相當漂亮的一仗。

這個模型,大概率就是谷歌對打OpenAI o1系列的武器,而且,它很可能不是最強版本,或許還有Pro或Ultra Thinking的存在。

據(jù)外媒THE DECODER報道,F(xiàn)lash Thinking似乎是著名AI研究員Noam Shazeer進入谷歌后的首個工作成果。

如果果真如此,谷歌27億美元天價請回天才老員工的這筆買賣,也算值了。

Shazeer是著名論文「Attention is All You Need」的作者之一

在80百分位的情況下,F(xiàn)lash Thinking的響應(yīng)速度幾乎是o1-mini的2倍!

比如下面這道題,OpenAI的o1和o1 Pro分別用了102秒和138秒,而Gemini 2.0 Flash Thinking只花了14秒。

一舉沖頂成為最強理科生,最難高考題也不在話下

有人嘗試把號稱「史上最難」的高考數(shù)學(xué)題扔給Flash Thinking,它居然也給出了準確的回答。

這種表現(xiàn),震驚了所有網(wǎng)友。

要知道,這道題連o1都做不出來。

而且更為厲害的是,這道題是中文題。

能做出數(shù)學(xué)高考題的含金量,不用詳細解釋了。

畢竟,中國的高考可是被Erudera評為地球上最難的考試。

而在Chatbot Arena的數(shù)學(xué)領(lǐng)域中,F(xiàn)lash Thinking對比Flash同樣也有著顯著性進步。

在物理方面,F(xiàn)lash Thinking展示了是如何解決一道物理題并闡明其推理過程。

演示中的題目為:一個電子被限制在一個一維無限深勢阱中,勢阱壁位于x=- 0.15nm和x=+0.15nm處。求出電子在勢阱中能級躍遷時發(fā)射的四種最長波長的光子。

Flash Thinking首先會將問題本身復(fù)述清晰,接著就開始進行逐步思考問題的求解步驟。

經(jīng)過16.9s的計算分析后,F(xiàn)lash Thinking給出了最終答案,即為98.9nm,59.3nm,42.4nm ,37.1nm。

還展示了Flash Thinking如何處理涉及涉及視覺和文本線索的挑戰(zhàn)性難題。

演示中使用者首先上傳了一張有四個臺球的圖片,并提問道「我能怎么使用這其中的三個數(shù)字使其總和為30?」

在這個演示中,有一個很有趣的地方就在于中間第二個臺球既可以識別為9,也可以顛倒一下,識別為6。

Flash Thinking在首次嘗試中先是將其識別為正常觀察的9,但是發(fā)現(xiàn)并不能實現(xiàn)問題的求解。

于是,他很聰明的做出了一個判斷:「在題目中并沒有清楚的說明每個數(shù)字只能出現(xiàn)一次」。

于是它開始嘗試將數(shù)字進行重復(fù)利用,但是還是無法實現(xiàn)問題的求解。

接著,有趣的地方便來了,它出奇地想到了可以把9識別為顛倒的6,這說明它成功地察覺到了這不僅僅只是一個數(shù)字游戲,而是實際上可以翻滾的臺球。

最終得到了問題的正確答案:利用11、13、6三個數(shù)字即可實現(xiàn)總和為30。

整個思考過程清清楚楚,一目了然。

從解題過程中可以看出,Gemini 2.0 Flash Thinking不僅能夠?qū)崿F(xiàn)處理多模態(tài)信息,在求解實際的問題方面,它不再是曾經(jīng)的大模型那種較為機械死板的智能水平,而是像人一樣能夠?qū)W會去多視角地變通看待問題,最終靈活地得到問題的解決方案。

谷歌DeepMind研究者讓Thinking模型嘗試用不同方法,求解普特南2024的一到數(shù)學(xué)題,然后自我驗證答案是否正確。

35.9秒內(nèi),模型給出了答案。

網(wǎng)友實測

手快的網(wǎng)友們,已經(jīng)紛紛甩給了Gemini 2.0 Flash Thinking一堆難題。

網(wǎng)友們給出的題目,難度都不小。

比如這道數(shù)列問題,要求寫出一個數(shù)列的前六個數(shù)字,其中每個數(shù)字都是前一個數(shù)字的三倍,且第一個數(shù)字是2。

最終,模型給出了正確答案——E。

這位網(wǎng)友實測后發(fā)現(xiàn),新模型的推理能力實在強大,不光破解了單詞網(wǎng)格難題,甚至連復(fù)雜的經(jīng)濟學(xué)問題都做得出來。

設(shè)想太陽能和模塊化核反應(yīng)堆的廣泛應(yīng)用帶來了巨大的能源供應(yīng),從經(jīng)濟學(xué)的角度深入思考未來十年可能出現(xiàn)的經(jīng)濟變化。請詳盡地分析可能產(chǎn)生的影響。

模型給出的答案是:通貨膨脹率會下降,經(jīng)濟環(huán)境會發(fā)生重大變化。

結(jié)論:變革的十年如果太陽能和模塊化核反應(yīng)堆(SMR)電力的充足性和可負擔(dān)性得以實現(xiàn),未來十年將見證一場深刻的經(jīng)濟變革。我們可以預(yù)期通貨膨脹率下降,經(jīng)濟環(huán)境發(fā)生重大變化。

Hallid.ai聯(lián)創(chuàng)indigo給了它一道填數(shù)題,Thinking只需要20秒就做出來了。

而且給出了正確答案。

相比之下,o1就花了40秒,而且還錯了。

不過,不知道是不是測試版的原因,F(xiàn)lash Thinking能不能數(shù)清楚「草莓」里的r,似乎完全取決于你給了啥prompt……

相比之下,我們在本地跑的QWQ,可以輕松解決這個問題。

參考資料:

https://x.com/JeffDean/status/1869789813232341267

https://the-decoder.com/googles-gemini-2-0-flash-thinking-is-googles-answer-to-openais-o1/

本文來源:新智元

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部