最近,差評君發(fā)現(xiàn)了個新鮮玩意兒。 喂給 AI 一張圖,它就能給你推測出一個人的性格。 光靠歌單,就能把人最近的心理狀態(tài)推測個七七八八。 而這些,都出自 Kimi 最新的 k1 視覺思考模型之手。 這不,距離上次推出數(shù)學(xué)模型 k0-math 打榜 o1 才一個月, k1 就火速登場了。 當(dāng)然,這個 k1 可不止是像開頭那樣,只會看圖分析性格那么簡單。 上次咱測試 k0-math 的時候,已經(jīng)見識過了 “ 做題家 ” 的能力,那解題的思考過程給差評君都看得一愣一愣的。只可惜,有些繞邏輯的數(shù)學(xué)題還有幾何題,多少差了點意思。 但這次的 k1 就有說法了,既有推理能力又有視覺能力,意思就是可以直接拍照上傳解題,還號稱能在數(shù)理化上打平甚至超越 Open AI 的 o1 。 那要是這么比的話,咱可就來勁了。正好, k1 新模型現(xiàn)在也不需要等內(nèi)測, App 和網(wǎng)頁版都能用上,話不多說,我們直接開整。 上來,就扔了 K1 一道今年高考的幾何題。 首先, k1 對題干的解讀足夠細(xì)致,也知道自己的目標(biāo)到底是啥。 題目給定的條件中可能涉及到的余弦定理也考慮到了,就跟咱們在解題時的思維類似,看到 a² +b²− c² =2ab ,立馬會聯(lián)想到余弦公式 c² =a² +b² -2ab·cosC 。 再根據(jù)公式和條件繼續(xù)推導(dǎo),很快就能求出角 B=60 °。 往上滑動查看更多 第( 2 )題稍微難了那么一丟丟,但差評君仔細(xì)檢查了一遍 k1 的解題過程,思路和解法都沒毛病,最后邊長 c=2√2的答案也是對的。(因為這題 k1 的思考過程實在太太太長,截圖就不展示了。) 同樣的題目問 o1 ,首先在推理速度上, o1 的 58s 就已經(jīng)輸了。 正確率的話, o1 和 k1 打了個平手,都做對了。 不同的是, o1 把答題思路隱藏起來了,沒給像 k1 那樣的完整思考過程。 不過有一說一,差評君對 k1 模型這種模仿人類思考的方式,倒也不是特別吃驚。因為上次 k0-math 模型就已經(jīng)震驚過我一回了,能意識到自己的錯誤、還會進(jìn)行反復(fù)驗證的樣子,像極了寫數(shù)學(xué)題時絞盡腦汁的我。 相比之下,這次的 k1 在補(bǔ)短板方面更出彩一些,上次 k0-math 翻車的初中幾何題我又拿 k1 試了一次,現(xiàn)在已經(jīng)能做對了,就連上高考難度也不發(fā)怵。 而且我也發(fā)現(xiàn), k1 不僅擅長做數(shù)學(xué)題,物理題也不在話下。 接著,我又拿出了一道邏輯稍微有點繞的邏輯陷阱題試了試:一個西瓜進(jìn)價 50 元,賣價 70 元,老板收了 100 元假幣,最后虧多少錢? 這題打眼一看簡單,但網(wǎng)友關(guān)于這道題的答案那叫一個五花八門,有說虧 150 的,有說 180 的,還有說 100 的。。。 咱們就看看連很多人類都想不明白的題, k1 能不能瞧出來里面的陷阱。 而且,這道題我還特意手寫得比較潦草,順便也測一測 k1 的視覺能力到底是不是有宣傳的那么神。 你別說,你還真別說,這模型的 “ 眼神 ” 確實不賴。 題目的正確率方面, k1 前半部分的分析先得出了一個虧 100 元的答案,但很快它就否定了自己。 繼續(xù)把假幣、找零還有成本利潤這些復(fù)雜因素綜合考慮進(jìn)去,最后終于想明白老板虧了 80 元。( 正確答案是 80 元 ) 往上滑動查看更多 這邏輯能力,確實有點強(qiáng)。 包括我拿幾道行測的類比推理題給 k1 做了做,雖說邏輯分析的路徑跟參考答案的不太一樣,但最后的答案都是對的。 反正這一通測試下來,差評君發(fā)現(xiàn) k1 會思考有邏輯,眼神好使智商也高, Kimi 這 “ 做題家 ” 的名號算是坐實了。 不過除了做題以外,我這次還摸索出了更多花里胡哨的玩法。 分析數(shù)據(jù)、看報表沒啥意思, k1 模型不是會根據(jù)圖片來推理嗎,那想必鑒別古錢幣也應(yīng)該有一手吧? 差評君特地從網(wǎng)上找了一張民國時期銀元的圖片,兩枚銀元上假下真,發(fā)給 k1 ,淺淺來一把 “AI 版聽泉鑒寶 ” 。 圖源小紅書用戶@古玩今來(公博代理收評) k1 不僅知道錢幣是民國時期的,還對錢幣的各種細(xì)節(jié) kuku 一頓輸出,最后竟然真的看出來了上面這枚是假幣。 咱再隨便發(fā)一張房間的圖片,讓 k1 看看 “ 風(fēng)水 ” 。 什么 “ 氣口 ” 、對稱布局、能量平衡。。。說的頭頭是道,甚至還真給了建議,讓咱把床換個位置、定期修剪植物、換一個更簡潔的吊燈。 吃飯的時候給 k1 拍一張,這頓飯攝入了多少卡路里也算得明明白白。 不過最讓我覺得驚艷的,還是 k1 看圖猜電影的能力。 我給了它一張《 七宗罪 》的電影截圖,沒有臺詞只有畫面,對于很多沒看過這部電影的人來說,想猜出來都很難。 一開始看 k1 的分析我以為這把大概率要黃了,結(jié)果下一秒來一句 “ 拍攝角度和色調(diào)讓我想起了大衛(wèi) · 芬奇的電影 ” ,還推斷出了截圖里的畫面是《 七宗罪 》里的某一個場景。 真的太強(qiáng)了。。。 就連一些晦澀的梗圖丟給 k1 ,它也能一本正經(jīng)地講解笑點到底在哪。 雖然有點過度解讀的嫌疑,但大體上的意思基本都 get 到了。 就這么說吧,基于 k1 的視覺和推理能力,做題都是基操了,只要腦洞夠大,還可以解鎖出更多的玩法。 而 k1 的這種能力,很大程度要歸功于一個叫做COT ( Chain of Thought )思維鏈的技術(shù)。 大概意思就是,模型在輸出答案之前,模仿人類大腦的思考方式,把復(fù)雜的任務(wù)拆解之后,再一步步地解決。這個技術(shù),可以讓模型的智商變高。 另外一邊,借助強(qiáng)化學(xué)習(xí)技術(shù),也讓模型學(xué)會了在不斷試錯的過程中進(jìn)化,以此來達(dá)到最優(yōu)的結(jié)果,就跟訓(xùn)狗似的。 至于為啥 Kimi 會率先選擇數(shù)學(xué)這個場景作為推理模型的切入口,我想,跟咱們?nèi)祟悓W(xué)好數(shù)學(xué)鍛煉思維,是一個道理。 在模型 “ 學(xué)好數(shù)學(xué) ” 的基礎(chǔ)上,再將這種邏輯推理的能力應(yīng)用到物理、化學(xué),乃至于咱們?nèi)粘I畹姆椒矫婷,直到最后真正理解這個世界。 而很顯然, Kimi 推理模型的泛化能力已經(jīng)開始顯現(xiàn)出來了。 在數(shù)據(jù)見頂?shù)那疤嵯拢@種基于強(qiáng)化學(xué)習(xí)技術(shù)的路徑,或許能夠讓模型實現(xiàn)更好的效果。 不過說到底,模型用了哪些技術(shù)、紙面分?jǐn)?shù)有多高,大伙兒其實更關(guān)心模型到底好不好用、實不實用。 而向來以長文本見長的 Kimi ,如今長文本、強(qiáng)化學(xué)習(xí)兩手抓,也是調(diào)整自己的工具屬性慢慢往用戶需求靠攏的表現(xiàn)。 畢竟,當(dāng)技術(shù)不再高高在上,能幫助人們解決實際問題的時候,才算真正完成了它的使命。 本文來源:差評 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選