Kimi新模型來襲,且發(fā)布即上線可用! 就在數(shù)學(xué)模型k0-math剛發(fā)布后沒幾天,視覺思考模型k1就來了,多項思考推理測試超越Open AI o1。 官方表示,基于強化學(xué)習(xí),k1原生支持端到端圖像理解和思維鏈技術(shù)。 換句話說,k1能夠深入圖片信息抽絲剝繭,層層推理,由此解鎖了包括幾何圖形題在內(nèi)更加全面的數(shù)學(xué)能力。 模型思索答案的全過程,belike: 并且k1的思考能力不僅僅局限于數(shù)學(xué)領(lǐng)域,正所謂“學(xué)好數(shù)理化,走遍天下都不怕”。 在官方曬出的數(shù)理化基準(zhǔn)測試中,Kimi k1-preview表現(xiàn)全面超越OpenAI o1、GPT-4o、Claude 3.5 Sonnect。 這次Kimi新模型的發(fā)布還是直接上線可玩的那種,APP或是網(wǎng)頁版找到“Kimi視覺思考版”即可上傳圖片點擊使用。 話不多說,這就趕緊來實測一波~ 數(shù)理化第一波實測 先來一道考研數(shù)學(xué)真題小試牛刀,這道題目涉及的知識點包括曲面積分、高斯定理等: 之前在量子位的實測中,這道題難住了GPT-4o。 而Kimi視覺思考版經(jīng)過一步步詳細(xì)推理,第一次就給出了正確答案。 它自己也表示進行了檢查沒有錯誤,“對這個答案非常有信心”。 再來一道曾經(jīng)測試過o1的數(shù)學(xué)概論題。 一個外星人來到地球后, 自我毀滅;分裂成兩個外星人;分裂成三個外星人;什么都不做。 此后每天,每個外星人均會做1次選擇,且彼此之間相互獨立, Kimi視覺思考版也一次就做對了: 數(shù)學(xué)能力看完后,再來小試一下物理題。 下面這道題是大學(xué)物理中的光學(xué)題: 在雙縫干涉實驗中,波長λ= Kimi視覺思考版成功回答對。 而且其實它早早就給出了正確答案,但還是嚴(yán)謹(jǐn)?shù)赜貌煌姆椒ǚ磸?fù)驗證確認(rèn)后給出答案。 最后再來一道“化學(xué)題”(doge): Candy, Happy, Bacon, Scary, Brain, House Which is the odd one? Hint: Chemistry Kimi視覺思考版在推理過程中幾經(jīng)曲折,但最后答案還是正確的(happy)。 除了發(fā)布新模型,k1背后的的技術(shù)大方向也被月之暗面公開了。 基于強化學(xué)習(xí)的新一代推理模型 據(jù)介紹,k1是他們基于強化學(xué)習(xí)技術(shù)的新一代模型,稱為思考模型,真正意義上實現(xiàn)了端到端的圖像理解和思考能力。 從模型訓(xùn)練上來看,分為兩個階段:先通過預(yù)訓(xùn)練得到基礎(chǔ)模型,再在基礎(chǔ)模型上進行強化學(xué)習(xí)后訓(xùn)練。 最為關(guān)鍵的是,k1遵循強化學(xué)習(xí)Scaling Law,在強化學(xué)習(xí)后訓(xùn)練在數(shù)據(jù)質(zhì)量和學(xué)習(xí)效率方面做了進一步優(yōu)化。 傳統(tǒng)基于文本的推理模型,或者不支持圖像信息輸入,或者需要借助外部OCR/視覺模型進行轉(zhuǎn)換,效果有明顯損失。 而Kimi視覺思考版由于是原生的端到端視覺推理模型,視覺+推理,可直接理解圖片信息并進行深度推理。 在“噪聲”場景,即拍攝圖片模糊、手寫字跡潦草等情況下,性能損失幅度也較小。 既然如此,把思路打開,除了讓它做數(shù)理化推理題,或許還可以拿一堆圖讓它幫忙推理出任何我想知道的內(nèi)容。 比如把朋友的“歌單”截圖發(fā)給它,讓它給我分析一下這位朋友的MBTI。 你還別說,k1的推理有理有據(jù),先理解MBTI是什么,然后像偵探似的仔細(xì)分析圖片中的曲目并進行分類,接著尋找這些歌手、風(fēng)格之間的相似之處。 它甚至還會“平衡矛盾特征”,即使給出了猜測還會多加一步“驗證”。 最終才會給出一個比較合理的猜測。 再比如,或者還可以拿出這么一份字跡潦草模糊的手寫稿,讓它幫我推理出這是誰寫的、筆記內(nèi)容在講什么。 思路再次被打開。 最后不得不說的是,最近這幾天國內(nèi)外大模型新進展真不少,前有谷歌,現(xiàn)在還有Kimi,OpenAI“圣誕節(jié)直播12天”可謂是被一而再再而三的“狙擊”了。 你覺得Kimi新模型的表現(xiàn)如何?感興趣的童鞋不妨親自上手考考它~ 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選