OpenAI o1 發(fā)布到現(xiàn)在,都快一個(gè)月了,但它給 AI 圈帶來的震撼和影響,其實(shí)才剛剛開始。 反正圈內(nèi)的不少大佬,直接就給 o1 來了一頓猛猛夸。大模型拆解用戶提問的能力,還有深度思考的能力,已經(jīng)成了大伙們卷的一個(gè)新方向。 但與此同時(shí),就像在等《 黑神話 · 悟空 》發(fā)售一樣,不少網(wǎng)友也和差評(píng)君一樣猴急,盼著國(guó)內(nèi)的大模型們,何時(shí)能有類似的產(chǎn)品出現(xiàn)。 也有差友在公眾號(hào)后臺(tái),一直私信,表示自個(gè)都被 o1 釣成翹嘴了,現(xiàn)在是吃不飽、睡不香,只想在國(guó)內(nèi)也用到類似深度思考的功能。 然而這一次,差評(píng)君發(fā)現(xiàn)還真有人給整出來了。。。 它便是年初,才剛掀起圈內(nèi)長(zhǎng)文本競(jìng)賽的 Kimi ,而這次他們發(fā)布的 Kimi 探索版,可以模擬人類的推理思考過程,自主分解復(fù)雜問題進(jìn)行深度搜索,還加上了即時(shí)反思的功能,幫助用戶完成分析調(diào)研。 更重要的,這次探索版,搜索量達(dá)到了普通版的 10 倍,一次搜索甚至可以精讀 500 個(gè)頁面。 翻譯一下,以前我們向 AI 提出復(fù)雜的提問,得在腦子里把預(yù)想的問題人為拆一下,讓 AI 一個(gè)一個(gè)答。而現(xiàn)在,不僅解放了雙手,還可以一次窮盡更多信源,只需想好問題, Kimi 就會(huì)像個(gè)分析師一樣來為你服務(wù)。 難怪產(chǎn)品負(fù)責(zé)人說, “ 如果 Kimi 搜不到的信息,大概率用戶也很難自己通過傳統(tǒng)搜索引擎找到答案 ” 。 今天一大早, Kimi 探索版在 PC 端開始了灰度測(cè)試,據(jù)說手機(jī)端很快就會(huì)上。 結(jié)果,用戶的火爆很快把 “ Kimi 崩了 ” 送上熱搜。 官方也很快發(fā)了致歉公告,并預(yù)告一下大概在周一,探索版的功能就會(huì)全量開放。 先給前段時(shí)間斷了網(wǎng)的差友們,用幾句話簡(jiǎn)單介紹一下 Kimi 的來頭。 這么說吧,差評(píng)君愿意把它稱之為國(guó)產(chǎn)大模型的一束光,光是在 PC 網(wǎng)頁端,今年以來 Kimi 的月訪問量就從 140 多萬漲到 2400 多萬,增長(zhǎng)了 1670 % 。 爆火到他們服務(wù)器一度宕機(jī)。資本市場(chǎng),甚至還炒作起了 Kimi 概念股。。。 這次發(fā)布的 Kimi 探索版,某些方面其實(shí)和 OpenAI o1 有點(diǎn)類似,那就是會(huì)解難題、懂思考了,但差評(píng)君覺得,它和 o1 還是有不少差異的。其中最大的不同,便是在使用場(chǎng)景上。 OpenAI o1 主打的,是能回答博士級(jí)別的問題,解比如物理、數(shù)學(xué)、生物上的難題等等。不過也因?yàn)檫@兒,差評(píng)君當(dāng)時(shí)在用上 o1 的第一時(shí)間,其實(shí)憋了好幾個(gè)題目沒敢問。 畢竟 Preview 版本一周只能提問 40 個(gè)問題,我生怕問得簡(jiǎn)單了,配不上博士級(jí)別的模型,浪費(fèi)了額度。。。 好在差評(píng)君靠人脈,找來了好幾位博士,和他們聯(lián)手和砍拿下三雙給 o1 上了一波壓力。當(dāng)然,最后博士們對(duì) o1 的評(píng)價(jià),也是相當(dāng)高。 而這次 Kimi ,則選擇了另外一條更實(shí)用、更接地氣的道路,那就是把思考和拆解問題的勁兒,聚焦在是和咱們普通人更近的生產(chǎn)力場(chǎng)景上,尤其是大學(xué)生、上班族們常干的調(diào)研分析類任務(wù)。 在體驗(yàn)了一番之后,我的評(píng)價(jià)是,如果 AI 也有 MBTI 的話:那它活脫脫就是一個(gè)思維和計(jì)劃縝密 & 執(zhí)行力強(qiáng)的 J 人。 首先,差評(píng)君發(fā)現(xiàn), Kimi 探索版在解答問題時(shí),真就和人思考時(shí)一個(gè)樣。 它會(huì)拆解長(zhǎng)難提問,自己規(guī)劃解答思路,最后分步驟并執(zhí)行任務(wù)。 就比如說國(guó)慶假期一過,在座的各位巴菲特們,估計(jì)股票賬戶里都是一片紅。 差評(píng)君給 Kimi 探索版的第一題便是:如果我們?cè)?5 年前,分別花了 10 萬人民幣,買入了比亞迪股票、茅臺(tái)股票、還有黃金,現(xiàn)在它們分別價(jià)值多少? 說實(shí)話,這題對(duì)咱們普通碳基生物而言,其實(shí)并不復(fù)雜,主要就是步驟有點(diǎn)多,得花個(gè)小幾分鐘才能算清楚。 而 Kimi 探索版把差評(píng)君的問題,成功拆解成了三步:先分別查 5 年前的價(jià)格,再查當(dāng)天的價(jià)格,最后計(jì)算并制表。 Kimi 也是三下五除二,在一分鐘不到的時(shí)間內(nèi),一步步得出了結(jié)果。 差評(píng)君也才知道,《 只 》要在 5 年前買入 10 萬人民幣的比亞迪股票,這會(huì)兒已經(jīng)價(jià)值 70 多萬了。 其實(shí)類似的問題,差評(píng)君其實(shí)也甩個(gè)隔壁的 Perplexity 試了試。。。但且不說表格沒畫清楚了,它抓取的五年前的股票和黃金價(jià)格,相比實(shí)際價(jià)格都偏差了不少。 它的表現(xiàn),我只能說 not even wrong 。 大概清楚了 Kimi 探索版能力的深淺之后,差評(píng)君也立馬給 Kimi 上了一波難度。 說實(shí)話,出去玩兒的時(shí)候,攻略往往是最燒腦和最讓人頭疼的了。 于是我的第二問便是:幫我查詢 9 月北京環(huán)球影城各個(gè)游樂項(xiàng)目,在一天不同時(shí)段的平均排隊(duì)時(shí)長(zhǎng),列出表格,再根據(jù)這個(gè)設(shè)計(jì)一條耗費(fèi)排隊(duì)時(shí)間最少的游玩路線。 光是看到這個(gè)題面,我就感覺自個(gè)兒的頭發(fā)在不停地掉。。。 Kimi 則依舊穩(wěn)如老狗,給出了搜游樂項(xiàng)目、搜索平均排隊(duì)時(shí)長(zhǎng)、設(shè)計(jì)路線這三步走的思考過程,并在閱讀了 53 個(gè)網(wǎng)頁后,按步驟來了一波解題。 最后的結(jié)果,也還真是井井有條。 相同的問題,差評(píng)君也在其他幾款主流的 AI 助手里試了試,而我看到最多的兩個(gè)字,卻是 “ 抱歉 ” 。。。 隨后,我也趁熱打鐵,給 Kimi 整上了網(wǎng)上那些讓人抓狂的咨詢機(jī)構(gòu)面試題。 其實(shí)這類題目,往往都沒有絕對(duì)的正確答案,它們考察的就是應(yīng)聘者臨場(chǎng)的邏輯思維、數(shù)據(jù)分析、問題解決和溝通表達(dá)能力。 大伙們也可以看一看 Kimi 的回答,能不能讓在座的各位面試官們信服。 問題:中國(guó) 2023 年的社會(huì)用電總量如果都用太陽能發(fā)電,需要多少平米的太陽能板,面積相當(dāng)于幾個(gè)足球場(chǎng)? 問題:如果所有鋼琴都定期調(diào)律,估算一下北京需要多少名全職的鋼琴調(diào)律師? 除了拆解和解決問題的能力,差評(píng)君還發(fā)現(xiàn), Kimi 探索版在信息的大量收集方面,簡(jiǎn)直就是啟動(dòng)了 V8 引擎,突出的就是一個(gè)馬力十足,能一次搜索幾十個(gè)關(guān)鍵詞,閱讀幾百個(gè)網(wǎng)頁。 就比如說,諾貝爾獎(jiǎng)?wù)陉懤m(xù)頒獎(jiǎng)中,如果讓一個(gè)普通的碳基生物,匯總一下近十年所有諾貝爾物理學(xué)獎(jiǎng)得主的姓名、生卒年月、還有國(guó)籍,并且統(tǒng)計(jì)出他們的平均獲獎(jiǎng)年齡。 反正看到這活兒,差評(píng)腦袋里已經(jīng)出現(xiàn)瀏覽器被幾十上百個(gè)網(wǎng)頁塞滿、電腦開始卡頓的畫面了。 而同樣的問題交給 Kimi ,在短短不到 1 分鐘的時(shí)間內(nèi), AI 一次性搜索了幾十個(gè)諾貝爾獎(jiǎng)得主的信息,并且閱讀了 200 多個(gè)網(wǎng)頁,從中匯總出來咱們想要的信息。 最后 Kimi 也是沉著冷靜,給出了計(jì)算結(jié)果:近十年諾貝爾物理學(xué)獎(jiǎng)得主的平均得獎(jiǎng)年齡,在 75 歲前后。 而 “ 在 2024 年《 財(cái)富 》中國(guó)科技 50 強(qiáng)企業(yè)中,哪些公司的總部在北京? ” 這個(gè)問題中,差評(píng)還發(fā)現(xiàn)了個(gè)有趣的現(xiàn)象,那就是 Kimi 正答著題目呢,自個(gè)兒就開始反思了。。。 在反思一番后,又補(bǔ)充上了兩個(gè)答案。 要是差評(píng)君當(dāng)年高考時(shí),也這么嚴(yán)謹(jǐn)?shù)仳?yàn)算,這會(huì)兒應(yīng)該不是個(gè)律師就是個(gè)醫(yī)生了吧。 另外差評(píng)君覺得,其實(shí)很多時(shí)候,咱們還有很多模糊搜索的需求。 特別是熬夜看球、通宵打游戲了之后,經(jīng)常記性不太好,常常連問題本身都記不太清了。。。 就比如前段時(shí)間,差評(píng)君想找個(gè)數(shù)學(xué)家的資料,但他的名字感覺就在我嘴邊,但卻死活想不出具體名字。只依稀記得了幾個(gè)特征,那就是:屬于歐洲的一個(gè)家族,哥哥、弟弟、父親都是數(shù)學(xué)家,他們互相之間還嫉妒彼此。 結(jié)果 Kimi 立馬就成功發(fā)現(xiàn),我要找的是數(shù)學(xué)家伯努利,還順帶把他們的 “ 族譜 ” 的都列出來了。 同樣 Kimi 也在答題時(shí),也進(jìn)入了反思和補(bǔ)充環(huán)節(jié),給回答又加了億點(diǎn)點(diǎn)細(xì)節(jié)。 提問:歐洲有一個(gè)家族,哥哥、弟弟、爸爸都是數(shù)學(xué)家,他們互相之間還嫉妒彼此,這個(gè)家族叫啥名字?展示一下他們各自的成就。 包括有時(shí)候記不起具體的公司名,咱只要還記得一些故事和細(xì)節(jié),也能順暢地搜索。 問題:上個(gè)世紀(jì)有個(gè)硅谷公司,做過類似 iPhone 的產(chǎn)品,這個(gè)公司叫什么,這個(gè)公司的早期員工后來參與了哪些重要公司的創(chuàng)立。 總的來說,綜合體驗(yàn)一波 Kimi 探索版后,差評(píng)君覺得 AI 幫助用戶解決的問題范圍,有了指數(shù)級(jí)擴(kuò)展,真的多了一位可以幫著快速收集、調(diào)研和分析的私人助理。對(duì)傳統(tǒng)搜索來說,也是一種顛覆。 說實(shí)話,從年初 Kimi 掀起的長(zhǎng)文本競(jìng)賽,咱就不難看出,其實(shí)除了那些 Benchmark 分?jǐn)?shù)、排行榜,普通用戶最在意的,還是大模型到底能給大伙們解決怎樣的痛點(diǎn)。 畢竟有了真正好用的工具,才好在發(fā)現(xiàn)和創(chuàng)造過程中,探索更大的世界。 所以 Kimi 探索版,真的讓我回不去了。 本文來源:差評(píng) |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來者必須面對(duì)越來越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。