首頁 > 科技要聞 > 科技> 正文

百川新模型沖頂中文測試基準(zhǔn)!首款A(yù)I助手“百小應(yīng)”同時(shí)發(fā)布,“最懂搜索”

量子位 整合編輯:太平洋科技 發(fā)布于:2024-05-26 21:20

王小川在搜索時(shí)期種下的種子,在大模型時(shí)代又開花了。

他創(chuàng)業(yè)的百川智能,剛剛發(fā)布了自家首款A(yù)I應(yīng)用,to C的“百小應(yīng)”。

乍一看,這就是個當(dāng)下大熱門的AI助手,但官方強(qiáng)調(diào),這個AI助手啊,它懂搜索,還會引導(dǎo)式提問。

你別說,當(dāng)“搜索”和“王小川”這兩個詞放到一起的時(shí)候,就格外讓人想仔細(xì)一探究竟。

百小應(yīng)不僅可以隨時(shí)回答用戶提出的各種問題,速讀文件、整理資料、輔助創(chuàng)作等,還具備多輪搜索、定向搜索等能力,能更精準(zhǔn)地理解和滿足用戶需求。

百川解釋,讓模型掌握專業(yè)的搜索技能,是為了給用戶“提供專業(yè)、豐富的知識和資源”。

并且,它還支持用戶通過語音進(jìn)行交互。

我們試過了,大家現(xiàn)在可以在iOS商店、安卓應(yīng)用市場、百川智能官網(wǎng)下載百小應(yīng)App,或者通過Ying.ai的Web端免費(fèi)使用

而百小應(yīng)背后,是百川智能終于亮相的新一代基座大模型,Baichuan 4。看到前面能語音交互就能隱隱猜到,這次百川推出的大模型具備多模態(tài)能力。

一經(jīng)發(fā)布就立刻上戰(zhàn)場了,丟給SuperCLUE(通用大模型綜合性中文測評基準(zhǔn)),以總得分80.64分刷新了國內(nèi)紀(jì)錄,中文綜合能力測試更是以1.51分的優(yōu)勢險(xiǎn)勝GPT-4-Turbo-0125。

亮出Baichuan 4,連同發(fā)布懂搜索、會提問的AI助手百小應(yīng),朝規(guī)劃的超級模型和超級應(yīng)用更進(jìn)一步,百川智能今年一改以往月更上新的頻率,原來是憋了個大活……

百小應(yīng),怎么用?

百小應(yīng),百川智能成立一年多來推出的首款A(yù)I應(yīng)用。

和大多數(shù)AI助手一樣,它也是個通才,無論是長文本閱讀還是多模態(tài)理解,都是它具備的基礎(chǔ)能力。

不過還是想先跟大家一起來看一下它區(qū)別于所有AI助手產(chǎn)品最特別的點(diǎn),百小應(yīng)它懂搜索、會提問。

怎么個懂搜索法?融合Baichuan 4通用能力和百川搜索技術(shù),百川展示了百小應(yīng)的3種懂法。

一是會定向搜索。

提一個問題,百小應(yīng)能精準(zhǔn)定位問題領(lǐng)域,然后直奔權(quán)威站點(diǎn)提取重點(diǎn)信息,豐富輸出。

主打一個快速和準(zhǔn)確。

二是能多輪搜索

每一個問題,百小應(yīng)都能針對它進(jìn)行逐步解析,搞清楚問題背后到底想要的是什么,然后再給出關(guān)鍵答案。

相比單輪搜索,在市場調(diào)研、產(chǎn)業(yè)分析等復(fù)雜場景下,多輪搜索能夠有效地獲取更專業(yè)、更有深度的信息。

三是可以提供嵌入式搜索結(jié)果

簡單來說,就是與其它AI在單次搜索后“總結(jié)網(wǎng)頁信息”的簡單調(diào)用不同,百小應(yīng)是將搜索結(jié)果作為觀點(diǎn)、論據(jù)直接應(yīng)用到問答結(jié)果中。

“像Perplexity那種,叫總結(jié)搜索結(jié)果,我們認(rèn)為那個方向應(yīng)該是搜索2.0要做的工作,搜索引擎公司自己就能干,不是我們要做的!

同時(shí)在輸出時(shí),百小應(yīng)比較講求結(jié)構(gòu)化輸出

也就是將關(guān)鍵信息以描述+表格的形式來給出,讓回答更清晰,重點(diǎn)一目了然。

多輪、定向、嵌入搜索等技術(shù)加持,得到的結(jié)果就是百小應(yīng)懂搜索。

團(tuán)隊(duì)明確了解,模型+搜索技術(shù)的融合確實(shí)可以提升模型回答的準(zhǔn)確性、降低幻覺,但只有技術(shù)是不夠的,需要產(chǎn)品設(shè)計(jì)上有配套的解決方案。

就上手體驗(yàn)的初步感觀來說,懂搜索帶來的好處,既能提高AI輸出回答的準(zhǔn)確性、時(shí)效性,降低幻覺;也能增加回答中的觀點(diǎn)、案例、數(shù)據(jù)等,使模型的回答更豐富、更鮮活。

說完百小應(yīng)懂搜索,再來說說它會提問是怎么個情況。

非專業(yè)提示詞工程師,一般和AI對話時(shí)的需求描述都比較籠統(tǒng),不會特別精確。

百小應(yīng)會提問就是針對這種情況準(zhǔn)備的,在用戶問題的基礎(chǔ)上,通過提問一步步引導(dǎo),幫助用戶清晰表達(dá)自身需求。

上面這些對百小應(yīng)產(chǎn)品設(shè)計(jì)理念的思考和技術(shù)實(shí)現(xiàn)都是為了降低普通人使用AI助手的門檻,對普通用戶來說還是很友好的。

當(dāng)然了,說到底是為了最后給出一個用戶真正用得上的答案。

前面提到,百小應(yīng)對長文本閱讀和多模態(tài)理解也是得心應(yīng)手,下面放幾個showcase,大家也可以自己上手體驗(yàn)一下(捉蟲和找bug,簡直是大模型時(shí)代咱們最喜聞樂見的事兒了)。

多模態(tài)測試結(jié)果,還比較nice,博物館里的半面雕塑頭像也能精準(zhǔn)識別出:

長文本能力,讓它讀財(cái)報(bào)也順利過關(guān):

一通體驗(yàn)下來,感覺日常對話、辦公場景、搜索求知、多模態(tài)識別……百小應(yīng)的可應(yīng)用場景還是挺多的。

但百川智能創(chuàng)始人兼CEO大膽開麥,這并不是他此前提到過會推出的超級應(yīng)用。

“現(xiàn)階段市場上,既沒有超級模型,也沒有超級應(yīng)用。”

用他的話說,百小應(yīng)目前是個AI助手,是大模型時(shí)代,用戶手里的應(yīng)用從“工具”化身“伙伴”的中間態(tài)。

整個過程,是逐步發(fā)展、逐步滿足用戶需求的過程。

背后模型Baichuan 4首戰(zhàn)登頂

開頭咱就提到過,百小應(yīng)背后,是百川智能推出的Baichuan系列模型最新版本Baichuan 4。

也是百川智能入局大模型以來推出的第一款多模態(tài)模型。

相較前代基座模型Baichuan 3(今年1月底發(fā)布),Baichuan 4在各項(xiàng)能力上的提升還挺明顯。

其中指令跟隨提升20%,信息理解提升9%,知識問答提升15%,創(chuàng)作提升16%,邏輯推理提升15%;專項(xiàng)能力方面,數(shù)學(xué)提升14%,代碼提升9%。

首戰(zhàn)告捷,在OpenAI長期霸榜的SuperCLUE綜合基準(zhǔn)上,Baichuan 4一出手就拿下了第一

總得分80.64分,超過前一個榜一大模型0.61分。

真的是險(xiǎn)勝……

然而分差雖小,但眾所周知在大模型時(shí)代,哪怕0.01分也顯得彌足珍貴。

怎么做到的呢?

訓(xùn)練過程中,Baichuan 4引入的技術(shù)優(yōu)化手段,包含基于model-based+human-based的協(xié)同數(shù)據(jù)篩選優(yōu)化,對長文本建模位置編碼科學(xué)的Scaling-law,有效提升了模型對數(shù)據(jù)的利用。

對齊階段,團(tuán)隊(duì)重點(diǎn)優(yōu)化Baichuan 4模型Reasoning、Planning、Instruct Following能力,通過Loss驅(qū)動的數(shù)據(jù)選取與訓(xùn)練,多階段爬坡,多模型參數(shù)融合等方式。

不僅如此,團(tuán)隊(duì)在這一階段還提出了Sequential Preference Optimization(SPO)方法,通過順序微調(diào)LLMs以與人類偏好的多個維度保持一致,關(guān)鍵指標(biāo)和模型穩(wěn)定性得到顯著提升。

同時(shí)突破RLHF和RLAIF融合的RLxF強(qiáng)化學(xué)習(xí)對齊技術(shù),大幅提升模型的指令遵循等能力。

此外,Baichuan 4還具備行業(yè)領(lǐng)先的多模態(tài)能力,在MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista等評測基準(zhǔn)上表現(xiàn)優(yōu)異,領(lǐng)先Gemini Pro、Claude3-Sonnet等多模態(tài)模型。

不過,這次Baichuan 4可沒走開源路線

王小川大方對此做出了回應(yīng):“去年我們率先挑起開源,是百川團(tuán)隊(duì)入局大模型的投名狀,當(dāng)時(shí)國內(nèi)開源環(huán)境非常不成熟。我們挑起開源這件事,也對國內(nèi)開源行業(yè)產(chǎn)生了重要貢獻(xiàn),現(xiàn)在開源領(lǐng)域已經(jīng)有很多玩家在競爭了”。

朋友們,要相信市場的調(diào)節(jié)機(jī)制啊——王小川說。

Baichuan 4閉源了,但API供應(yīng)依舊。

新一代基座模型對外開放后,一口氣開放四款模型API,分別是Baichuan 4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API。

同時(shí)也分旗艦版和專業(yè)版,旗艦版全量開放Baichuan 4的各項(xiàng)能力;專業(yè)版則為Baichuan3-Turbo,價(jià)格比旗艦版實(shí)惠,性能比Baichuan 2更好,且針對企業(yè)的高頻應(yīng)用場景做了針對性優(yōu)化。

有趣的是,雖然Assistant API也直接開放給企業(yè)用戶免費(fèi)試用,但面對近期熱火朝天的大模型價(jià)格戰(zhàn),百川的態(tài)度很明確:

什么,價(jià)格戰(zhàn)?婉拒了哈。

一來,王小川明確自家主要是吃to C這碗飯的,云廠商的價(jià)格戰(zhàn),對百川沒啥影響。

二來,他立場堅(jiān)定,認(rèn)為未來肯定會卷,但大家現(xiàn)在太狠了,“在中國市場,API服務(wù)其實(shí)對創(chuàng)業(yè)公司是走不通的”。

王小川進(jìn)一步闡述自己的觀點(diǎn):

“如果只是從商業(yè)角度來看的話,中國當(dāng)前的商業(yè)環(huán)境里面To B比To C大概本身就小了10倍,在美國,中國B端市場這樣的情況是不存在的;

其次,在做數(shù)據(jù)時(shí)會發(fā)現(xiàn),你現(xiàn)在收的是人民幣,但花的算力卻是美元,這其實(shí)又有一個中美API服務(wù)市場的巨大區(qū)別。”

對于百川智能而言,內(nèi)部一致認(rèn)為一定要做有差異化的事情。

“只是卷價(jià)格的話,可能頭部創(chuàng)業(yè)公司走低價(jià)是一個優(yōu)勢,但你想價(jià)格低就變成競爭力的話,往市場走這樣其實(shí)是不夠的!

為什么首款to C產(chǎn)品長這樣?

去年,王小川幾度對外公開發(fā)言,表示2024年有可能會誕生若干大模型超級應(yīng)用。

不出意外的話,這或許是大勢所趨,行業(yè)中,不少大模型創(chuàng)業(yè)公司確實(shí)早就在to C端出牌了。

但在價(jià)格戰(zhàn)上不慌不忙的百川智能,在推出應(yīng)用這塊,也呈現(xiàn)出一種徐徐圖之的心態(tài)。

王小川一笑,說:“我不覺得百小應(yīng)發(fā)得晚,相反,我覺得發(fā)早了。我認(rèn)為模型應(yīng)用還需要更多時(shí)間的打磨!

他表示,模型應(yīng)用百萬級的DAU,還遠(yuǎn)遠(yuǎn)夠不上“超級應(yīng)用”的稱號。大家之前發(fā)布應(yīng)用,更多是對自家模型進(jìn)行展示,到現(xiàn)在,用戶反而不知道這些應(yīng)用在干啥了。

“整個行業(yè)現(xiàn)在都還沒到成熟的狀態(tài)。之前做輸入法、做搜索引擎、做瀏覽器,我們深刻地知道一個應(yīng)用到什么樣的時(shí)候,才是變成一個廣泛被使用的產(chǎn)品(的最佳時(shí)機(jī))!

所以,百小應(yīng)亮相的時(shí)間無所謂是早是晚,而是百川智能挑了個機(jī)會把它丟到行業(yè)里,讓團(tuán)隊(duì)可以更具體地把它運(yùn)轉(zhuǎn)起來。

在邁向超級應(yīng)用之前,百川智能把百小應(yīng)派遣為第一位上戰(zhàn)場接受審閱的戰(zhàn)士,也有自己的道理。

如上文提到的,百川智能認(rèn)為,不同于信息時(shí)代工具屬性的產(chǎn)品,大模型創(chuàng)造的是新物種。

讓AI從工具變?yōu)榛锇椋?strong>基于大模型打造AI助手更像是在“造人”。

就像人能夠使用工具、會思考,能聽、能讀、會看、會寫等一樣,AI助手類產(chǎn)品隨著模型能力的持續(xù)提升,也應(yīng)該具備相應(yīng)的能力。

搜索作為當(dāng)下大模型最重要的工具,不僅能讓大模型實(shí)時(shí)獲取最新信息,還能有效解決大模型的幻覺問題,是大模型的關(guān)鍵技術(shù)之一,也是百川智能的重點(diǎn)探索方向——去年發(fā)布Baichuan-53B的時(shí)候,團(tuán)隊(duì)就已經(jīng)提出了搜索增強(qiáng)的理念,RAG技術(shù)也一直處于第一梯隊(duì)。

基于這個理念,百川選擇了懂搜索的AI助手來作為團(tuán)隊(duì)在to C場景打響的第一槍。

所以,百小應(yīng)身上的差異化的百川味道,非常一目了然——

AI伙伴中間態(tài)+Baichuan模型優(yōu)勢+搜狗搜索功底沉淀+過往產(chǎn)品經(jīng)驗(yàn)積累。

至于首款應(yīng)用亮相后的未來是什么,王小川淺淺透露了一丟丟。

愿景自然是超級模型和超級應(yīng)用,得可靠,且一定需要和搜索做結(jié)合。

突破點(diǎn)應(yīng)該是讓AI像(每個)行業(yè)的職業(yè)人士,把這個職業(yè)里的數(shù)據(jù)密度、思維度加進(jìn)去,讓它足夠可用。

下一步的更迭方向嘛——嘿,王小川了個關(guān)子,橫問豎問他就是不說。

不過發(fā)布會后的溝通環(huán)節(jié),他隱隱約約有露出馬腳啦!

他提到,為什么要讓AI助手會提問,一個原因是為了日后的超級應(yīng)用做積累,舉的例子就是“你去看病說我發(fā)燒了,AI直接給你一個結(jié)果,一定是不可行的嘛”。

他還提到圖靈獎獲得者、Ilya的老師Geoffrey Hinton最近接受的采訪,老爺子稱醫(yī)療保健是最有前途的AI應(yīng)用領(lǐng)域(他建議大家都去看看這個采訪)。

醫(yī)療,嗯,這個思路果然很王小川。

反正,且讓咱們試著玩著百小應(yīng),多等一會兒吧……

本文來源:量子位

量子位

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部