太平洋科技要聞

首頁 > 科技要聞 > 科技> 正文

百川新模型沖頂中文測試基準(zhǔn)！首款A(yù)I助手“百小應(yīng)”同時(shí)發(fā)布，“最懂搜索”

量子位整合編輯：太平洋科技發(fā)布于：2024-05-26 21:20

王小川在搜索時(shí)期種下的種子，在大模型時(shí)代又開花了。

他創(chuàng)業(yè)的百川智能，剛剛發(fā)布了自家首款A(yù)I應(yīng)用，to C的“百小應(yīng)”。

乍一看，這就是個當(dāng)下大熱門的AI助手，但官方強(qiáng)調(diào)，這個AI助手啊，它懂搜索，還會引導(dǎo)式提問。

你別說，當(dāng)“搜索”和“王小川”這兩個詞放到一起的時(shí)候，就格外讓人想仔細(xì)一探究竟。

百小應(yīng)不僅可以隨時(shí)回答用戶提出的各種問題，速讀文件、整理資料、輔助創(chuàng)作等，還具備多輪搜索、定向搜索等能力，能更精準(zhǔn)地理解和滿足用戶需求。

百川解釋，讓模型掌握專業(yè)的搜索技能，是為了給用戶“提供專業(yè)、豐富的知識和資源”。

并且，它還支持用戶通過語音進(jìn)行交互。

我們試過了，大家現(xiàn)在可以在iOS商店、安卓應(yīng)用市場、百川智能官網(wǎng)下載百小應(yīng)App，或者通過Ying.ai的Web端免費(fèi)使用。

而百小應(yīng)背后，是百川智能終于亮相的新一代基座大模型，Baichuan 4。看到前面能語音交互就能隱隱猜到，這次百川推出的大模型具備多模態(tài)能力。

一經(jīng)發(fā)布就立刻上戰(zhàn)場了，丟給SuperCLUE（通用大模型綜合性中文測評基準(zhǔn)），以總得分80.64分刷新了國內(nèi)紀(jì)錄，中文綜合能力測試更是以1.51分的優(yōu)勢險(xiǎn)勝GPT-4-Turbo-0125。

亮出Baichuan 4，連同發(fā)布懂搜索、會提問的AI助手百小應(yīng)，朝規(guī)劃的超級模型和超級應(yīng)用更進(jìn)一步，百川智能今年一改以往月更上新的頻率，原來是憋了個大活……

百小應(yīng)，怎么用？

百小應(yīng)，百川智能成立一年多來推出的首款A(yù)I應(yīng)用。

和大多數(shù)AI助手一樣，它也是個通才，無論是長文本閱讀還是多模態(tài)理解，都是它具備的基礎(chǔ)能力。

不過還是想先跟大家一起來看一下它區(qū)別于所有AI助手產(chǎn)品最特別的點(diǎn)，百小應(yīng)它懂搜索、會提問。

怎么個懂搜索法？融合Baichuan 4通用能力和百川搜索技術(shù)，百川展示了百小應(yīng)的3種懂法。

一是會定向搜索。

提一個問題，百小應(yīng)能精準(zhǔn)定位問題領(lǐng)域，然后直奔權(quán)威站點(diǎn)提取重點(diǎn)信息，豐富輸出。

主打一個快速和準(zhǔn)確。

二是能多輪搜索。

每一個問題，百小應(yīng)都能針對它進(jìn)行逐步解析，搞清楚問題背后到底想要的是什么，然后再給出關(guān)鍵答案。

相比單輪搜索，在市場調(diào)研、產(chǎn)業(yè)分析等復(fù)雜場景下，多輪搜索能夠有效地獲取更專業(yè)、更有深度的信息。

三是可以提供嵌入式搜索結(jié)果。

簡單來說，就是與其它AI在單次搜索后“總結(jié)網(wǎng)頁信息”的簡單調(diào)用不同，百小應(yīng)是將搜索結(jié)果作為觀點(diǎn)、論據(jù)直接應(yīng)用到問答結(jié)果中。

“像Perplexity那種，叫總結(jié)搜索結(jié)果，我們認(rèn)為那個方向應(yīng)該是搜索2.0要做的工作，搜索引擎公司自己就能干，不是我們要做的�！�

同時(shí)在輸出時(shí)，百小應(yīng)比較講求結(jié)構(gòu)化輸出。

也就是將關(guān)鍵信息以描述+表格的形式來給出，讓回答更清晰，重點(diǎn)一目了然。

多輪、定向、嵌入搜索等技術(shù)加持，得到的結(jié)果就是百小應(yīng)懂搜索。

團(tuán)隊(duì)明確了解，模型+搜索技術(shù)的融合確實(shí)可以提升模型回答的準(zhǔn)確性、降低幻覺，但只有技術(shù)是不夠的，需要產(chǎn)品設(shè)計(jì)上有配套的解決方案。

就上手體驗(yàn)的初步感觀來說，懂搜索帶來的好處，既能提高AI輸出回答的準(zhǔn)確性、時(shí)效性，降低幻覺；也能增加回答中的觀點(diǎn)、案例、數(shù)據(jù)等，使模型的回答更豐富、更鮮活。

說完百小應(yīng)懂搜索，再來說說它會提問是怎么個情況。

非專業(yè)提示詞工程師，一般和AI對話時(shí)的需求描述都比較籠統(tǒng)，不會特別精確。

百小應(yīng)會提問就是針對這種情況準(zhǔn)備的，在用戶問題的基礎(chǔ)上，通過提問一步步引導(dǎo)，幫助用戶清晰表達(dá)自身需求。

上面這些對百小應(yīng)產(chǎn)品設(shè)計(jì)理念的思考和技術(shù)實(shí)現(xiàn)都是為了降低普通人使用AI助手的門檻，對普通用戶來說還是很友好的。

當(dāng)然了，說到底是為了最后給出一個用戶真正用得上的答案。

前面提到，百小應(yīng)對長文本閱讀和多模態(tài)理解也是得心應(yīng)手，下面放幾個showcase，大家也可以自己上手體驗(yàn)一下（捉蟲和找bug，簡直是大模型時(shí)代咱們最喜聞樂見的事兒了）。

多模態(tài)測試結(jié)果，還比較nice，博物館里的半面雕塑頭像也能精準(zhǔn)識別出：

長文本能力，讓它讀財(cái)報(bào)也順利過關(guān)：

一通體驗(yàn)下來，感覺日常對話、辦公場景、搜索求知、多模態(tài)識別……百小應(yīng)的可應(yīng)用場景還是挺多的。

但百川智能創(chuàng)始人兼CEO大膽開麥，這并不是他此前提到過會推出的超級應(yīng)用。

“現(xiàn)階段市場上，既沒有超級模型，也沒有超級應(yīng)用。”

用他的話說，百小應(yīng)目前是個AI助手，是大模型時(shí)代，用戶手里的應(yīng)用從“工具”化身“伙伴”的中間態(tài)。

整個過程，是逐步發(fā)展、逐步滿足用戶需求的過程。

背后模型Baichuan 4首戰(zhàn)登頂

開頭咱就提到過，百小應(yīng)背后，是百川智能推出的Baichuan系列模型最新版本Baichuan 4。

也是百川智能入局大模型以來推出的第一款多模態(tài)模型。

相較前代基座模型Baichuan 3（今年1月底發(fā)布），Baichuan 4在各項(xiàng)能力上的提升還挺明顯。

其中指令跟隨提升20%，信息理解提升9%，知識問答提升15%，創(chuàng)作提升16%，邏輯推理提升15%；專項(xiàng)能力方面，數(shù)學(xué)提升14%，代碼提升9%。

首戰(zhàn)告捷，在OpenAI長期霸榜的SuperCLUE綜合基準(zhǔn)上，Baichuan 4一出手就拿下了第一：

總得分80.64分，超過前一個榜一大模型0.61分。

真的是險(xiǎn)勝……

然而分差雖小，但眾所周知在大模型時(shí)代，哪怕0.01分也顯得彌足珍貴。

怎么做到的呢？

訓(xùn)練過程中，Baichuan 4引入的技術(shù)優(yōu)化手段，包含基于model-based+human-based的協(xié)同數(shù)據(jù)篩選優(yōu)化，對長文本建模位置編碼科學(xué)的Scaling-law，有效提升了模型對數(shù)據(jù)的利用。

對齊階段，團(tuán)隊(duì)重點(diǎn)優(yōu)化Baichuan 4模型Reasoning、Planning、Instruct Following能力，通過Loss驅(qū)動的數(shù)據(jù)選取與訓(xùn)練，多階段爬坡，多模型參數(shù)融合等方式。

不僅如此，團(tuán)隊(duì)在這一階段還提出了Sequential Preference Optimization（SPO）方法，通過順序微調(diào)LLMs以與人類偏好的多個維度保持一致，關(guān)鍵指標(biāo)和模型穩(wěn)定性得到顯著提升。

同時(shí)突破RLHF和RLAIF融合的RLxF強(qiáng)化學(xué)習(xí)對齊技術(shù)，大幅提升模型的指令遵循等能力。

此外，Baichuan 4還具備行業(yè)領(lǐng)先的多模態(tài)能力，在MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista等評測基準(zhǔn)上表現(xiàn)優(yōu)異，領(lǐng)先Gemini Pro、Claude3-Sonnet等多模態(tài)模型。

不過，這次Baichuan 4可沒走開源路線。

王小川大方對此做出了回應(yīng)：“去年我們率先挑起開源，是百川團(tuán)隊(duì)入局大模型的投名狀，當(dāng)時(shí)國內(nèi)開源環(huán)境非常不成熟。我們挑起開源這件事，也對國內(nèi)開源行業(yè)產(chǎn)生了重要貢獻(xiàn)，現(xiàn)在開源領(lǐng)域已經(jīng)有很多玩家在競爭了”。

朋友們，要相信市場的調(diào)節(jié)機(jī)制啊——王小川說。

Baichuan 4閉源了，但API供應(yīng)依舊。

新一代基座模型對外開放后，一口氣開放四款模型API，分別是Baichuan 4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API。

同時(shí)也分旗艦版和專業(yè)版，旗艦版全量開放Baichuan 4的各項(xiàng)能力；專業(yè)版則為Baichuan3-Turbo，價(jià)格比旗艦版實(shí)惠，性能比Baichuan 2更好，且針對企業(yè)的高頻應(yīng)用場景做了針對性優(yōu)化。

有趣的是，雖然Assistant API也直接開放給企業(yè)用戶免費(fèi)試用，但面對近期熱火朝天的大模型價(jià)格戰(zhàn)，百川的態(tài)度很明確：

什么，價(jià)格戰(zhàn)？婉拒了哈。

一來，王小川明確自家主要是吃to C這碗飯的，云廠商的價(jià)格戰(zhàn)，對百川沒啥影響。

二來，他立場堅(jiān)定，認(rèn)為未來肯定會卷，但大家現(xiàn)在太狠了，“在中國市場，API服務(wù)其實(shí)對創(chuàng)業(yè)公司是走不通的”。

王小川進(jìn)一步闡述自己的觀點(diǎn)：

“如果只是從商業(yè)角度來看的話，中國當(dāng)前的商業(yè)環(huán)境里面To B比To C大概本身就小了10倍，在美國，中國B端市場這樣的情況是不存在的；

其次，在做數(shù)據(jù)時(shí)會發(fā)現(xiàn)，你現(xiàn)在收的是人民幣，但花的算力卻是美元，這其實(shí)又有一個中美API服務(wù)市場的巨大區(qū)別。”

對于百川智能而言，內(nèi)部一致認(rèn)為一定要做有差異化的事情。

“只是卷價(jià)格的話，可能頭部創(chuàng)業(yè)公司走低價(jià)是一個優(yōu)勢，但你想價(jià)格低就變成競爭力的話，往市場走這樣其實(shí)是不夠的�！�

為什么首款to C產(chǎn)品長這樣？

去年，王小川幾度對外公開發(fā)言，表示2024年有可能會誕生若干大模型超級應(yīng)用。

不出意外的話，這或許是大勢所趨，行業(yè)中，不少大模型創(chuàng)業(yè)公司確實(shí)早就在to C端出牌了。

但在價(jià)格戰(zhàn)上不慌不忙的百川智能，在推出應(yīng)用這塊，也呈現(xiàn)出一種徐徐圖之的心態(tài)。

王小川一笑，說：“我不覺得百小應(yīng)發(fā)得晚，相反，我覺得發(fā)早了。我認(rèn)為模型應(yīng)用還需要更多時(shí)間的打磨�！�

他表示，模型應(yīng)用百萬級的DAU，還遠(yuǎn)遠(yuǎn)夠不上“超級應(yīng)用”的稱號。大家之前發(fā)布應(yīng)用，更多是對自家模型進(jìn)行展示，到現(xiàn)在，用戶反而不知道這些應(yīng)用在干啥了。

“整個行業(yè)現(xiàn)在都還沒到成熟的狀態(tài)。之前做輸入法、做搜索引擎、做瀏覽器，我們深刻地知道一個應(yīng)用到什么樣的時(shí)候，才是變成一個廣泛被使用的產(chǎn)品（的最佳時(shí)機(jī)）�！�

所以，百小應(yīng)亮相的時(shí)間無所謂是早是晚，而是百川智能挑了個機(jī)會把它丟到行業(yè)里，讓團(tuán)隊(duì)可以更具體地把它運(yùn)轉(zhuǎn)起來。

在邁向超級應(yīng)用之前，百川智能把百小應(yīng)派遣為第一位上戰(zhàn)場接受審閱的戰(zhàn)士，也有自己的道理。

如上文提到的，百川智能認(rèn)為，不同于信息時(shí)代工具屬性的產(chǎn)品，大模型創(chuàng)造的是新物種。

讓AI從工具變?yōu)榛锇椋?strong>基于大模型打造AI助手更像是在“造人”。

就像人能夠使用工具、會思考，能聽、能讀、會看、會寫等一樣，AI助手類產(chǎn)品隨著模型能力的持續(xù)提升，也應(yīng)該具備相應(yīng)的能力。

搜索作為當(dāng)下大模型最重要的工具，不僅能讓大模型實(shí)時(shí)獲取最新信息，還能有效解決大模型的幻覺問題，是大模型的關(guān)鍵技術(shù)之一，也是百川智能的重點(diǎn)探索方向——去年發(fā)布Baichuan-53B的時(shí)候，團(tuán)隊(duì)就已經(jīng)提出了搜索增強(qiáng)的理念，RAG技術(shù)也一直處于第一梯隊(duì)。

基于這個理念，百川選擇了懂搜索的AI助手來作為團(tuán)隊(duì)在to C場景打響的第一槍。

所以，百小應(yīng)身上的差異化的百川味道，非常一目了然——

AI伙伴中間態(tài)+Baichuan模型優(yōu)勢+搜狗搜索功底沉淀+過往產(chǎn)品經(jīng)驗(yàn)積累。

至于首款應(yīng)用亮相后的未來是什么，王小川淺淺透露了一丟丟。

愿景自然是超級模型和超級應(yīng)用，得可靠，且一定需要和搜索做結(jié)合。

突破點(diǎn)應(yīng)該是讓AI像（每個）行業(yè)的職業(yè)人士，把這個職業(yè)里的數(shù)據(jù)密度、思維度加進(jìn)去，讓它足夠可用。

下一步的更迭方向嘛——嘿，王小川賣了個關(guān)子，橫問豎問他就是不說。

不過發(fā)布會后的溝通環(huán)節(jié)，他隱隱約約有露出馬腳啦！

他提到，為什么要讓AI助手會提問，一個原因是為了日后的超級應(yīng)用做積累，舉的例子就是“你去看病說我發(fā)燒了，AI直接給你一個結(jié)果，一定是不可行的嘛”。

他還提到圖靈獎獲得者、Ilya的老師Geoffrey Hinton最近接受的采訪，老爺子稱醫(yī)療保健是最有前途的AI應(yīng)用領(lǐng)域（他建議大家都去看看這個采訪）。

醫(yī)療，嗯，這個思路果然很王小川。

反正，且讓咱們試著玩著百小應(yīng)，多等一會兒吧……