阿里的通義千問(wèn)(Qwen),終于拼齊了1.5系列的最后一塊拼圖—— 正式開(kāi)源Qwen 1.5-32B。 話不多說(shuō),直接來(lái)看“成績(jī)單”。 這次官方pick同臺(tái)競(jìng)技的“選手”是Mixtral 8x7B模型和同為Qwen 1.5系列的72B模型。 從結(jié)果上來(lái)看,Qwen 1.5-32B已經(jīng)在多項(xiàng)評(píng)測(cè)標(biāo)準(zhǔn)中超越或追平Mixtral 8x7B: 并且即便是在與自家更大參數(shù)模型PK過(guò)程中,Qwen 1.5-32B也用“以小博大”的姿勢(shì)展現(xiàn)出了較好的性能。 用通義千問(wèn)團(tuán)隊(duì)成員的話來(lái)說(shuō)就是: 這個(gè)模型顯示出了與72B模型相當(dāng)?shù)男阅,特別是在語(yǔ)言理解、多語(yǔ)言支持、編碼和數(shù)學(xué)能力等方面。 在推理和部署過(guò)程中,成本還會(huì)更加友好。 不僅如此,即便是再拉來(lái)其它體量相當(dāng)?shù)拇竽P汀斑x手”,Qwen 1.5-32B在多項(xiàng)評(píng)測(cè)中的成績(jī)依舊較為亮眼: 除此之外,團(tuán)隊(duì)還做了一項(xiàng)比較有意思的測(cè)試——長(zhǎng)文本評(píng)估任務(wù),“大海撈針”。 簡(jiǎn)單來(lái)說(shuō),這項(xiàng)任務(wù)就是將一個(gè)與文本無(wú)關(guān)的句子(“針”)隱藏在大量的文本(“大!保┲校缓笸ㄟ^(guò)自然語(yǔ)言提問(wèn)的方式,觀察AI能否準(zhǔn)確提取出這個(gè)隱藏的句子。 從結(jié)果上來(lái)看,Qwen 1.5-32B在32k tokens的上下文中性能表現(xiàn)良好。 不過(guò)有一說(shuō)一,剛才所展示的也還僅是Qwen 1.5-32B在評(píng)分上的成績(jī),至于具體到實(shí)際體驗(yàn)過(guò)程中,效果又會(huì)如何呢? 大戰(zhàn)一波“弱智吧” 自打大模型火爆以來(lái),“弱智吧”就一直成了檢測(cè)大模型邏輯能力的標(biāo)準(zhǔn)之一,江湖戲稱(chēng)為“弱智吧Benchmark”。 (“弱智吧”源自百度貼吧,是一個(gè)充滿荒謬、離奇、不合常理發(fā)言的中文社區(qū)。) 而且就在前幾天,“弱智吧”還登上正經(jīng)AI論文,成了最好的中文訓(xùn)練數(shù)據(jù),引發(fā)了一波不小的熱議。 這項(xiàng)研究正是來(lái)自中科院深圳先進(jìn)技術(shù)研究院、中科院自動(dòng)化研究所,滑鐵盧大學(xué)等眾多高校、研究機(jī)構(gòu)聯(lián)合團(tuán)隊(duì)。 剛好此次Qwen 1.5-32B在開(kāi)源的同時(shí),也一并放出了在線體驗(yàn)的demo,那么當(dāng)它倆碰到一起,會(huì)擦出怎樣的火花? 請(qǐng)聽(tīng)第一題: 我爸媽結(jié)婚為什么不邀請(qǐng)我? Qwen 1.5-32B很準(zhǔn)確地回答出了“你的父母在結(jié)婚時(shí)你尚未出生,因此他們無(wú)法邀請(qǐng)你參加他們的婚禮”。 繼續(xù)第二題: 為什么睡覺(jué)過(guò)夜的地方叫酒店,喝酒的地方叫夜店? 面對(duì)這道很經(jīng)典的問(wèn)題,Qwen 1.5-32B也能做到追根溯源地做正經(jīng)科普。 再來(lái)第三道和第四道: 高中如果想提高升學(xué)率,為什么不直接招大學(xué)生? 網(wǎng)吧能上網(wǎng),弱智吧為什么不能上弱智? 不難看出,Qwen 1.5-32B都能夠給出準(zhǔn)確的答案。 尤其是在第四道問(wèn)題上,它甚至直接指出了邏輯性的問(wèn)題: 問(wèn)題似乎不太恰當(dāng)或者存在誤解。 嗯,Qwen 1.5-32B是一個(gè)經(jīng)住了“弱智吧Benchmark”的大模型。 至于其它關(guān)于常識(shí)、數(shù)學(xué)、編程等能力的效果,家人們可以親自去體驗(yàn)一番了。 如何做到的? 正如我們剛才所述,Qwen 1.5-32B在技術(shù)架構(gòu)上與此前版本并無(wú)太大的區(qū)別,亮點(diǎn)就是引入了GQA(Grouped Query Attention,分組查詢(xún)注意力)這個(gè)技術(shù)。 這也正是它能夠在相對(duì)較小的體量之下,能夠做到性能較優(yōu)且快速部署的關(guān)鍵。 GQA是一種在自然語(yǔ)言處理中使用的 Transformer 架構(gòu)中的一種機(jī)制,它通過(guò)將查詢(xún)序列分組為多個(gè)子序列來(lái)提高 Transformer 模型的計(jì)算效率。 這種方法可以有效地減少計(jì)算復(fù)雜度,同時(shí)保留 Transformer 模型的表示能力。 具體而言,GQA是通過(guò)將查詢(xún)分組并在組內(nèi)計(jì)算它們的注意力,來(lái)混合 Multi-Query Attention (MQA) 的速度與 Multi-Head Attention (MHA) 的質(zhì)量。 GQA 通過(guò)將查詢(xún)頭分為組,每個(gè)組共享單個(gè)鍵頭和值頭,來(lái)實(shí)現(xiàn)這一點(diǎn),從而在質(zhì)量和速度之間取得平衡。 如此一來(lái),GQA的引入就降低了注意力計(jì)算的數(shù)量,從而加速了推理時(shí)間。 最后,奉上Qwen 1.5-32B在HuggingFace的體驗(yàn)入口,感興趣的朋友可以去體驗(yàn)啦~ 參考鏈接: [1]https://qwenlm.github.io/zh/blog/qwen1.5-32b/ [2]https://huggingface.co/spaces/Qwen/Qwen1.5-32B-Chat-demo [3]https://github.com/QwenLM/Qwen1.5 [4]https://klu.ai/glossary/grouped-query-attention 文章來(lái)源:量子位
|
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選