首頁(yè) > 科技要聞 > 科技> 正文

小米上新二代大模型!窗口長(zhǎng)度翻至50倍,平均性能提升超45%

量子位 整合編輯:太平洋科技 發(fā)布于:2024-11-13 15:56

小米大模型第二代來(lái)了!

相比第一代,訓(xùn)練數(shù)據(jù)規(guī)模更大、品質(zhì)更高,訓(xùn)練策略與微調(diào)機(jī)制上也進(jìn)行了深入打磨。

不僅窗口長(zhǎng)度增長(zhǎng)到了原來(lái)的50倍,在10大能力維度上表現(xiàn)相比于第一代平均提升超過(guò)45%

而且家族成員豐富,有從0.3B到30B多個(gè)參數(shù)規(guī)模,分別適配云邊端各側(cè)設(shè)備。

此外,第二代大語(yǔ)言模型在端側(cè)部署上還支持3種推理加速方案,包括大小模型投機(jī)、BiTA、Medusa,相比于業(yè)界標(biāo)準(zhǔn)高通方案,量化損失降低78%。

大模型架構(gòu)基礎(chǔ)研究

針對(duì)預(yù)訓(xùn)練、后訓(xùn)練、量化、推理加速等大模型具體研發(fā)方向,小米團(tuán)隊(duì)做了大量研究,并將部分成果以論文的形式發(fā)布出來(lái)。

今年以來(lái),小米大模型團(tuán)隊(duì)發(fā)表了11篇論文(5篇ACL、3篇EMNLP、1篇NIPS、1篇ECAI、1篇COLING),申請(qǐng)了30+項(xiàng)發(fā)明專利,其中部分代表性的工作如下:

SUBLLM

項(xiàng)目主頁(yè):https://github.com/XiaoMi/subllm

SUBLLM基于Transformer結(jié)構(gòu),創(chuàng)新性地提出了一種新的模型結(jié)構(gòu)。

其中設(shè)計(jì)了Subsampling、Upsampling和Bypass等新模塊,使得模型能夠區(qū)分重要token和不重要token。

針對(duì)重要tokens花更多的算力學(xué)習(xí),保持few shot能力不變的同時(shí),訓(xùn)練和推理速度分別提升34%和52%。

該研究對(duì)標(biāo)Google Deepmind的mixture of depths工作,兼容現(xiàn)有attention based大模型生態(tài)。

TransAct

論文地址:https://arxiv.org/abs/2407.05690

TransAct是一種大模型結(jié)構(gòu)化剪枝方法。

為了在大模型上同時(shí)實(shí)現(xiàn)高度壓縮和較小損失,小米大模型團(tuán)隊(duì)設(shè)計(jì)了TransAct。

本方法以減小Transformer模塊內(nèi)隱藏表征維度為目標(biāo),以各神經(jīng)元的激活值大小為依據(jù),剪除激活值較小的神經(jīng)元,形成類低秩表示的模塊結(jié)構(gòu),同時(shí)保留 LayerNorm 等對(duì)擾動(dòng)敏感的模塊間隱藏表征維度。

對(duì)比之前業(yè)界最佳的剪枝方法,TransAct方法剪枝模型的KV Cache下降了50%,推理速度提升了20%(小米14手機(jī)測(cè)試)

INTRADoc

論文地址:https://arxiv.org/abs/2402.13991

INTRADoc是一種新的注意力機(jī)制。

它通過(guò)屏蔽無(wú)關(guān)文檔,讓每個(gè)token的概率僅取決于同一文檔中的上文信息,進(jìn)而消除了來(lái)自之前無(wú)關(guān)文檔的潛在干擾信息。

結(jié)果,INTRADoc顯著地提高了模型上下文學(xué)習(xí)、知識(shí)記憶、上下文利用能力。

Mixture of Diverse Size Experts

論文地址:https://arxiv.org/abs/2409.12210

這是一種新的MoE結(jié)構(gòu),簡(jiǎn)稱為MoDSE。

它在每一層中設(shè)計(jì)大小不同的專家結(jié)構(gòu),并同時(shí)引入了一種專家對(duì)分配策略,以在多個(gè)GPU之間均勻分配工作負(fù)載。

在多個(gè)基準(zhǔn)測(cè)試中,MoDSE通過(guò)自適應(yīng)地將參數(shù)預(yù)算分配給專家,在保持總參數(shù)量和專家個(gè)數(shù)相同的情況下,表現(xiàn)優(yōu)于傳統(tǒng)MoE結(jié)構(gòu)。

性能平均提升45%

小米第二代模型MiLM2系列融合多項(xiàng)前沿技術(shù)模型效果全面超越了第一代。

小米大模型團(tuán)隊(duì)采用自主構(gòu)建的通用能力評(píng)測(cè)集Mi-LLMBM2.0,對(duì)最新一代的MiLM2模型進(jìn)行了全方位評(píng)估。

該評(píng)測(cè)集涵蓋了廣泛的應(yīng)用場(chǎng)景,包括生成、腦暴、對(duì)話、問(wèn)答、改寫、摘要、分類、提取、代碼處理以及安全回復(fù)等10個(gè)大類,共計(jì)170個(gè)細(xì)分測(cè)試項(xiàng)。

以MiLM2-1.3B模型和MiLM2-6B模型為例,對(duì)比去年發(fā)布的一代模型,在十大能力上的效果均有大幅提升,平均提升幅度超過(guò)45%。

在生成、閑聊、翻譯等關(guān)鍵能力上,MiLM2-6B模型的評(píng)測(cè)成績(jī)十分優(yōu)異,對(duì)比業(yè)內(nèi)同參數(shù)規(guī)模模型也有較優(yōu)的效果。

多個(gè)模型尺寸,覆蓋云邊端

大模型的更新,除了性能的提升,也是打磨模型矩陣的動(dòng)態(tài)過(guò)程。

在堅(jiān)持輕量化部署的大原則下,小米團(tuán)隊(duì)將大模型的參數(shù)規(guī)模靈活擴(kuò)展至0.3B、0.7B、1.3B、2.4B、4B、6B、13B、30B等多個(gè)量級(jí),以適應(yīng)不同場(chǎng)景下的需求。

0.3B~6B:終端(on-device)場(chǎng)景,應(yīng)用時(shí)通常是一項(xiàng)非常具體的、低成本的任務(wù),提供不同參數(shù)規(guī)模的模型以適配不同芯片及存儲(chǔ)空間的終端設(shè)備,微調(diào)后可以達(dá)到百億參數(shù)內(nèi)開源模型效果。

6B、13B:在任務(wù)明確、且需要比6B以下參數(shù)模型提供更多的零樣本zero-shot/上下文學(xué)習(xí)時(shí),6B和13B是一個(gè)可能有LLM涌現(xiàn)能力的起點(diǎn),支持多任務(wù)微調(diào),微調(diào)后可以達(dá)到幾百億開源模型的效果。

30B:云端場(chǎng)景,具備相當(dāng)堅(jiān)實(shí)的zero-shot/上下文學(xué)習(xí)或一些泛化能力,模型推理能力較好,能夠完成復(fù)雜的多任務(wù),基本達(dá)到通用大模型水平。

小米自研大模型矩陣不僅包含多樣的參數(shù)量級(jí),同時(shí)也納入了各種不同的模型結(jié)構(gòu)。

在二代模型系列中,大模型團(tuán)隊(duì)特別加入了兩個(gè)MoE(Mixture of Experts,即混合專家模型)結(jié)構(gòu)的模型——MiLM2-0.7B×8和MiLM2-2B×8。

兩個(gè)模型的差異主要體現(xiàn)在訓(xùn)練總參數(shù)量、詞表大小等方面。

MoE模型的工作原理是將多個(gè)承擔(dān)特定功能的“專家”模型進(jìn)行并行處理,進(jìn)而綜合各模型的輸出來(lái)提高整體預(yù)測(cè)的準(zhǔn)確度和效率。

以MiLM2-2B×8為例,根據(jù)評(píng)測(cè)結(jié)果,該模型在整體性能上與MiLM2-6B不相上下、表現(xiàn)出色,而解碼速度實(shí)現(xiàn)了50%的提升,在保證模型性能不打折扣的同時(shí),提升了其運(yùn)行效率。

4B+30B,云端協(xié)同運(yùn)行

特別地,對(duì)于端側(cè),小米第二代大模型的部署技術(shù)也有了新的突破,新的4B模型將在端側(cè)發(fā)揮更重要的作用。

小米大模型團(tuán)隊(duì)創(chuàng)新性地提出了“TransAct大模型結(jié)構(gòu)化剪枝方法”,僅用8%的訓(xùn)練計(jì)算量即從6B模型剪枝了4B模型,訓(xùn)練效率大大提升;

同時(shí)小米大模型團(tuán)隊(duì)自研了“基于權(quán)重轉(zhuǎn)移的端側(cè)量化方法”和“基于Outliers分離的端側(cè)量化方法”,大幅降低了端側(cè)量化的精度損失,對(duì)比業(yè)界標(biāo)準(zhǔn)高通方案,量化損失下降78%。

MiLM2-4B模型總共40層,實(shí)際總參數(shù)量為3.5B,目前已經(jīng)實(shí)現(xiàn)在端側(cè)部署落地。

同時(shí),在云端運(yùn)行的MiLM2-30B模型是小米二代大模型系列中參數(shù)量級(jí)最大的模型。

在云端環(huán)境中,大模型面臨著多樣化和高難度的挑戰(zhàn),需要更高效地遵從并執(zhí)行用戶的復(fù)雜指令,深入分析多維度任務(wù),并在長(zhǎng)上下文中精準(zhǔn)定位信息。

針對(duì)這些重點(diǎn)目標(biāo),大模型團(tuán)隊(duì)選擇了一系列開源的評(píng)測(cè)集,對(duì)MiLM2-30B模型的專項(xiàng)能力進(jìn)行評(píng)估。

結(jié)果表明,MiLM2-30B模型在指令遵循、常識(shí)推理和閱讀理解能力方面均有超越主流競(jìng)品的出色表現(xiàn),具體的評(píng)測(cè)集和評(píng)測(cè)結(jié)果如下:

指令遵循及常規(guī)能力測(cè)試結(jié)果

長(zhǎng)文本能力測(cè)試結(jié)果

本文來(lái)源:量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
二維碼 回到頂部