首頁 > 科技要聞 > 科技> 正文

把GPT-3.5裝進(jìn)手機里?小模型爆發(fā)背后沒什么神奇的魔法

騰訊科技 整合編輯:龔震 發(fā)布于:2024-05-05 21:28

Scaling Law(縮放定律)是AI界當(dāng)下的金科玉律。簡單解釋的話它就是在說數(shù)據(jù)越多,參數(shù)越大,算力越強,模型最終的能力就越強。正是這一規(guī)則讓OpenAI相信AGI可能到達(dá),只要數(shù)據(jù)夠多,參數(shù)夠大,AGI就一定能達(dá)到。

但這一規(guī)律在近期發(fā)布的一系列模型前,似乎在面對著挑戰(zhàn)乃至逆轉(zhuǎn)。

Llama 3才火了一周,70B的“小參數(shù)”大模型就能和據(jù)說1.8T參數(shù)的GPT4掰掰手腕,而Llama 3 8B更是能力上全面超越比自己大了近10倍的Llama 2 70B。

根據(jù)其官網(wǎng)介紹Llama 3相對于Llama 2的主要架構(gòu)更改只有從32k提升到128K 的分詞器,采用了分組查詢注意力 (GQA)以及提升上下文長度的RoPE技術(shù)。這些改變都不算對架構(gòu)的巨大改變,但小模型的能力就是在飛躍式的提升。

由此來看,參數(shù)越多模型越強這條Scaling Law的黃金法則看起來好像要失效了。

結(jié)果這兩天微軟又發(fā)出了Phi-3系列模型,其僅3.8B的mini版模型號稱能力對標(biāo)GPT3.5,拳打Llama 3 8B,腳踢 Mistreal 7B等一眾比它大了一倍的頂尖“小模型”。微軟還把它直接裝進(jìn)了蘋果A16芯片的手機里,僅占1.8G內(nèi)存,完美流暢運行。

(每秒12個token,在本地模型里算是超高速了)

這一超越人們一般認(rèn)知的性能,在Phi 3的論文中被形容成當(dāng)前模型的表現(xiàn)偏離了標(biāo)準(zhǔn)的Scaling Law。(deviate from the standard scaling-laws)

小模型到底有沒有在打破Scaling Law?我們得先挖挖這些小模型是用什么妙法“突破”Scaling Law的。

兩條路,“突破” Scaling Law

雖然Llama 3 8B和Phi3 3.8B都展示出了非常好的效果,但它們選擇的路徑并不相同。大模型三要素:框架,數(shù)據(jù)和參數(shù),參數(shù)既然固定是小的,框架在這么小參數(shù)下做MOE也沒意義,能做的改變有限,因此他們都只能在數(shù)據(jù)這個要素上下功夫。

Llama 3:有錢任性路徑

Llama 3 8B所走的路徑是猛加訓(xùn)練數(shù)據(jù)量。一個80億(8B)參數(shù)的模型,Meta用了15萬億(15T)的數(shù)據(jù)進(jìn)行訓(xùn)練!這和他們訓(xùn)練70B模型用的量級一致。所以它是符合Scaling Law的,只不過這次增加的不是參數(shù)量,而是數(shù)據(jù)量而已。

既然如此,為什么之前很少有人做這樣給小參數(shù)模型喂超大數(shù)據(jù)的嘗試呢?

因為在大語言模型界一直都還有一個規(guī)則,叫Chinchilla Scaling規(guī)則。這出自一篇發(fā)布于2022年的論文,作者Hoffman試圖去找到對應(yīng)某種參數(shù)的最佳數(shù)據(jù)訓(xùn)練量。他通過三種擬合方法,最終發(fā)現(xiàn)大概用20倍于參數(shù)量的數(shù)據(jù)進(jìn)行訓(xùn)練是效率最高的(即tokens/parameters為20/1)。數(shù)據(jù)比這個少的話,參數(shù)多提升也不大;數(shù)據(jù)比參數(shù)多20倍的話,模型性能的提升就沒有訓(xùn)練更大參數(shù)模型那么明顯了。所以如果有足夠算力去訓(xùn)練更多的數(shù)據(jù)時,大多數(shù)模型都會選擇對應(yīng)的更大的參數(shù)量級去進(jìn)行訓(xùn)練,因為這樣可以達(dá)到在一定的算力之下效果的最優(yōu),能帶來做多的泛化和最好的效果。

(Chinchilla 的最佳效率點分布)

但Meta在 Llama 3 的開發(fā)過程中對Chinchilla Scaling Law進(jìn)行了一波壓力測試。根據(jù)Llama 3的簡易版技術(shù)文檔中所述, 雖然 8B 參數(shù)模型的 Chinchilla 最優(yōu)訓(xùn)練計算量差不多是 200B token,但Meta發(fā)現(xiàn),即使在模型使用超過兩個數(shù)量級(大概4萬億)的數(shù)據(jù)進(jìn)行訓(xùn)練后,模型性能仍在繼續(xù)提高。所以Meta干脆直接給 8B 和 70B 參數(shù)模型喂了15T的token進(jìn)行訓(xùn)練,結(jié)果他們發(fā)現(xiàn)模型能力還在繼續(xù)呈對數(shù)線性改進(jìn)。

針對這點,前OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy還在Llama 3 發(fā)布后特別發(fā)了一條推文,指出只要你持續(xù)加數(shù)據(jù)量,模型就是會越來越好。他還點出大家之所以不這么做,一方面是出于誤解:覺得超過Chinchilla的最佳數(shù)據(jù)量,模型的能力提升會大幅收斂。Llama 3正是用事實證明了并不會。另一方面,在現(xiàn)在卡慌的背景下用這么多數(shù)據(jù)持續(xù)多次的訓(xùn)練一個小模型并不經(jīng)濟(jì),因為用同等算力和數(shù)據(jù)做大模型,其能力更強。

所以只有Meta這種坐擁35萬塊H100,不差卡的真土豪才敢只從擴量數(shù)據(jù)這條路上去驗證Scaling Law。

Phi-3:工匠雕花路線

微軟雖然也不缺卡,但他們明顯還是更考慮性價比的。在Phi-3的技術(shù)說明中,mini版本所用的訓(xùn)練集為3.3萬億個token,也大大超過了Chichilla最優(yōu),但只有Llama 3 8B的1/5。

Phi系列從其第一代開始一直走的都更偏向于另一個路徑:優(yōu)化數(shù)據(jù)。除了精心篩選數(shù)據(jù)外,微軟還利用更大的模型生成對應(yīng)的教科書和習(xí)題集,專門優(yōu)化模型的推理能力。

回到優(yōu)化數(shù)據(jù)這一點上,實際上目前大模型訓(xùn)練時用到的數(shù)據(jù)集大多來自網(wǎng)絡(luò)抓取,它們非常雜亂,其中有相當(dāng)一部分都是網(wǎng)絡(luò)垃圾郵件或者廣告等重復(fù)且無法增加信息豐度的內(nèi)容。對這些數(shù)據(jù)進(jìn)行處理就能使得在這個數(shù)據(jù)集上進(jìn)行訓(xùn)練的模型效果得到顯著提升。

比如最近Huggingface就發(fā)布了一個名為Fineweb的數(shù)據(jù)集,訓(xùn)練了 200 多個消融模型來仔細(xì)解析和過濾,排重Common Crawl從2013-2024年間的所有數(shù)據(jù),得到了一個15T的訓(xùn)練集,在這個訓(xùn)練集上進(jìn)行訓(xùn)練的模型最終效果可以顯著提升。

最上面的是FineWeb,最下面的是一般數(shù)據(jù)

Phi3的核心數(shù)據(jù)處理方法和邏輯沒有什么改變。主要是做了一些拓展和優(yōu)化,把1.5T的數(shù)據(jù)集提升到了3.3T。

當(dāng)然Phi 3的做法更復(fù)雜,其數(shù)據(jù)包含了兩個主要組成部分,a) 經(jīng)過大語言模型過濾的高質(zhì)量網(wǎng)頁數(shù)據(jù)。這些數(shù)據(jù)要進(jìn)一步按照"教育水平"篩選,保留更多能提高模型"推理能力"的網(wǎng)頁。b) 由大語言模型生成的合成數(shù)據(jù)。這部分?jǐn)?shù)據(jù)專門用于教授模型邏輯推理和各種特定領(lǐng)域的技能。

因為Phi3 mini的內(nèi)容容量較小,無法容納所有的訓(xùn)練數(shù)據(jù),它還將訓(xùn)練分為兩個獨立的階段:第一階段主要使用網(wǎng)絡(luò)數(shù)據(jù)源,旨在教會模型一般知識和語言理解;第二階段將更嚴(yán)格過濾的網(wǎng)頁數(shù)據(jù)與一些合成數(shù)據(jù)混合,以提高模型的邏輯推理和特定領(lǐng)域能力。第二階段會覆蓋掉第一階段中不太重要的一些常識數(shù)據(jù),為推理能力相關(guān)的數(shù)據(jù)騰出空間。

通過這通對數(shù)據(jù)的細(xì)致處理和雕花,Phi-3 mini居然能達(dá)到比它大至少50倍的GPT3.5層級的推理能力。

得分基本全面碾壓

當(dāng)然,Phi3 mini的驚艷表現(xiàn)其實也無法動搖Scaling Law 本身,至多只能說力大磚飛有效,但用點巧勁處理一下力(數(shù)據(jù)),磚飛的更遠(yuǎn)。

小模型越強,大模型離我們的生活就越近

最近一段時間,圍繞Scaling Law的討論,并不只限于小模型所表現(xiàn)出來“非標(biāo)準(zhǔn)”表現(xiàn)。扎克伯格在Llama 3發(fā)布之后接受訪談時就提到,縮放定律現(xiàn)在已經(jīng)遇到了能源瓶頸,從今之后,大模型的提升會是漸進(jìn)的,而非飛躍式的。而2025年實現(xiàn)AGI基本不太可能。

其他專家,包括AI三巨頭之一的約書亞·本吉奧,反對派巨頭Garry Marcus都表示,如果沒有框架性的更新,在現(xiàn)行低效的Transformer框架下,AI的發(fā)展和Scaling速度都會放緩。

這其實在各個AI大廠的實踐中也有體現(xiàn)。據(jù)之前外媒報道,微軟為GPT-6訓(xùn)練搭建10萬個H100訓(xùn)練集群。但以當(dāng)前美國的電網(wǎng)能力根本承受不了這樣的能耗,一旦在同一個州的部署超過10萬個H100 GPU,那整個電網(wǎng)都得崩潰。

如果Scaling Law真的撞上了能源墻,那下一步大廠們應(yīng)該干點什么呢?

其實和互聯(lián)網(wǎng)大廠在發(fā)展中的邏輯一樣,如果增長無法保證,那就趕緊轉(zhuǎn)化成實用用例把錢賺上,穩(wěn)住腳跟。

但直到今天,AI的現(xiàn)實用例都非常稀缺。這一方面是因為技術(shù)發(fā)展需要時間,如Agent之類真的能導(dǎo)向?qū)嵱玫募夹g(shù)組建還在完善過程中。另一方面其實就是大模型的高昂推理成本讓很多看起來收益還不那么明顯的項目很難真正落地。

但現(xiàn)在,隨著Llama 3 8B還是Phi3 mini的出現(xiàn),一條將大模型引向?qū)嵱玫穆芬苍絹碓矫骼柿恕?/span>

網(wǎng)友表示雖然高性能小模型訓(xùn)練貴,但推理便宜啊,整體還是更便宜,尤其對于要覆蓋較大用戶群體的推理成本很低

無論是在越來越強支持AI得設(shè)備上實裝,還是單純提供價格低廉的云服務(wù),高性能小模型都意味著AI將更容易的擺脫成本上的桎梏,被更有效的應(yīng)用。

小模型的強勢,實際上將大模型和我們拉的更近了。

文章來源:騰訊科技

 

騰訊科技

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部