首頁 > 科技要聞 > 科技> 正文

趕超 GPT-4o,最強大模型 Llama 3.1 405B 一夜封神,扎克伯格:開源引領(lǐng)新時代

appso 整合編輯:太平洋科技 發(fā)布于:2024-07-24 09:43

就在剛剛,Meta 如期發(fā)布了 Llama 3.1 模型。

簡單來說,超大杯 Llama 3.1 405B 是 Meta 迄今為止最強大的模型,也是全球目前最強大的開源大模型,更是全球最強的大模型。

從今天起,不需要再爭論開源大模型與閉源大模型的孰優(yōu)孰劣,因為 Llama 3.1 405B 用無可辯駁的實力證明路線之爭并不影響最終的技術(shù)實力。

先給大家總結(jié)一下 Llama 3.1 模型的特點:

包含 8B、70B 和 405B 三個尺寸,最大上下文提升到了128K,支持多語言,代碼生成性能優(yōu)秀,具有復(fù)雜的推理能力

從基準(zhǔn)測試結(jié)果來看,Llama 3.1 超過了 GPT-4 0125,與 GPT-4o、Claude 3.5 互有勝負

提供開放/免費的模型權(quán)重和代碼,許可證允許用戶進行微調(diào),將模型蒸餾到其他形式,并支持在任何地方部署

提供 Llama Stack API,便于集成使用,支持協(xié)調(diào)多個組件,包括調(diào)用外部工具

超大杯登頂全球最強大模型,中杯大杯藏驚喜

本次發(fā)布的 Llama 3.1 共有 8B、70B 和 405B 三個尺寸版本。

從基準(zhǔn)測試結(jié)果來看,超大杯 Llama 3.1 405B 全方位碾壓了 GPT-3.5 Turbo、大部分基準(zhǔn)測試得分超過了 GPT-4 0125。

而面對 OpenAI 此前發(fā)布的最強閉源大模型 GPT-4o 和第一梯隊的 Claude 3.5 Sonnet,超大杯依然有著一戰(zhàn)之力,甚至僅從紙面參數(shù)上看,Llama 3.1 405B 標(biāo)志開源大模型首次追上了閉源大模型。

細分到基準(zhǔn)測試結(jié)果,Llama 3.1 405B 在 NIH/Multi-needle 基準(zhǔn)測試的得分為 98.1,雖然仍舊比不上 GPT-4o,但也表明其在處理復(fù)雜信息的能力上堪稱完美。

并且 405B 版本在 ZeroSCROLLS/QuALITY 基準(zhǔn)測試的得分為 95.2,意味著其具有整合海量文本信息的能力,對于關(guān)注 LLM 在 RAG 方面性能的 AI 應(yīng)用開發(fā)者來說,可謂是相當(dāng)友好。

尤為關(guān)注的是,Human-Eval 主要是負責(zé)測試模型在理解和生成代碼、解決抽象邏輯能力的基準(zhǔn)測試,而 Llama 3.1 405B 在與其他大模型的比拼中也是稍占上風(fēng)。

除了主菜 Llama 3.1 405B,雖為配菜的 Llama 3.1 8B 和 Llama 3.1 70B 也上演了一出「以小勝大」的好戲。

就基準(zhǔn)測試結(jié)果來看,Llama 3.1 8B 幾乎碾壓了 Gemma 2 9B 1T,以及 Mistral 7B Instruct,整體性能也比 Llama 3 8B 有了顯著提升。Llama 3.1 70B 則越級戰(zhàn)勝了 GPT-3.5 Turbo。

據(jù)官方介紹,針對這次發(fā)布的版本,Llama 研究團隊在 150 多個涵蓋多種語言的基準(zhǔn)數(shù)據(jù)集上對模型性能進行了評估,以及進行了大量的人工評估。

官方最終得出的結(jié)論是:

我們的旗艦?zāi)P驮诙喾N任務(wù)上與頂尖的基礎(chǔ)模型,如 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 等,具有競爭力。

同時,我們的小型模型在與參數(shù)數(shù)量相近的封閉和開放模型相比時,也展現(xiàn)出了競爭力。

Llama 3.1 405B 是如何煉成的

那 Llama 3.1 405B 是怎么訓(xùn)練的呢?

據(jù)介紹,作為 Meta 迄今為止最大的模型,Llama 3.1 405B 使用了超過 15 萬億個 token 進行訓(xùn)練。

為了實現(xiàn)這種規(guī)模的訓(xùn)練并在短時間內(nèi)達到預(yù)期的效果,研究團隊優(yōu)化了整個訓(xùn)練堆棧,在超過 16000 個 H100 GPU 上進行訓(xùn)練,這也是第一個在如此大規(guī)模上訓(xùn)練的 Llama 模型。

團隊也在訓(xùn)練過程中做了一些優(yōu)化,重點是保持模型開發(fā)過程的可擴展性和簡單性:

選擇了僅進行少量調(diào)整的標(biāo)準(zhǔn)解碼器 Transformer 模型架構(gòu),而不是混合專家模型,以最大限度地提高訓(xùn)練穩(wěn)定性。

采用了一種迭代后訓(xùn)練程序,每一輪都使用監(jiān)督微調(diào)和直接偏好優(yōu)化。這使得研究團隊能夠為每輪創(chuàng)建最高質(zhì)量的合成數(shù)據(jù),并提升每項功能的性能。

相較于舊版 Llama 模型,研究團隊改進了用于預(yù)訓(xùn)練和后訓(xùn)練的數(shù)據(jù)數(shù)量和質(zhì)量,包括為預(yù)訓(xùn)練數(shù)據(jù)開發(fā)更預(yù)處理和管理管道,為后訓(xùn)練數(shù)據(jù)開發(fā)更嚴格的質(zhì)量保證與過濾方法。

Meta 官方表示,在 Scaling Law 的影響之下,新的旗艦?zāi)P驮谛阅苌铣^了使用相同方法訓(xùn)練的小型模型。

研究團隊還利用了 405B 參數(shù)模型來提升小型模型的訓(xùn)練后質(zhì)量。

為了支持 405B 規(guī)模模型的大規(guī)模生產(chǎn)推理,研究團隊將模型從 16 位(BF16)精度量化到 8 位(FP8)精度,這樣做有效減少了所需的計算資源,并使得模型能夠在單個服務(wù)器節(jié)點內(nèi)運行。

Llama 3.1 405B 還有一些值得發(fā)掘的細節(jié),比如在設(shè)計上注重實用性和安全性,使其能夠更好地理解和執(zhí)行用戶的指令。

通過監(jiān)督微調(diào)、拒絕采樣和直接偏好優(yōu)化等方法,在預(yù)訓(xùn)練模型基礎(chǔ)上進行多輪對齊,構(gòu)建聊天模型,Llama 3.1 405B 也能夠更精確地適應(yīng)特定的使用場景和用戶需求,提高實際應(yīng)用的表現(xiàn)。

值得一提的是,Llama 研究團隊使用合成數(shù)據(jù)生成來產(chǎn)生絕大多數(shù) SFT 示例,這意味著他們并不全然依賴真實世界的數(shù)據(jù),而是通過算法生成的數(shù)據(jù)來訓(xùn)練模型。

此外,研究團隊團隊通過多次迭代過程,不斷改進合成數(shù)據(jù)的質(zhì)量。為了確保合成數(shù)據(jù)的高質(zhì)量,研究團隊采用了多種數(shù)據(jù)處理技術(shù)進行數(shù)據(jù)過濾和優(yōu)化。

通過這些技術(shù),團隊能夠擴展微調(diào)數(shù)據(jù)量,使其不僅適用于單一功能,而且可以跨多個功能使用,增加了模型的適用性和靈活性。

簡單來說,這種合成數(shù)據(jù)的生成和處理技術(shù)的應(yīng)用,其作用在于創(chuàng)建大量高質(zhì)量的訓(xùn)練數(shù)據(jù),從而有助于提升模型的泛化能力和準(zhǔn)確性。

作為開源模型路線的擁躉,Meta 也在 Llama 模型的「配套設(shè)施」上給足了誠意。

Llama 模型作為 AI 系統(tǒng)的一部分,支持協(xié)調(diào)多個組件,包括調(diào)用外部工具。

發(fā)布參考系統(tǒng)和開源示例應(yīng)用程序,鼓勵社區(qū)參與和合作,定義組件接口。

通過「Llama Stack」標(biāo)準(zhǔn)化接口,促進工具鏈組件和智能體應(yīng)用程序的互操作性。

模型發(fā)布后,所有高級功能對開發(fā)者開放,包括合成數(shù)據(jù)生成等高級工作流。

Llama 3.1 405B 內(nèi)置工具大禮包,包含關(guān)鍵項目,簡化從開發(fā)到部署的流程。

值得注意的是,新開源協(xié)議里,Meta 也不再禁止用 Llama 3 來改進其他模型了,其中也包括最強的 405B 尺寸,真·開源大善人。

一個由開源引領(lǐng)的新時代

網(wǎng)友 @ZHOZHO672070 也火速在 Hugging Chat 上測試了一下 Llama 3.1 405B Instruct FP8 對兩個經(jīng)典問題的回答情況。

遺憾的的是, Llama 3.1 405B 在解決「9.11 和 9.9 誰更大」的難題上遭遇翻車,不過再次嘗試之下,它又給出了正確答案。

而在「我一把把把住了」的拼音標(biāo)注上,其表現(xiàn)也尚可。

網(wǎng)友只用了不到 10 分鐘的時間,就借助 Llama 3.1 模型快速構(gòu)建和部署了一個聊天機器人。

另外,Llama 內(nèi)部科學(xué)家 @astonzhangAZ 也在 X 上透露,其研究團隊目前正在考慮將圖像、視頻和語音功能集成到 Llama 3 系列模型之中。

開源和閉源之爭,在大模型時代依然延續(xù)著,但今天 Meta Llama 3.1 新模型的發(fā)布為這場辯論畫上了句號。

Meta 官方表示,「到目前為止,開源大型語言模型在功能和性能方面大多落后于封閉式模型,F(xiàn)在,我們正迎來一個由開源引領(lǐng)的新時代。」

Llama 3.1 405B 的誕生證明了一件事情,模型的能力不在于開或閉,而在于資源投入、在于人和團隊等因素,Meta 選擇開源或許出于很多因素,但總會有人扛起這面大旗。

只不過,作為第一個吃螃蟹的巨頭,Meta 也因此收獲了首個超越最強閉源大模型的 SOTA 稱號。

Meta CEO 扎克伯格在今天發(fā)布的長文《Open Source AI Is the Path Forward》中寫道:

「從明年開始,我們預(yù)計未來的 Llama 將成為業(yè)內(nèi)最先進的。但在此之前,Llama 已經(jīng)在開源性、可修改性和成本效率方面領(lǐng)先!

開源 AI 模型志不在超越閉源,或出于技術(shù)平權(quán),不會讓其成為少數(shù)人牟利的手段,或出于眾人拾柴火焰高,推動 AI 生態(tài)的繁榮發(fā)展。

正如扎克伯格在其長文末尾所描述的愿景那樣:

我相信 Llama 3.1 版本將成為行業(yè)的一個轉(zhuǎn)折點,大多數(shù)開發(fā)人員將開始轉(zhuǎn)向主要使用開源技術(shù),我期待這一趨勢從現(xiàn)在開始持續(xù)發(fā)展……共同致力于將 AI 的福祉帶給全球的每一個人。

本文來源:Appso

Llama 3   1    開源大模型    Meta
appso

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部