對(duì)于獵豹移動(dòng)CEO傅盛來(lái)說(shuō),他今年最呼吁的一件事情,正在成為潮流——小模型逐漸成熟,成為企業(yè)落地商業(yè)化主力軍,這令他十分開(kāi)心。 可能很多人會(huì)困惑,大模型(LLM)正火的當(dāng)下,什么是小模型(SLM)?目前,市場(chǎng)通常將參數(shù)規(guī)模遠(yuǎn)少于GPT-4或Llama-13B的千億大語(yǔ)言模型,一般參數(shù)只有1.5B、3B、7B的模型稱為小大模型。 要說(shuō)小模型現(xiàn)在有多火,僅僅7月下半月,4家科技公司紛紛推出自己的小模型。 Hugging Face 推出了高性能的小型語(yǔ)言模型 SmoLLM,包括 135M、360M 和 1.7B,能夠直接在瀏覽器中運(yùn)行 OpenAI 緊隨其后發(fā)布了GPT-4o mini,直接讓GPT-3.5 Turbo成為歷史; Mistral AI 與英偉達(dá)合作推出了擁有 12 億參數(shù)的 Mistral Nemo,多語(yǔ)言支持、128K 上下文,性能優(yōu)于L3 8B和Gemma 2 9B; 蘋果也不甘示弱,發(fā)布了70億參數(shù)的小模型 DCLM-7B,并立即將其全部開(kāi)源。 如果將時(shí)間線再往前推到今年上半年,可以發(fā)現(xiàn)小模型市場(chǎng)早已經(jīng)開(kāi)始“神仙打架“,比如微軟4月發(fā)布了Phi-3、谷歌2月發(fā)布了Gemma-7B等。 半年6款知名的小模型發(fā)布,行業(yè)掛起了小模型的旋風(fēng)。 而此前國(guó)內(nèi)小模型的忠實(shí)擁躉,可能只有獵豹移動(dòng)。不同于其他大廠有大小系列模型覆蓋,2023年獵豹直接發(fā)不了中小模型Orion-14B,應(yīng)用于企業(yè)私有化模型落地。 盡管小模型市場(chǎng)競(jìng)爭(zhēng)不激烈,但前趕集網(wǎng)技術(shù)總監(jiān)、小晨科技創(chuàng)始人剻義剛告訴鯨哥:企業(yè)部署私有大模型,服務(wù)的海外客戶最常見(jiàn)的模型是GPT-3.5 turbo,國(guó)內(nèi)的百度文心多一些。 現(xiàn)在情況大變,無(wú)論GPT3.5還是GPT-4,已經(jīng)成企業(yè)市場(chǎng)的“舊愛(ài)”了,這些參數(shù)小能力大的小模型憑借超高性價(jià)比,一時(shí)成為市場(chǎng)的新寵。2024年會(huì)成為SLM元年嗎? 參數(shù)不如大模型,小模型憑啥火了? 在Scaling Law(尺度定律)的信仰下,一直向著萬(wàn)億大模型進(jìn)軍的科技巨頭們,紛紛轉(zhuǎn)向了小模型賽道,在市場(chǎng)看來(lái)可能有3大原因: 第一大原因就是大模型實(shí)在太貴了。 對(duì)于開(kāi)發(fā)者而言,訓(xùn)練大模型和燒錢無(wú)異。剻義剛就說(shuō)道:“好的大模型也十分貴,GPT-4的使用成本是GPT-3.5的10倍。 ” 最先進(jìn)的大模型,這么貴的原因,首當(dāng)其沖的就是硬件訓(xùn)練成本,GPU、TPU和CPU集群都是基本軍備。前有OpenAI用了25,000塊A100芯片訓(xùn)練GPT-4,后有馬斯克宣布要用10萬(wàn)塊H100組成超級(jí)AI訓(xùn)練集群。其次就是能源消耗,有數(shù)據(jù)顯示,全美AI數(shù)據(jù)中心的耗電量足以點(diǎn)亮整個(gè)紐約市。此外,人力成本、訓(xùn)練數(shù)據(jù)成本也都是一筆不小的開(kāi)銷。 而隨著模型的參數(shù)數(shù)量呈指數(shù)級(jí)增長(zhǎng),訓(xùn)練成本也在急劇上升。Anthropic首席執(zhí)行官Dario Amodei在一檔播客節(jié)目中表示,目前正在開(kāi)發(fā)的人工智能模型的訓(xùn)練成本高達(dá)10億美元。但未來(lái)三年AI模型的訓(xùn)練成本將上升到100億美元甚至1000億美元。至于GPT-4o“僅僅1億美元的開(kāi)發(fā)成本,已經(jīng)不值一提。 主流AI模型的訓(xùn)練和推理成本 這種成本上的巨大負(fù)擔(dān),讓巨頭們紛紛放下參數(shù)執(zhí)念,投身小模型。 小語(yǔ)言模型可以理解是大語(yǔ)言模型的濃縮版本,參數(shù)更少,設(shè)計(jì)更精煉,自然需要更少的數(shù)據(jù)、訓(xùn)練時(shí)間以及硬件成本。 比如可能僅僅聚焦于法律問(wèn)題上的小模型,參數(shù)不到100億,那它的訓(xùn)練成本往往可能不到1000萬(wàn)美元。 而且小模型的性價(jià)比不僅體現(xiàn)在訓(xùn)練端,對(duì)于用戶來(lái)說(shuō)也是如此。 由于小模型訓(xùn)練成本低、并且在相應(yīng)過(guò)程中消耗的算力更少,因此小模型的使用價(jià)格也顯得更加親民可人。 目前OpenAI的GPT-4o的百萬(wàn)Tokens輸入和輸出價(jià)格分別是5美元和15美元,而GPT-4o mini的百萬(wàn)Tokens輸入價(jià)格僅為15美分,輸出價(jià)格僅為60美分,價(jià)格速降了96%~97%。 從Artificial Analysis的統(tǒng)計(jì)中可以清晰看到大模型與小模型的成本差距。OpenAI CEO 山姆奧特曼對(duì)此的形容是:通往智能的成本已經(jīng)「too cheap to meter」(便宜到無(wú)法計(jì)量 )。 第二,除了便宜,小模型的性能也已經(jīng)拉滿。 最新發(fā)布的GPT-4o mini,在lmsys(測(cè)評(píng)榜單)的較量中展現(xiàn)出了超強(qiáng)實(shí)力,不僅與GPT-4o的滿血版本并列榜首,還將Claude 3.5等強(qiáng)勁對(duì)手甩在身后。 lmsys的排名機(jī)制是由用戶自主出題,隨機(jī)抽取兩個(gè)模型進(jìn)行一對(duì)一的較量。這種機(jī)制有效防止了模型通過(guò)“刷題”來(lái)獲得虛高的評(píng)分,主打一個(gè)真實(shí)。 分?jǐn)?shù)不代表一切,實(shí)際使用體驗(yàn)也是效果不錯(cuò)。 據(jù)OpenAI公布的案例顯示,GPT-4o mini已與Ramp和超人等公司進(jìn)行了合作,反饋發(fā)現(xiàn)在執(zhí)行從收據(jù)文件中提取結(jié)構(gòu)化數(shù)據(jù),或在提供線程歷史記錄時(shí),生成高質(zhì)量電子郵件響應(yīng)等任務(wù)時(shí),GPT-4o mini的表現(xiàn)明顯優(yōu)于GPT-3.5 Turbo。 更令人期待的是,GPT-4o mini 的API 現(xiàn)已支持文本(且大幅改善了非英文的效率)和視覺(jué),未來(lái)還將支持文本、圖像、視頻和音頻輸入和輸出。 不僅是GPT-4o mini,其他幾家的小模型也是爭(zhēng)奇斗艷。 主流小模型價(jià)格能力評(píng)價(jià) 被譽(yù)為「歐洲版 OpenAI」的 Mistral AI 旗下小模型Mistral NeMo,從整體性能上也在多項(xiàng)基準(zhǔn)測(cè)試中,擊敗了Gemma 2 9B和Llama 3 8B。并且該模型專為全球多語(yǔ)言應(yīng)用而設(shè)計(jì),在英語(yǔ)、法語(yǔ)、德語(yǔ)、葡萄牙語(yǔ)、中文方面等方面表現(xiàn)尤為突出。 而蘋果這次推出DCLM-7B 模型,在MMLU基準(zhǔn)上的5-shot準(zhǔn)確率達(dá)到了64%,與Mistral-7B和Llama 3 8B不相上下,但計(jì)算量只有后者的六分之一。在53個(gè)自然語(yǔ)言理解任務(wù)上,它的平均表現(xiàn)也可以與Llama 3 8B相媲美。 此外,蘋果這波格局了一把。不僅模型本身開(kāi)源,連訓(xùn)練數(shù)據(jù)集都一并公開(kāi),讓人們可以完整復(fù)現(xiàn)他們的工作。 第三、小模型除了性價(jià)比杠杠的,也憑借著小巧的身姿進(jìn)入了更多的應(yīng)用場(chǎng)景。 大模型在使用場(chǎng)景上有很多局限。比如智能手機(jī)、物聯(lián)網(wǎng)設(shè)備等邊緣設(shè)備,通常具有有限的計(jì)算能力和存儲(chǔ)空間,無(wú)法承載大型語(yǔ)言模型,而這時(shí)候小模型則可以完美嵌入。 又比如在對(duì)實(shí)時(shí)性有嚴(yán)格要求的應(yīng)用領(lǐng)域,例如實(shí)時(shí)圖像分析、語(yǔ)音識(shí)別和動(dòng)態(tài)推薦系統(tǒng),小模型由于參數(shù)少,能夠迅速地進(jìn)行推理,以極短的延遲滿足用戶的即時(shí)需求。 性價(jià)比超高,為何小模型現(xiàn)在才爆? 小模型有這么多優(yōu)點(diǎn),為什么巨頭們現(xiàn)在才開(kāi)始“真香”反轉(zhuǎn)呢? Open AI的產(chǎn)品主管Olivier Godement解釋,這單純是“純粹的優(yōu)先級(jí)”問(wèn)題。之前公司專注于GPT-4這類大模型上,隨著時(shí)間的推移,OpenAI才關(guān)注到開(kāi)發(fā)者對(duì)于小模型的需求。 但也有觀點(diǎn)認(rèn)為,大模型是通往小模型的必經(jīng)之路。 大型模型的訓(xùn)練就像是海綿吸水,盡可能把所有數(shù)據(jù)、信息囊括其中。而這樣做,有利有弊。大型模型在海量數(shù)據(jù)的依托下,能夠更好、更準(zhǔn)確的處理新新任務(wù),但同樣也可能因?yàn)閷W(xué)的太雜,而出現(xiàn)不同知識(shí)的重疊、混合和沖突。 而小模型則是站在大模型的肩膀上進(jìn)一步優(yōu)化。小模型接收的數(shù)據(jù),則是由超大模型進(jìn)行清洗的高質(zhì)量數(shù)據(jù)。比如對(duì)于GPT-4o mini進(jìn)行訓(xùn)練的數(shù)據(jù),就是由GPT-4進(jìn)行清洗的。 而這種先做大模型,再進(jìn)一步瘦身的訓(xùn)練模式正在成為新趨勢(shì)。科技巨頭們對(duì)于不再一味求大,而是求精。 在2023年4月,OpenAI的首席執(zhí)行官Sam Altman宣布了大型AI模型時(shí)代的結(jié)束。他指出,數(shù)據(jù)質(zhì)量是AI訓(xùn)練的關(guān)鍵成功因素,并且認(rèn)為關(guān)鍵問(wèn)題是人工智能系統(tǒng)如何從更少的數(shù)據(jù)中學(xué)到更多的東西。而這個(gè)觀點(diǎn)也得到微軟、Hugging Face等其他玩家的認(rèn)可。 而這種不斷精簡(jiǎn)優(yōu)化的過(guò)程則會(huì)不斷形成正循環(huán)。每一代模型都會(huì)幫助生成下一代的訓(xùn)練數(shù)據(jù),直到獲得“完美的訓(xùn)練集”。 未來(lái),和階梯式上升的小模型質(zhì)量形成對(duì)比的,則是不斷下降的小模型價(jià)格。 傅盛曾在WAIC中說(shuō)道,“千億參數(shù)大模型一年私有化授權(quán)費(fèi)用就是幾千萬(wàn),到今天應(yīng)該還是,然后私有化部署以后,買服務(wù)器的費(fèi)用最低成本160萬(wàn)(當(dāng)時(shí)的價(jià)格)”。 大模型太貴了。剻義剛也和AI鯨選社說(shuō)道,他們現(xiàn)在私有化部署一般是四五十萬(wàn),為了成本考量幾乎不太做微調(diào)。他們作為落地服務(wù)商沒(méi)有賺太多,大頭還是大模型企業(yè)的授權(quán)費(fèi)用。 現(xiàn)在企業(yè)使用大模型成本可能會(huì)大幅降低了。AI Grant 的兩位合伙人 Daniel Gross 和 Nat Friedman在訪談中, LLM成本在質(zhì)量不變差的情況下,每年可以降低 90% 的情況。 OpenAI也確實(shí)基本在證明了這件事。OpenAI 基本是以每 3 個(gè)月作為一個(gè)周期,總會(huì)有其中至少一個(gè)模型成本下降 60% ,或者成本下降至少 60% 的情況下,質(zhì)量還更高了。而一個(gè)模型基本上一年會(huì)經(jīng)歷兩次的降本增效,每次降低 60%,兩次過(guò)后就剛好是比之前降低了 90% 左右。 GPT-4o mini就是這種邏輯的成果體現(xiàn)。而且隨著高質(zhì)量數(shù)據(jù)集以及訓(xùn)練方式的改進(jìn),這些小模型有些能力甚至更突出。 正如 AI Grant 所說(shuō),沒(méi)理由認(rèn)為更小的模型不會(huì)有更好的表現(xiàn)!白罱@些 9B 的模型已經(jīng)震撼到我們了,沒(méi)有任何數(shù)學(xué)證明 3B 做不到同樣的效果。如果 3B 做到了,沒(méi)理由不運(yùn)行在本地,那么那時(shí)候除了一些電耗問(wèn)題外,我們更多的肯定是在做本地處理 + 云端模型的路由! 換言之,未來(lái)將不斷涌現(xiàn)越來(lái)越多更精簡(jiǎn)、更高效、更便宜的小模型。未來(lái)就像OpenAI創(chuàng)始成員及研究科學(xué)家Andrej Karpathy所發(fā)言,未來(lái)大模型的尺寸競(jìng)爭(zhēng)趨勢(shì)即將逆轉(zhuǎn),尺寸競(jìng)爭(zhēng)正在倒退。 企業(yè)落地最愛(ài),小模型加速商業(yè)化 “企業(yè)專用大模型,百億參數(shù)就夠了!笔歉凳⑦^(guò)去一年經(jīng)常說(shuō)的話。 但實(shí)際上,2023年將小模型向垂直方向微調(diào),打造出媲美大模型的效果,效果并沒(méi)有那么好,百億參數(shù)沒(méi)那么夠。 但現(xiàn)在情況不一樣了,gpt-4o-mini 在很多場(chǎng)景中不用微調(diào),都不比Chat-4 turbo差。 有AI創(chuàng)業(yè)者反饋:“gpt-4o-mini 的效果真的不錯(cuò)。首先是速度非?欤 4o 快多了,幾乎不需要等待,就可以讀取結(jié)果了。其次是實(shí)際的表現(xiàn),GPT-4o-mini 目前僅在復(fù)雜場(chǎng)景中還需借力,只有比較復(fù)雜一點(diǎn)的編程沒(méi)有搞定!叭粘5男枰阉饕+blog 或者教程才能解決的任務(wù),基本GPT-4o-mini 都可以完成的不錯(cuò)! 在大模型的托舉之下,小模型正在用更加輕盈的姿態(tài)落地。HuggingFace CEO Clem Delangue 甚至指出,多達(dá) 99% 的使用場(chǎng)景可以通過(guò) SLM 來(lái)解決,并預(yù)測(cè) 2024 年將是 SLM 元年。 剻義剛說(shuō)道,最近有家此前做了醫(yī)療和房地產(chǎn)領(lǐng)域的客戶,都是用的大模型。4o-mini發(fā)布那天,他看了下資料,比GPT-3.5 Turbo更好的性能,更長(zhǎng)的輸出,多模態(tài)支持 ,更低的費(fèi)用,以及更好的非英語(yǔ)語(yǔ)言的支持,感覺(jué)是天賜的好模型。 “最近談的一個(gè)招聘客戶,預(yù)計(jì)就是使用4o-mini!鄙忸A(yù)計(jì)會(huì)好做,也讓他的笑聲多了起來(lái)。 但他也提到,看行業(yè)分析,未來(lái)大模型、小模型會(huì)相輔相成落地企業(yè)的部署。 這意味著模型生態(tài)向著流動(dòng)、精準(zhǔn)進(jìn)一步發(fā)展。而從使用場(chǎng)景上,大模型、小模型也將分工明確。 大模型將繼續(xù)在需要廣泛知識(shí)基礎(chǔ)和高級(jí)認(rèn)知能力的領(lǐng)域中發(fā)揮其核心作用;而小模型則以其輕巧的身形和高效的性能,在成本敏感、對(duì)響應(yīng)時(shí)間有嚴(yán)格要求的應(yīng)用場(chǎng)景中大放異彩。 正如Forrester Research的資深A(yù)I分析師Rowan Curran所比喻:“并非時(shí)刻都需要跑車,有時(shí)一輛小型貨車或皮卡車更為合適。未來(lái)的模型應(yīng)用不會(huì)單一,而是根據(jù)不同需求選擇最適宜的工具! 甚至,未來(lái)大、小模型之間會(huì)出現(xiàn)任務(wù)的上下級(jí)協(xié)作。 DeepMind、普林斯頓大學(xué)和斯坦福大學(xué)的研究人員近日提出了一項(xiàng)名為 LATM(LLMs As Tool Makers)的創(chuàng)新框架,即讓大型語(yǔ)言模型生成自己的軟件工具來(lái)處理新任務(wù)。 它帶來(lái)了一種全新的大、小模型的分工形式。即將需要具備高強(qiáng)度算力才能實(shí)現(xiàn)的工具制造過(guò)程可以分配給功能強(qiáng)大、資源密集型的模型,例如 GPT-4;而將相對(duì)簡(jiǎn)單的使用工具過(guò)程分配給輕量級(jí)、經(jīng)濟(jì)高效的模型,也就是小模型。這種模式既節(jié)省成本又保證性能。 如今市場(chǎng)上,99%的企業(yè)實(shí)際上還沒(méi)有部署大模型進(jìn)業(yè)務(wù),小模型風(fēng)靡后,輔以大模型托底,這一巨大的市場(chǎng)會(huì)不會(huì)在2024年被撕開(kāi)? 本文來(lái)源:AI鯨選社 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。