「小模型周」過去了 ,小模型的最新戰(zhàn)場才剛剛開辟。 上周GPT-4o mini和Mistral NeMo二連發(fā),「麻雀雖小,五臟俱全」的小模型成為業(yè)界大佬密切關(guān)注的新方向。 這么說來,難道大模型要失寵了? Scaling Law要失效了? 前OpenAI和特斯拉AI研究員Andrej Karpathy剛剛?cè)刖諥I教育,「K老師」最近發(fā)表推文指導行業(yè)迷津,揭秘科技巨頭紛紛轉(zhuǎn)向小模型研發(fā)的背后新趨勢:AI大模型的競爭即將逆轉(zhuǎn)。 他預判,未來的模型將會更小,但仍然會變得更智能。 人工智能巨頭公司和一些新晉獨角獸,最近都發(fā)布了與其他同行相比更緊湊、更強大、更實惠的人工智能模型,最新的例子是OpenAI的GPT-4o mini。 Karpathy預測這一趨勢將持續(xù)下去。他寫道,「我敢打賭,我們會看到很多能夠有效可靠思考的模型,而且體積非常小! 小模型:站在巨人的肩膀上 在LLM發(fā)展的初期階段,吞吐更多數(shù)據(jù),把模型往大了做是必然的趨勢。這主要基于以下幾個原因: 首先,數(shù)據(jù)驅(qū)動的需求。 生活在一個數(shù)據(jù)爆炸的時代,大量豐富和多樣化的數(shù)據(jù)需要更強大的模型來處理和理解。 大模型具備容納和處理海量數(shù)據(jù)的能力,通過大規(guī)模的數(shù)據(jù)訓練,能夠挖掘出深層次的模式和規(guī)律。 其次,計算能力的提升。 硬件技術(shù)的不斷進步,GPU等高性能計算設(shè)備的發(fā)展,為大模型的訓練提供了強大的算力支持。使得訓練大型、復雜的模型成為可能。 再者,追求更高的性能和精度。 大模型通常能夠在語言理解、生成、圖像識別等多個領(lǐng)域展現(xiàn)出卓越的性能,懂的越多,生成出來的結(jié)果也就越準確。 最后,泛化能力更強。 大模型能夠更好地處理未曾見過的新問題和新任務,能夠基于之前學到的知識進行合理的推測和回答,具有更強的泛化能力。 再加上AI領(lǐng)域競爭激烈,各研究機構(gòu)和巨頭都致力于開發(fā)更大更強的模型,展示技術(shù)實力和領(lǐng)先地位,卷模型大小自然成了LLM的發(fā)展大方向。 Karpathy也將當前最強大模型的規(guī)模歸因于訓練數(shù)據(jù)的復雜性,并補充說大語言模型在記憶方面表現(xiàn)出色,超越了人類的記憶能力。 類比一下,期末周如果你要接受閉卷考試,考試要求根據(jù)前幾個單詞背誦書本上的某個段落。 這就是當今大模型的預訓練目標。Karpathy表示,現(xiàn)在的大模型就像是一個貪吃蛇,只想把所有能用的數(shù)據(jù)全部吞進肚子里。 它們不僅能背誦常見數(shù)字的SHA系列哈算法,還能記住所有領(lǐng)域大大小小的知識。 但是,這種學習方式就像是你為了考試,把整個圖書館和互聯(lián)網(wǎng)上的內(nèi)容通通都背下來。 不可否認能做到這種記憶能力的是天才,但是結(jié)果考試時只用到了其中的一頁! 對于這種天才學生——LLM想要做得更好之所以困難,是因為在訓練數(shù)據(jù)的過程中,思維演示與知識「糾纏」在一起。 而且,一方面從實際應用的角度來看,大模型在部署和運行時面臨著高昂的成本和資源消耗,包括計算資源、存儲資源以及能源消耗等。 小模型更易于在各種設(shè)備和場景中進行部署,滿足使用便利性和低功耗的要求。 另一方面,從技術(shù)成熟的角度考慮,當通過大模型充分探索和理解了問題的本質(zhì)和規(guī)律后,可以將這些知識和模式提煉并應用于小模型的設(shè)計和優(yōu)化中。 使得小模型在保持大模型同等性能甚至更優(yōu)性能的前提下,降低規(guī)模和成本。 雖然大模型發(fā)展遇到了瓶頸,小模型逐漸成為新趨勢,但是Karpathy強調(diào),大模型仍然是需要的,即使它們沒有得到有效的訓練,但是小模型正是從大模型中濃縮而來。 Karpathy預計,每個模型都會不斷改進,為下一個模型生成訓練數(shù)據(jù),直到出現(xiàn)「完美的訓練集」。 即使是像GPT-2這樣,擁有15億個參數(shù)的已經(jīng)out模型,當你用這個完美的訓練集來訓練GPT-2時,它可能會變成一個按今天標準來看非常強大且智能的模型。 這個用完美的訓練集訓練過的GPT-2可能在例如大規(guī)模多任務語言理解(MMLU)測試中的分數(shù)會稍低一些,MMLU測試涵蓋57項任務,包括初等數(shù)學、美國歷史、計算機科學、法律等,用以評測大模型基本的知識覆蓋范圍和理解能力。 但未來更智能的人工智能模型并不走量取勝,它可以更可靠地檢索信息并驗證事實。 正如一個學霸做開卷考試,雖然不是所有的知識都爛熟于心,但是能夠精準地定位到正確答案。 據(jù)報道,OpenAI的Strawberry項目就著重在解決這個問題。 「虛胖」大模型的「瘦身」 正如Karpathy所說,經(jīng)過海量數(shù)據(jù)訓練出來的超大模型(如GPT-4),大部分其實是用來記住大量的無關(guān)緊要細節(jié)的,也就是死記硬背資料。 這與模型預訓練的目的有關(guān),在預訓練階段,模型被要求盡可能準確的復述接下來的內(nèi)容,這相當于背課文,背的越準得分越高。 雖然,模型能學會里面反復出現(xiàn)的知識,但是,數(shù)據(jù)資料有時也會出現(xiàn)錯誤和偏見,模型還要先全部記住再進行微調(diào)。 Karpathy相信如果有更高質(zhì)量的訓練數(shù)據(jù)集,完全可以訓練出一個規(guī)模更小,能力更強,更有推理能力的模型。 可以在超大模型的幫助下,自動生成,清洗出質(zhì)量更高的訓練數(shù)據(jù)集。 類似GPT-4o mini,就是用GPT-4清洗出來的數(shù)據(jù)訓練的。 先把模型做大,然后在此基礎(chǔ)上「瘦身」,這可能是一種模型發(fā)展的新趨勢。 做個生動的比喻就像當前的大模型存在數(shù)據(jù)集過多虛胖的問題,經(jīng)過數(shù)據(jù)清洗和大量訓練,搖身一變一身精瘦肌肉的小模型。 這個過程就像是一個階梯式的進化,每一代模型都會幫助生成下一代的訓練數(shù)據(jù),直到我們最終得到一個「完美的訓練集」。 OpenAI首席執(zhí)行官Sam Altman也發(fā)表了類似言論,早在2023年4月就宣布大型AI模型的「時代結(jié)束」。 并且,數(shù)據(jù)質(zhì)量是AI訓練的關(guān)鍵成功因素也越來越成為共識,無論是真實數(shù)據(jù)還是合成數(shù)據(jù)。 奧特曼認為,關(guān)鍵問題是人工智能系統(tǒng)如何從更少的數(shù)據(jù)中學到更多的東西。 微軟研究人員在開發(fā)Phi模型時也做出了相同的判斷,Hugging Face AI研究人員也同意對于高質(zhì)量數(shù)據(jù)集的追求,并發(fā)布了高質(zhì)量的訓練數(shù)據(jù)集。 這意味著一味擴張不再是科技巨頭們唯一的技術(shù)目標,即使是小型的高質(zhì)量模型也可以受益于更多、更多樣化、更高質(zhì)量的數(shù)據(jù)。 回到更小、更高效的模型可以被視為下一個整合階段的目標,OpenAI的模型發(fā)布就清晰地表明未來的發(fā)展方向。 評論區(qū):正確的、中肯的、一陣見血的 Karpathy還提到了特斯拉在自動駕駛網(wǎng)絡(luò)上的類似做法。 特斯拉有一個叫「離線追蹤器」的東西,通過運行先前的較弱模型,生成更干凈的訓練數(shù)據(jù)。 一聽到特斯拉技術(shù)被cue走在時代前列,馬斯克迅速趕往評論區(qū): 評論區(qū)的網(wǎng)友對于Karpathy的遠見卓識也紛紛表示,臣附議! 對于未來的通用人工智能來說,更小、更高效的人工智能模型可能會重新定義人工智能中的「智能」,挑戰(zhàn)「越大越好」的假設(shè)。 《Python機器學習》作者Sebastian Raschka認為,這就像是知識蒸餾,從27B的大模型蒸餾出Gemma-2這樣的小模型。 他也提醒我們,MMLU這種多選題測試,可以測試知識,但不能完全反映實際能力。 也有網(wǎng)友腦洞大開,如果小模型表現(xiàn)得好,那么術(shù)業(yè)有專攻,為什么不用更多的小模型來生成一個個回答呢? 召集10個AI助手,然后讓最聰明的那個做最后的總結(jié),簡直是AI版的智囊團。 那么,AGI到底是一個全能大模型,還是來自許多小模型的協(xié)作呢? 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選