1%的合成數(shù)據(jù),就讓LLM完全崩潰了? 7月,,用合成數(shù)據(jù)訓(xùn)練模型就相當(dāng)于「近親繁殖」,9次迭代后就會(huì)讓模型原地崩潰。 然而,許多大佬都不同意這篇文章的方法和結(jié)論。 比如,Scale AI的CEO Alexandr Wang就很看好合成數(shù)據(jù)的前景,甚至使用了98%的合成數(shù)據(jù)。 最近,Meta、紐約大學(xué)、UCLA機(jī)構(gòu)發(fā)表的最新論文,再一次動(dòng)搖了這些大佬們的結(jié)論。 他們發(fā)現(xiàn),即使合成數(shù)據(jù)僅僅占到總數(shù)據(jù)集的最小部分,甚至是1%的比例,仍然可能導(dǎo)致模型崩潰。 甚至,ChatGPT和Llama這種較大的模型,還可能放大這種「崩潰」現(xiàn)象。 強(qiáng)模型崩潰,如何發(fā)生的? 隨著越來(lái)越多的合成數(shù)據(jù)出現(xiàn)在訓(xùn)練集中,一種新的現(xiàn)象應(yīng)運(yùn)而生:「模型崩潰」。 所謂「模型崩潰」,是指隨著時(shí)間的推移,LLM或大型圖像生成器在其前幾代生成的數(shù)據(jù)上進(jìn)行遞歸訓(xùn)練,導(dǎo)致性能下降,直至模型完全喪失能力的情況。 圍繞著這個(gè)問(wèn)題,AI學(xué)界和業(yè)界的大佬依舊莫衷一是,尚未達(dá)成一致的結(jié)論。 而合成數(shù)據(jù)究竟會(huì)在多大比例、多大程度上導(dǎo)致「模型崩潰」,直接影響著我們?cè)谖磥?lái)如何應(yīng)用這項(xiàng)技術(shù)。 從直覺(jué)上理解,合成數(shù)據(jù)導(dǎo)致「模型崩潰」的底層邏輯,是由于模型開(kāi)始對(duì)合成數(shù)據(jù)中的模式進(jìn)行過(guò)擬合,而這些模式可能無(wú)法代表現(xiàn)實(shí)世界數(shù)據(jù)的豐富性或可變性。 如果進(jìn)行連續(xù)的迭代訓(xùn)練,這種反饋循環(huán)會(huì)導(dǎo)致模型強(qiáng)化合成數(shù)據(jù)中存在的錯(cuò)誤、偏差或過(guò)度簡(jiǎn)化,因而損害了對(duì)現(xiàn)實(shí)世界的準(zhǔn)確表示能力和泛化能力。 總體而言,這篇文章旨在回答以下兩個(gè)重要問(wèn)題: Q1:模型崩潰是不可避免的,還是可以通過(guò)策略性地混合真實(shí)數(shù)據(jù)和合成數(shù)據(jù)來(lái)解決? Q2:較大的模型比較小的模型更容易崩潰嗎? 針對(duì)這兩個(gè)問(wèn)題,論文以經(jīng)典線性設(shè)置中的回歸問(wèn)題為例進(jìn)行了理論分析,之后在「玩具設(shè)置」(MINIST數(shù)據(jù)集+迷你模型)和更接近真實(shí)場(chǎng)景的GPT-2模型上運(yùn)行了實(shí)驗(yàn)。 理論設(shè)置 數(shù)據(jù)分布 考慮從真實(shí)數(shù)據(jù)分布P_1采樣得到的n_1個(gè)獨(dú)立同分布樣本_1={(x_i, y_i)∣1≤i≤n_1},以及從合成數(shù)據(jù)分布采樣得到了n_2個(gè)獨(dú)立同分布樣本_2={(x_i, y_i)∣1≤i≤n_2},令n:=n_1+n_2為訓(xùn)練數(shù)據(jù)總量。 這里,數(shù)據(jù)分布的特征可以在ℝ^d×ℝ上給出,即P_k=P_{Σ_k,w_k^∗,σ_k^2}: 其中,每個(gè)Σ_k都是一個(gè)d×d的正定協(xié)方差矩陣,捕獲輸入特征向量x的內(nèi)在變化;σ_k控制每種分布中標(biāo)簽噪聲的水平。 為了簡(jiǎn)潔起見(jiàn),我們將對(duì)w_k^∗做出以下先驗(yàn)假設(shè)(對(duì)于某些d×d正半定矩陣Γ和Δ): - 真實(shí)標(biāo)簽:w_1^∗∼N(0,Γ) - 真實(shí)標(biāo)簽與合成標(biāo)簽之間的不匹配:δ:=w_2^∗−w_1^∗∼N(0,Δ) ,獨(dú)立于w_1^∗ 其中,矩陣Γ捕獲真實(shí)/測(cè)試分布中的真實(shí)標(biāo)簽函數(shù)的結(jié)構(gòu)P_1;矩陣Δ=cov(w_2^∗−w_1^∗)捕獲數(shù)據(jù)分布P_1和P_2之間關(guān)于條件分布p(y|x)差異的協(xié)方差結(jié)構(gòu),連同標(biāo)簽的噪聲水平σ_1^2和σ_2^2。 平均而言,兩種分布的L2范數(shù)差異可以表示為,。 因此,合成數(shù)據(jù)的質(zhì)量就可以被定義為,。 模型和性能度量 給定訓(xùn)練數(shù)據(jù),模型的學(xué)習(xí)目標(biāo)是構(gòu)建一個(gè)估計(jì)器w\hat,這可以看作是一個(gè)線性模型 x↦x^⊤w\hat。與真實(shí)數(shù)據(jù)分布P_1對(duì)比,模型的測(cè)試誤差f\hat:ℝ^d→ℝ就可被定義為: 針對(duì)不同的模型,f\hat就是本篇論文的主要研究對(duì)象。此處考慮兩類易于分析處理的模型:1)經(jīng)典線性模型,對(duì)輸入空間中的回歸施加懲罰,以及2)通過(guò)隨機(jī)投影得到特征空間,之后施加回歸懲罰獲得的模型。 第一類線性模型的優(yōu)化目標(biāo)如公式3所定義: 該模型存在如下的比例縮放限制(proportionate scaling limit): 由此,我們可以得到表示經(jīng)典線性模型 f_{CL}\hat的定理1: 由定理1和相關(guān)推論可知,在Scaling Law范式中(ϕ→0+),如果要保持穩(wěn)定,則必須要求p2→0+,即僅對(duì)真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練,否則就會(huì)導(dǎo)致模型崩潰。 對(duì)第二類的隨機(jī)投影模型(random projections model),可以通過(guò)其中的隨機(jī)投影來(lái)簡(jiǎn)單近似神經(jīng)網(wǎng)絡(luò)。 相當(dāng)于,模型中,v\hat ∈ ℝ^k通過(guò)擬合數(shù)據(jù)集進(jìn)行學(xué)習(xí),優(yōu)化目標(biāo)如公式5所定義: 同樣規(guī)定在如下的漸近(asymptotic)機(jī)制中工作: 這類模型可以被視為實(shí)際神經(jīng)網(wǎng)絡(luò)高維動(dòng)態(tài)的簡(jiǎn)化。將定理1擴(kuò)展到隨機(jī)投影情況,可以得到定理2: 其中,ζ表達(dá)式的第一項(xiàng)給出了下界。 這就意味著,除非p2→0+,即訓(xùn)練集中合成數(shù)據(jù)部分消失,否則模型的性能將始終穩(wěn)定在基線E\bar之上(意味著強(qiáng)烈的模型崩潰)。 此外,其中的部分僅取決于模型的設(shè)計(jì)選擇(之前通過(guò)標(biāo)量θ定義),因此可以預(yù)計(jì),不同的設(shè)計(jì)選擇(例如模型大。,將導(dǎo)致不同的模型崩潰輪廓。 實(shí)驗(yàn)結(jié)果 如上所示,定理2作為定理1的拓展,給了我們相同的結(jié)論:要想模型不崩潰,合成數(shù)據(jù)比例就需要無(wú)限接近0。 接下來(lái),作者通過(guò)一系列實(shí)驗(yàn)驗(yàn)證了這一理論推導(dǎo),并探究模型尺寸在其中扮演的作用。 圖1對(duì)應(yīng)的實(shí)驗(yàn)中,訓(xùn)練樣本總數(shù)固定為 n=500,不同的c^2值對(duì)應(yīng)不同質(zhì)量的合成數(shù)據(jù)。 c^2=0 (非常高質(zhì)量的綜合數(shù)據(jù)),用方形標(biāo)記表示;c^2=0.1 (高質(zhì)量合成數(shù)據(jù)),用菱形表示;c^2=0.5 (低質(zhì)量),用三角形表示,以及c^2=1 (非常低質(zhì)量的合成數(shù)據(jù)),用星形表示 由圖可知,對(duì)于較高質(zhì)量的合成數(shù)據(jù)(方形和菱形),使用較大的模型(即更大的ψ)的確是最佳實(shí)踐;但如果數(shù)據(jù)質(zhì)量較低,模型并不是越大越好,最佳權(quán)衡反而處于中等大小。 此外,如圖5所示,網(wǎng)絡(luò)的寬度m也會(huì)造成影響,而且實(shí)驗(yàn)得到的曲線與理論預(yù)測(cè)值的擬合效果比較理想。 實(shí)線對(duì)應(yīng)實(shí)驗(yàn)結(jié)果(5次運(yùn)行),而虛線對(duì)應(yīng)理論預(yù)測(cè) 改變合成數(shù)據(jù)的質(zhì)量后,圖5所示的整體趨勢(shì)依舊成立。 圖6所示的實(shí)驗(yàn)采用了經(jīng)過(guò)全面訓(xùn)練的兩層網(wǎng)絡(luò),但僅根據(jù)合成數(shù)據(jù)進(jìn)行訓(xùn)練,依舊支持了上述的總體趨勢(shì): - 合成數(shù)據(jù)造成了顯著的模型崩潰 - 模型越大,崩潰程度越嚴(yán)重 圖7分別顯示了隨機(jī)特征模型(左)和完全訓(xùn)練的神經(jīng)網(wǎng)絡(luò)(右)的結(jié)果,探究合成數(shù)據(jù)比例的影響。 兩種情況基本一致,除非P_2接近0,否則模型就逐漸脫離Scaling Law的軌跡,逐漸拉平成為一條水平線,即MSE損失不再隨樣本增加而降低,意味著出現(xiàn)了模型崩潰。 相比圖7的小模型和小數(shù)據(jù)集,圖8使用的BabiStories數(shù)據(jù)集和GPT-2模型更接近現(xiàn)實(shí)中的復(fù)雜情況。 可以看到,即便是少量的合成數(shù)據(jù)也會(huì)延遲Scaling Law的進(jìn)展,作者預(yù)計(jì),這最終會(huì)導(dǎo)致最終Scaling Law提前達(dá)到飽和狀態(tài)或至少出現(xiàn)非常糟糕的指數(shù)(即小指數(shù))。 圖8(右)所示的關(guān)于模型尺寸的影響。在數(shù)據(jù)集的某個(gè)閾值前,較大/較深的模型保持較低的測(cè)試損失;但超過(guò)一定閾值后,較小的模型反而由于減少過(guò)擬合而占了上風(fēng)。 這表明,較大的模型往往會(huì)將模型崩潰放大到某個(gè)插值的閾值之外。 BabiStories包含Mixtral-8x7B生成的高質(zhì)量合成數(shù)據(jù) 數(shù)據(jù)混合,能否防止LLM崩潰? 如上,作者分別從理論、實(shí)證上,證實(shí)了強(qiáng)模型崩潰所在。 接下來(lái),他們將通過(guò)合成數(shù)據(jù)策略,探索如何緩解模型崩潰這一現(xiàn)象。 這里首先假設(shè)有關(guān)于數(shù)據(jù)源的明確信息,并使用兩種數(shù)據(jù)混合方法: 1 加權(quán)數(shù)據(jù)混合 2 戰(zhàn)略性迭代混合 加權(quán)單步數(shù)據(jù)混合 為了研究學(xué)習(xí)真實(shí)數(shù)據(jù)和替代數(shù)據(jù)(例如合成數(shù)據(jù))混合的scaling law,考慮的設(shè)置需包括以下優(yōu)化問(wèn)題: 結(jié)果如下所示,真實(shí)數(shù)據(jù)+模擬數(shù)據(jù)混合法,無(wú)法解決模型崩潰問(wèn)題。 在實(shí)驗(yàn)中,作者使用了多個(gè)不同的真實(shí)數(shù)據(jù)n1和合成數(shù)據(jù)n2的大小值。 動(dòng)態(tài)/多步數(shù)據(jù)混合 迭代混合恢復(fù)了scaling law,但在實(shí)踐中可能不可行。 研究人員觀察到,在t次迭代(t的數(shù)量級(jí)為log(n/d))的迭代混合后,會(huì)得到與E成比例的縮放規(guī)律,這在圖10中得到了經(jīng)驗(yàn)證實(shí)。 然而,這需要付出顯著的自舉(bootstrapping)成本,大量的真實(shí)數(shù)據(jù),以及在多次迭代中清晰區(qū)分真實(shí)和合成數(shù)據(jù)的能力——這些條件在實(shí)踐中都過(guò)于計(jì)算密集且難以實(shí)現(xiàn)。 而且,迭代混合主要依賴真實(shí)數(shù)據(jù)。 在圖10中,研究人員比較了迭代混合的scaling效果,與僅使用同一訓(xùn)練集中部分真實(shí)數(shù)據(jù)(Clean)所獲得的scaling效果。 雖然scaling率保持一致,但迭代混合的表現(xiàn)始終不如單獨(dú)使用真實(shí)數(shù)據(jù)。 這表明迭代混合可能主要是中和了合成數(shù)據(jù),并嚴(yán)重依賴真實(shí)數(shù)據(jù)來(lái)恢復(fù)scaling效果。 即使原始合成數(shù)據(jù)質(zhì)量很高(即當(dāng)很小時(shí),如圖10最右側(cè)所示),迭代方法也未能有效利用合成數(shù)據(jù),導(dǎo)致性能比單次混合更差。 因此,盡管迭代混合恢復(fù)了相同的scaling率,模型仍在某種程度上發(fā)生了崩潰,并且沒(méi)有觀察到顯著的性能改善。 最后,研究人員還證明了,與少量實(shí)際數(shù)據(jù)進(jìn)行迭代混合,也是會(huì)導(dǎo)致模型崩潰。 總而言之,這項(xiàng)研究系統(tǒng)地描述了真實(shí)、合成數(shù)據(jù)混合,訓(xùn)練模型的效果,表明了模型崩潰是一種穩(wěn)健的現(xiàn)象,即使在合成數(shù)據(jù)比例很小的情況下。 作者介紹 Elvis Dohmatob 2021年,Elvis Dohmatob加入了FacebookAI Research(FAIL)成為一名研究員。在此之前,他曾在INRIA、Criteo擔(dān)任過(guò)研究員。 他的研究興趣包括:深度學(xué)習(xí)(主要是理論方面)、穩(wěn)健優(yōu)化等等。 Yunzhen Feng(馮韞禛) Yunzhen Feng目前是紐約大學(xué)數(shù)據(jù)科學(xué)中心數(shù)學(xué)和數(shù)據(jù)組的博士生,導(dǎo)師是Julia Kempe教授。在Meta的FIRE實(shí)習(xí)期間,與Yann Olivier博士共事。 目前,他的研究興趣在于:1)改進(jìn)的科學(xué)推理方法,2)強(qiáng)化學(xué)習(xí)和測(cè)試時(shí)間優(yōu)化,3)人工智能合成數(shù)據(jù)對(duì)當(dāng)代學(xué)習(xí)范式的影響。 他曾在2021年獲得北大數(shù)院應(yīng)用數(shù)學(xué)學(xué)士學(xué)位,導(dǎo)師是Bin Dong教授。 Arjun Subramonian Arjun Subramonian目前是UCLA計(jì)算機(jī)科學(xué)理論博士生,并在Meta實(shí)習(xí)。 他的博士研究重點(diǎn)是圖神經(jīng)網(wǎng)絡(luò)中社會(huì)不公平的理論基礎(chǔ),對(duì)利用譜圖理論和統(tǒng)計(jì)學(xué)來(lái)表征圖的結(jié)構(gòu)屬性如何導(dǎo)致算法不公平感興趣。 Julia Kempe Julia Kempe是紐約大學(xué)數(shù)據(jù)科學(xué)中心和Courant數(shù)學(xué)科學(xué)研究所計(jì)算機(jī)科學(xué)、數(shù)學(xué)和數(shù)據(jù)科學(xué)的銀牌教授,也是Meta Fair的客座高級(jí)研究員。 本文來(lái)源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。