在2025年5月25日發(fā)布于arXiv預(yù)印本平臺(tái)的研究論文《基于影響力蒸餾的高效大規(guī)模數(shù)據(jù)選擇》中,來自ISTA(Institute of Science and Technology Austria)和谷歌研究院的Mahdi Nikdan、Vincent Cohen-Addad、Dan Alistarh和Vahab Mirrokni團(tuán)隊(duì)提出了一種名為"影響力蒸餾"(Influence Distillation)的創(chuàng)新方法,旨在解決大型語言模型(LLMs)訓(xùn)練中的數(shù)據(jù)選擇問題。對(duì)于想深入了解該研究的讀者,可以通過arXiv:2505.19051v1 [cs.CL]查閱完整論文。
一、為什么我們需要更聰明地選擇訓(xùn)練數(shù)據(jù)?
想象一下,你需要從一個(gè)裝滿成千上萬個(gè)食譜的巨大食譜集中,挑選出最適合教你烤一種特定蛋糕的幾十個(gè)食譜。你會(huì)怎么做?隨機(jī)抓取一把?挑選看起來最厚的?還是找一種更聰明的方法來選擇那些最能幫助你烤好特定蛋糕的食譜?
這個(gè)問題與當(dāng)今大型語言模型(如ChatGPT背后的模型)的訓(xùn)練極為相似。研究人員面臨著從海量數(shù)據(jù)中選擇哪些數(shù)據(jù)來訓(xùn)練模型的難題。訓(xùn)練這些龐然大物需要驚人的計(jì)算資源,因此找到一種方法來挑選最有價(jià)值的訓(xùn)練樣本變得至關(guān)重要。
現(xiàn)有的數(shù)據(jù)選擇方法存在幾個(gè)關(guān)鍵問題。首先,許多方法使用固定的、與模型無關(guān)的特征(比如靜態(tài)嵌入),這些特征可能無法完全捕捉訓(xùn)練樣本與目標(biāo)分布之間的關(guān)系。其次,那些在訓(xùn)練過程中更新權(quán)重的方法缺乏理論支持,可能不穩(wěn)定。最后,依賴參考模型訓(xùn)練或昂貴嵌入的方法在計(jì)算上很昂貴,難以擴(kuò)展到大規(guī)模數(shù)據(jù)集。
谷歌研究院和ISTA的研究團(tuán)隊(duì)提出的"影響力蒸餾"方法通過數(shù)學(xué)上有理論支持的框架解決了這些問題。這個(gè)框架巧妙地利用二階信息來為訓(xùn)練樣本分配最優(yōu)權(quán)重,從而選擇最有價(jià)值的訓(xùn)練數(shù)據(jù)。
二、影響力蒸餾:一種數(shù)據(jù)選擇的新視角
影響力蒸餾的核心思想是什么?簡(jiǎn)單來說,它試圖回答的問題是:"如果我在訓(xùn)練中使用這個(gè)特定樣本,它會(huì)對(duì)我在目標(biāo)任務(wù)上的表現(xiàn)產(chǎn)生多大影響?"
想象你是一位烹飪教師,需要為學(xué)生設(shè)計(jì)一門課程,讓他們學(xué)會(huì)制作法式甜點(diǎn)。你有成百上千種不同的烹飪技巧可以教授,但課程時(shí)間有限。你會(huì)怎么選擇?直覺上,你會(huì)選擇那些對(duì)制作法式甜點(diǎn)最有幫助的技巧,而不是那些可能對(duì)制作中餐或意大利面更有幫助的技巧。
影響力蒸餾就是這樣工作的。它不是隨機(jī)選擇訓(xùn)練樣本,也不是使用簡(jiǎn)單的啟發(fā)式方法(如基于困惑度的篩選),而是通過計(jì)算每個(gè)訓(xùn)練樣本對(duì)目標(biāo)任務(wù)表現(xiàn)的"影響力"來選擇樣本。
具體來說,影響力蒸餾通過數(shù)學(xué)公式衡量了如果將特定訓(xùn)練樣本包含在梯度步驟中,它預(yù)期會(huì)如何影響模型在目標(biāo)數(shù)據(jù)上的表現(xiàn)。這種方法對(duì)梯度下降(GD)和Adam優(yōu)化器都有效,研究團(tuán)隊(duì)為這兩種優(yōu)化器都推導(dǎo)了最優(yōu)權(quán)重公式。
三、從理論到實(shí)踐:讓影響力蒸餾在現(xiàn)實(shí)世界中工作
雖然影響力蒸餾的理論框架非常優(yōu)雅,但在實(shí)際應(yīng)用中還面臨著幾個(gè)挑戰(zhàn)。首先,計(jì)算Hessian矩陣(用于二階信息)需要存儲(chǔ)反向圖,這會(huì)帶來額外的內(nèi)存開銷。其次,構(gòu)建梯度矩陣需要計(jì)算模型相對(duì)于訓(xùn)練集中每個(gè)樣本的梯度,這在計(jì)算上非常昂貴。最后,影響力蒸餾依賴于正則化系數(shù)λ的選擇,如何選擇合適的λ值也是一個(gè)挑戰(zhàn)。
為了解決這些問題,研究團(tuán)隊(duì)提出了幾種實(shí)用的解決方案:
首先,他們發(fā)現(xiàn)在實(shí)際設(shè)置中,當(dāng)學(xué)習(xí)率η足夠小時(shí),二階項(xiàng)變得可以忽略不計(jì)。這意味著計(jì)算過程可以簡(jiǎn)化為一階影響力蒸餾,類似于之前基于梯度的影響力估計(jì)方法,但有更堅(jiān)實(shí)的理論基礎(chǔ)。
其次,為了減少存儲(chǔ)梯度的成本,團(tuán)隊(duì)采用了類似于之前工作的方法,將每個(gè)梯度向量在計(jì)算時(shí)投影到一個(gè)低維空間。與使用隨機(jī)Rademacher分布采樣的投影不同,他們發(fā)現(xiàn)使用隨機(jī)Hadamard變換在實(shí)踐中更快。
第三,也是最具創(chuàng)新性的一點(diǎn),他們引入了基于"地標(biāo)"(landmark)的梯度近似方法。這種方法首先選擇一小部分"地標(biāo)"樣本,精確計(jì)算它們的影響力,然后通過一種巧妙的方式將這種影響力高效地傳播到所有其他樣本。這顯著減少了對(duì)整個(gè)數(shù)據(jù)集進(jìn)行梯度計(jì)算的計(jì)算開銷。
這個(gè)地標(biāo)方法的關(guān)鍵在于:我們不需要為每個(gè)訓(xùn)練樣本計(jì)算精確的梯度,只需為一小部分樣本計(jì)算,然后利用樣本之間的相似性來近似其他樣本的梯度。這就像是在一片未知的森林中,我們只需要精確測(cè)量幾個(gè)地標(biāo)位置,就可以基于與這些地標(biāo)的相對(duì)位置來推斷森林中所有其他點(diǎn)的位置。
四、JVP嵌入:一種新型的樣本表示方法
影響力蒸餾的另一個(gè)創(chuàng)新是引入了一種名為"雅可比-向量積"(Jacobian-vector Product,簡(jiǎn)稱JVP)的嵌入方法。
傳統(tǒng)的嵌入方法,如平均池化模型的最后隱藏層狀態(tài),在這種地標(biāo)近似設(shè)置中表現(xiàn)不佳,與真實(shí)梯度的相關(guān)性較弱。為了解決這個(gè)問題,研究團(tuán)隊(duì)引入了JVP嵌入。
JVP嵌入的基本思想是:對(duì)于一個(gè)樣本x,我們不直接使用其在模型中的表示,而是計(jì)算模型中間輸出(例如前幾個(gè)transformer塊的輸出)相對(duì)于這些層參數(shù)的雅可比矩陣,然后將這個(gè)雅可比矩陣投影到隨機(jī)方向上。這種方法創(chuàng)建了一種計(jì)算成本相對(duì)較低但與真實(shí)梯度高度相關(guān)的嵌入。
想象你在學(xué)習(xí)彈鋼琴。傳統(tǒng)的嵌入就像是只記錄你彈奏的音符,而JVP嵌入則更像是記錄你的手指在鍵盤上的運(yùn)動(dòng)方式以及這些運(yùn)動(dòng)如何影響音樂的產(chǎn)生。這提供了關(guān)于你演奏風(fēng)格的更豐富的信息。
五、影響力蒸餾的優(yōu)勢(shì)與實(shí)驗(yàn)驗(yàn)證
為了驗(yàn)證影響力蒸餾的有效性,研究團(tuán)隊(duì)在Tulu V2數(shù)據(jù)集上進(jìn)行了指令調(diào)優(yōu)實(shí)驗(yàn),目標(biāo)是一系列下游任務(wù),包括GSM8k(數(shù)學(xué)問題)、SQuAD(問答)和MMLU(多任務(wù)語言理解)等。他們使用了來自Llama和Qwen家族的幾個(gè)模型進(jìn)行測(cè)試。
實(shí)驗(yàn)結(jié)果令人印象深刻。影響力蒸餾不僅大幅優(yōu)于隨機(jī)均勻選擇,在大多數(shù)情況下還能匹配或超越最先進(jìn)的數(shù)據(jù)選擇方法,同時(shí)在相同的選擇問題上提供顯著的計(jì)算速度提升——嵌入+選擇運(yùn)行時(shí)間最高可提升3.5倍。
更具體地說,當(dāng)使用Llama2-7B模型在六個(gè)任務(wù)上進(jìn)行測(cè)試時(shí),影響力蒸餾平均比均勻采樣提高了2.30個(gè)百分點(diǎn)的準(zhǔn)確率,而最先進(jìn)的RDS+方法則提高了1.85個(gè)百分點(diǎn)。更重要的是,影響力蒸餾的計(jì)算成本為872 TeraFLOPs,而RDS+的成本為2800 TeraFLOPs,速度提升了約3.2倍。
研究團(tuán)隊(duì)還進(jìn)行了一系列消融實(shí)驗(yàn),分析了地標(biāo)數(shù)量、選擇樣本數(shù)量和數(shù)據(jù)池大小對(duì)性能的影響。這些實(shí)驗(yàn)表明,隨著地標(biāo)數(shù)量的增加,影響力蒸餾的性能提高,在使用2048個(gè)以上的地標(biāo)時(shí)超過了RDS+。
六、影響力蒸餾的局限性與未來方向
盡管影響力蒸餾在目標(biāo)指令調(diào)優(yōu)方面表現(xiàn)出色,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了該方法的幾個(gè)局限性。
首先,當(dāng)沒有目標(biāo)分布可用時(shí),影響力蒸餾不能直接擴(kuò)展到一般數(shù)據(jù)選擇場(chǎng)景。在這種情況下,可能需要定義目標(biāo)分布為高質(zhì)量樣本的小集合或訓(xùn)練語料庫(kù)的代表性子集。
其次,將影響力蒸餾擴(kuò)展到預(yù)訓(xùn)練設(shè)置也面臨獨(dú)特的挑戰(zhàn)。特別是,預(yù)訓(xùn)練時(shí)間明顯更長(zhǎng),這意味著梯度可能會(huì)隨時(shí)間大幅變化,使得單次靜態(tài)選擇可能不足。這表明需要多階段選擇策略,如周期性重新采樣。
最后,研究團(tuán)隊(duì)指出,他們?cè)谶\(yùn)行時(shí)測(cè)量中排除了預(yù)熱階段的成本,原因有二:1)隨著訓(xùn)練池的增長(zhǎng),在小型隨機(jī)子集上進(jìn)行簡(jiǎn)短預(yù)熱的成本相對(duì)于嵌入整個(gè)數(shù)據(jù)集變得可以忽略不計(jì);2)預(yù)熱可以通過低秩適應(yīng)等方法進(jìn)行壓縮。團(tuán)隊(duì)表示,對(duì)預(yù)熱優(yōu)化的嚴(yán)格研究將留給未來工作。
七、影響力蒸餾的實(shí)際應(yīng)用價(jià)值
那么,這項(xiàng)研究對(duì)普通人和產(chǎn)業(yè)界意味著什么?
首先,更高效的數(shù)據(jù)選擇方法可以顯著降低訓(xùn)練大型語言模型的計(jì)算成本和能源消耗。考慮到訓(xùn)練像GPT-4這樣的模型可能需要數(shù)百萬美元的計(jì)算資源,一種能夠選擇最有價(jià)值訓(xùn)練數(shù)據(jù)的方法可以帶來巨大的經(jīng)濟(jì)和環(huán)境效益。
其次,這種方法可以幫助研究人員和企業(yè)針對(duì)特定領(lǐng)域或任務(wù)更有效地定制語言模型。例如,一家醫(yī)療公司可以使用影響力蒸餾來選擇最能提高其醫(yī)療語言模型在診斷輔助方面表現(xiàn)的訓(xùn)練數(shù)據(jù)。
最后,影響力蒸餾的理論框架和實(shí)際實(shí)現(xiàn)為未來的研究提供了堅(jiān)實(shí)的基礎(chǔ)。研究團(tuán)隊(duì)開發(fā)的基于地標(biāo)的近似方法和JVP嵌入等創(chuàng)新可能會(huì)在其他機(jī)器學(xué)習(xí)領(lǐng)域找到應(yīng)用,如強(qiáng)化學(xué)習(xí)、計(jì)算機(jī)視覺等。
總的來說,影響力蒸餾代表了大型語言模型訓(xùn)練中數(shù)據(jù)選擇方法的重要進(jìn)步。通過將理論上有根據(jù)的方法與實(shí)用的工程解決方案相結(jié)合,研究團(tuán)隊(duì)創(chuàng)造了一種在準(zhǔn)確性和效率之間取得良好平衡的技術(shù)。隨著人工智能模型變得越來越大,數(shù)據(jù)選擇的重要性只會(huì)增加,影響力蒸餾為未來的發(fā)展指明了一條有希望的道路。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。