在2025年5月25日發(fā)布于arXiv預印本平臺的研究論文《基于影響力蒸餾的高效大規(guī)模數(shù)據選擇》中,來自ISTA(Institute of Science and Technology Austria)和谷歌研究院的Mahdi Nikdan、Vincent Cohen-Addad、Dan Alistarh和Vahab Mirrokni團隊提出了一種名為"影響力蒸餾"(Influence Distillation)的創(chuàng)新方法,旨在解決大型語言模型(LLMs)訓練中的數(shù)據選擇問題。對于想深入了解該研究的讀者,可以通過arXiv:2505.19051v1 [cs.CL]查閱完整論文。
一、為什么我們需要更聰明地選擇訓練數(shù)據?
想象一下,你需要從一個裝滿成千上萬個食譜的巨大食譜集中,挑選出最適合教你烤一種特定蛋糕的幾十個食譜。你會怎么做?隨機抓取一把?挑選看起來最厚的?還是找一種更聰明的方法來選擇那些最能幫助你烤好特定蛋糕的食譜?
這個問題與當今大型語言模型(如ChatGPT背后的模型)的訓練極為相似。研究人員面臨著從海量數(shù)據中選擇哪些數(shù)據來訓練模型的難題。訓練這些龐然大物需要驚人的計算資源,因此找到一種方法來挑選最有價值的訓練樣本變得至關重要。
現(xiàn)有的數(shù)據選擇方法存在幾個關鍵問題。首先,許多方法使用固定的、與模型無關的特征(比如靜態(tài)嵌入),這些特征可能無法完全捕捉訓練樣本與目標分布之間的關系。其次,那些在訓練過程中更新權重的方法缺乏理論支持,可能不穩(wěn)定。最后,依賴參考模型訓練或昂貴嵌入的方法在計算上很昂貴,難以擴展到大規(guī)模數(shù)據集。
谷歌研究院和ISTA的研究團隊提出的"影響力蒸餾"方法通過數(shù)學上有理論支持的框架解決了這些問題。這個框架巧妙地利用二階信息來為訓練樣本分配最優(yōu)權重,從而選擇最有價值的訓練數(shù)據。
二、影響力蒸餾:一種數(shù)據選擇的新視角
影響力蒸餾的核心思想是什么?簡單來說,它試圖回答的問題是:"如果我在訓練中使用這個特定樣本,它會對我在目標任務上的表現(xiàn)產生多大影響?"
想象你是一位烹飪教師,需要為學生設計一門課程,讓他們學會制作法式甜點。你有成百上千種不同的烹飪技巧可以教授,但課程時間有限。你會怎么選擇?直覺上,你會選擇那些對制作法式甜點最有幫助的技巧,而不是那些可能對制作中餐或意大利面更有幫助的技巧。
影響力蒸餾就是這樣工作的。它不是隨機選擇訓練樣本,也不是使用簡單的啟發(fā)式方法(如基于困惑度的篩選),而是通過計算每個訓練樣本對目標任務表現(xiàn)的"影響力"來選擇樣本。
具體來說,影響力蒸餾通過數(shù)學公式衡量了如果將特定訓練樣本包含在梯度步驟中,它預期會如何影響模型在目標數(shù)據上的表現(xiàn)。這種方法對梯度下降(GD)和Adam優(yōu)化器都有效,研究團隊為這兩種優(yōu)化器都推導了最優(yōu)權重公式。
三、從理論到實踐:讓影響力蒸餾在現(xiàn)實世界中工作
雖然影響力蒸餾的理論框架非常優(yōu)雅,但在實際應用中還面臨著幾個挑戰(zhàn)。首先,計算Hessian矩陣(用于二階信息)需要存儲反向圖,這會帶來額外的內存開銷。其次,構建梯度矩陣需要計算模型相對于訓練集中每個樣本的梯度,這在計算上非常昂貴。最后,影響力蒸餾依賴于正則化系數(shù)λ的選擇,如何選擇合適的λ值也是一個挑戰(zhàn)。
為了解決這些問題,研究團隊提出了幾種實用的解決方案:
首先,他們發(fā)現(xiàn)在實際設置中,當學習率η足夠小時,二階項變得可以忽略不計。這意味著計算過程可以簡化為一階影響力蒸餾,類似于之前基于梯度的影響力估計方法,但有更堅實的理論基礎。
其次,為了減少存儲梯度的成本,團隊采用了類似于之前工作的方法,將每個梯度向量在計算時投影到一個低維空間。與使用隨機Rademacher分布采樣的投影不同,他們發(fā)現(xiàn)使用隨機Hadamard變換在實踐中更快。
第三,也是最具創(chuàng)新性的一點,他們引入了基于"地標"(landmark)的梯度近似方法。這種方法首先選擇一小部分"地標"樣本,精確計算它們的影響力,然后通過一種巧妙的方式將這種影響力高效地傳播到所有其他樣本。這顯著減少了對整個數(shù)據集進行梯度計算的計算開銷。
這個地標方法的關鍵在于:我們不需要為每個訓練樣本計算精確的梯度,只需為一小部分樣本計算,然后利用樣本之間的相似性來近似其他樣本的梯度。這就像是在一片未知的森林中,我們只需要精確測量幾個地標位置,就可以基于與這些地標的相對位置來推斷森林中所有其他點的位置。
四、JVP嵌入:一種新型的樣本表示方法
影響力蒸餾的另一個創(chuàng)新是引入了一種名為"雅可比-向量積"(Jacobian-vector Product,簡稱JVP)的嵌入方法。
傳統(tǒng)的嵌入方法,如平均池化模型的最后隱藏層狀態(tài),在這種地標近似設置中表現(xiàn)不佳,與真實梯度的相關性較弱。為了解決這個問題,研究團隊引入了JVP嵌入。
JVP嵌入的基本思想是:對于一個樣本x,我們不直接使用其在模型中的表示,而是計算模型中間輸出(例如前幾個transformer塊的輸出)相對于這些層參數(shù)的雅可比矩陣,然后將這個雅可比矩陣投影到隨機方向上。這種方法創(chuàng)建了一種計算成本相對較低但與真實梯度高度相關的嵌入。
想象你在學習彈鋼琴。傳統(tǒng)的嵌入就像是只記錄你彈奏的音符,而JVP嵌入則更像是記錄你的手指在鍵盤上的運動方式以及這些運動如何影響音樂的產生。這提供了關于你演奏風格的更豐富的信息。
五、影響力蒸餾的優(yōu)勢與實驗驗證
為了驗證影響力蒸餾的有效性,研究團隊在Tulu V2數(shù)據集上進行了指令調優(yōu)實驗,目標是一系列下游任務,包括GSM8k(數(shù)學問題)、SQuAD(問答)和MMLU(多任務語言理解)等。他們使用了來自Llama和Qwen家族的幾個模型進行測試。
實驗結果令人印象深刻。影響力蒸餾不僅大幅優(yōu)于隨機均勻選擇,在大多數(shù)情況下還能匹配或超越最先進的數(shù)據選擇方法,同時在相同的選擇問題上提供顯著的計算速度提升——嵌入+選擇運行時間最高可提升3.5倍。
更具體地說,當使用Llama2-7B模型在六個任務上進行測試時,影響力蒸餾平均比均勻采樣提高了2.30個百分點的準確率,而最先進的RDS+方法則提高了1.85個百分點。更重要的是,影響力蒸餾的計算成本為872 TeraFLOPs,而RDS+的成本為2800 TeraFLOPs,速度提升了約3.2倍。
研究團隊還進行了一系列消融實驗,分析了地標數(shù)量、選擇樣本數(shù)量和數(shù)據池大小對性能的影響。這些實驗表明,隨著地標數(shù)量的增加,影響力蒸餾的性能提高,在使用2048個以上的地標時超過了RDS+。
六、影響力蒸餾的局限性與未來方向
盡管影響力蒸餾在目標指令調優(yōu)方面表現(xiàn)出色,但研究團隊也坦誠地指出了該方法的幾個局限性。
首先,當沒有目標分布可用時,影響力蒸餾不能直接擴展到一般數(shù)據選擇場景。在這種情況下,可能需要定義目標分布為高質量樣本的小集合或訓練語料庫的代表性子集。
其次,將影響力蒸餾擴展到預訓練設置也面臨獨特的挑戰(zhàn)。特別是,預訓練時間明顯更長,這意味著梯度可能會隨時間大幅變化,使得單次靜態(tài)選擇可能不足。這表明需要多階段選擇策略,如周期性重新采樣。
最后,研究團隊指出,他們在運行時測量中排除了預熱階段的成本,原因有二:1)隨著訓練池的增長,在小型隨機子集上進行簡短預熱的成本相對于嵌入整個數(shù)據集變得可以忽略不計;2)預熱可以通過低秩適應等方法進行壓縮。團隊表示,對預熱優(yōu)化的嚴格研究將留給未來工作。
七、影響力蒸餾的實際應用價值
那么,這項研究對普通人和產業(yè)界意味著什么?
首先,更高效的數(shù)據選擇方法可以顯著降低訓練大型語言模型的計算成本和能源消耗。考慮到訓練像GPT-4這樣的模型可能需要數(shù)百萬美元的計算資源,一種能夠選擇最有價值訓練數(shù)據的方法可以帶來巨大的經濟和環(huán)境效益。
其次,這種方法可以幫助研究人員和企業(yè)針對特定領域或任務更有效地定制語言模型。例如,一家醫(yī)療公司可以使用影響力蒸餾來選擇最能提高其醫(yī)療語言模型在診斷輔助方面表現(xiàn)的訓練數(shù)據。
最后,影響力蒸餾的理論框架和實際實現(xiàn)為未來的研究提供了堅實的基礎。研究團隊開發(fā)的基于地標的近似方法和JVP嵌入等創(chuàng)新可能會在其他機器學習領域找到應用,如強化學習、計算機視覺等。
總的來說,影響力蒸餾代表了大型語言模型訓練中數(shù)據選擇方法的重要進步。通過將理論上有根據的方法與實用的工程解決方案相結合,研究團隊創(chuàng)造了一種在準確性和效率之間取得良好平衡的技術。隨著人工智能模型變得越來越大,數(shù)據選擇的重要性只會增加,影響力蒸餾為未來的發(fā)展指明了一條有希望的道路。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網絡技術,通過學習40年歷史數(shù)據掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。