近日,由中國人民大學高瓴人工智能學院的朱豐琦、王榮臻、聶深等研究人員,聯(lián)合阿里巴巴螞蟻集團和清華大學的研究團隊,發(fā)表了一篇題為"LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models"的研究論文。這項研究于2025年5月25日發(fā)布在arXiv預印本平臺(arXiv:2505.19223v1),為擴散語言模型與人類偏好對齊開辟了新的道路。有興趣深入了解的讀者可以通過項目頁面https://ml-gsai.github.io/LLaDA-1.5-Demo/獲取更多信息。
我們平時使用的大型語言模型,如ChatGPT等,大多采用自回歸(Autoregressive Models,簡稱ARMs)架構,就像寫文章一樣,一個詞接一個詞地生成。而近年來,一種名為掩碼擴散模型(Masked Diffusion Models,簡稱MDMs)的新型架構逐漸嶄露頭角,這種模型可以并行生成文本,而非一個接一個地生成,展現(xiàn)出很大的潛力。LLaDA就是這樣一種大型語言擴散模型。
然而,雖然MDMs在預訓練和監(jiān)督微調(diào)方面取得了長足進步,但在與人類偏好對齊方面卻鮮有研究。本文作者正是瞄準了這個空白,提出了一種名為"方差減少偏好優(yōu)化"(Variance-Reduced Preference Optimization,簡稱VRPO)的新方法,有效解決了MDMs在進行偏好優(yōu)化時面臨的高方差問題。
一、擴散語言模型中的挑戰(zhàn):為何偏好對齊如此困難?
想象一下,我們在教一個小孩學習。傳統(tǒng)的自回歸模型就像是我們一句一句地教他說話,而掩碼擴散模型則像是讓他先學會一些單詞,然后逐漸完成整句話。這種學習方式雖然在某些方面更高效,但也帶來了新的挑戰(zhàn)。
在自回歸模型中,我們可以精確計算出模型生成某個句子的概率,這就像是我們可以準確知道小孩說出某句話的把握程度。但在掩碼擴散模型中,這種計算變得異常復雜,我們只能通過一種稱為"證據(jù)下界"(Evidence Lower Bound,簡稱ELBO)的方法來估計,這就像是我們只能粗略猜測小孩掌握某句話的程度,而不能精確知道。
當我們想要通過強化學習讓模型更好地理解人類偏好時,這種不精確性帶來了很大的挑戰(zhàn)。具體來說,傳統(tǒng)的偏好優(yōu)化方法,如直接偏好優(yōu)化(Direct Preference Optimization,簡稱DPO),需要精確計算模型生成某段文本的對數(shù)似然,而掩碼擴散模型只能提供這種似然的估計值,而且這種估計本身就帶有很高的方差(也就是不穩(wěn)定性)。
就好比我們在教小孩學習時,無法準確判斷他的進步程度,只能通過一些間接的跡象來猜測,而這些猜測本身就可能大起大落,讓我們很難有效地引導他的學習方向。
二、方差減少偏好優(yōu)化:創(chuàng)新的解決方案
研究團隊面對的核心問題是:如何在掩碼擴散模型中準確估計偏好分數(shù),并減少估計過程中的高方差問題?
他們首先對這個問題進行了深入的理論分析。把問題比作一次探險,他們需要找到一條更可靠的路徑。通過理論推導,他們發(fā)現(xiàn),偏好優(yōu)化過程中引入的偏差和方差主要由偏好分數(shù)估計器的方差控制,就像探險中的不確定性主要來自地圖的模糊程度。
基于這一發(fā)現(xiàn),他們提出了VRPO方法,包含三個核心策略:
第一個策略是增加采樣預算。想象一下,如果你只看地圖一眼就決定路線,可能會走錯;但如果你反復查看地圖并綜合判斷,就能做出更可靠的決策。同樣,VRPO通過增加Monte Carlo采樣的數(shù)量,提高了ELBO估計的準確性。
第二個策略是最優(yōu)分配,即將有限的計算資源最有效地分配到不同的時間步和掩碼樣本上。這就像是在有限的探險時間內(nèi),決定在哪些地點花更多時間探索。研究團隊發(fā)現(xiàn),最佳策略是將所有采樣預算分散到不同的時間步,而每個時間步只取一個掩碼樣本。
第三個策略是對偶采樣,即在估計當前模型和參考模型的ELBO時共享相同的隨機樣本。這就像兩位探險者沿著完全相同的路徑前進,這樣他們之間的差異就完全來自于他們自身的能力差異,而不是路徑不同帶來的干擾。
這些策略的組合使VRPO能夠顯著降低偏好分數(shù)估計的方差,從而提高偏好優(yōu)化的效率和穩(wěn)定性。最重要的是,所有這些策略都是無偏的,意味著它們不會引入新的系統(tǒng)性誤差。
三、實驗驗證:LLaDA 1.5的驚人表現(xiàn)
紙上得來終覺淺,研究團隊將VRPO應用到了LLaDA 8B Instruct模型上,訓練了一個全新的模型:LLaDA 1.5。他們使用了35萬對偏好數(shù)據(jù),這些數(shù)據(jù)涵蓋了寫作、對話、知識問答、推理、數(shù)學、編程等廣泛領域。
令人振奮的是,經(jīng)過VRPO訓練的LLaDA 1.5在多個基準測試中都顯著優(yōu)于其前身LLaDA。在數(shù)學任務方面,GSM8K基準測試上提高了4.7個百分點;在代碼生成方面,HumanEval提高了3.0個百分點,MBPP提高了1.8個百分點;在對齊任務方面,IFEval提高了4.0個百分點,Arena-Hard提高了4.3個百分點。
更令人驚訝的是,LLaDA 1.5在數(shù)學能力上甚至能與強大的自回歸語言模型和掩碼擴散模型相媲美,在Math基準測試上達到了最高的零樣本得分。這一成果證明,掩碼擴散模型與基于強化學習的對齊方法是完全兼容的,為今后更深入的研究奠定了基礎。
四、深入理解VRPO:理論與實踐的完美結合
為了更好地理解VRPO的效果,研究團隊進行了一系列深入的消融實驗,就像是拆解一道復雜菜品的每一個成分,觀察每個成分的貢獻。
他們分別測試了不同采樣預算、不同配置策略以及是否使用對偶采樣的組合。實驗結果清晰地表明,所有這三個組件都對降低方差和提高下游任務性能起到了積極作用。特別是,將采樣預算從1增加到8,GSM8K的準確率從80.1%提升到83.3%;采用最優(yōu)分配策略(每個時間步一個掩碼樣本)比每個時間步多個樣本的策略效果更好;而對偶采樣的移除則會導致估計器方差的顯著增加。
這些結果驗證了VRPO的理論基礎,印證了研究團隊關于偏好分數(shù)估計器方差與下游任務性能之間強相關性的假設。
五、拓展與局限性
研究團隊指出,VRPO中的方差減少技術不僅限于DPO,還可以應用到其他需要估計ELBO或兩個相關ELBO差值的對齊算法中。這為掩碼擴散模型的更廣泛對齊開辟了可能性。
當然,這項研究也存在一些局限性。首先,VRPO需要額外的計算資源來實現(xiàn)較低的方差,導致訓練過程中略微增加了計算開銷。不過,研究團隊指出,在他們的默認設置中(采樣預算n=8),這一額外開銷相對于預訓練的總成本而言是微不足道的——不到預訓練成本的0.5%。
另外,盡管VRPO有效降低了方差,但在某些下游基準測試(如MTBench和Arena-Hard)上的收益相對有限。這可能需要更大規(guī)模的偏好數(shù)據(jù)和更先進的對齊方法來解決。
六、結論與未來展望
這項研究向我們展示了掩碼擴散模型與基于強化學習的對齊方法的兼容性,為大型語言擴散模型的研究開辟了新的方向。VRPO作為一種理論上有保證且實踐中有效的方法,不僅解決了掩碼擴散模型中偏好優(yōu)化的高方差問題,還為未來的研究提供了堅實的基礎。
歸根結底,LLaDA 1.5的成功證明,即使在架構復雜、似然估計困難的掩碼擴散模型中,我們也能通過精心設計的方差減少技術實現(xiàn)有效的人類偏好對齊。這為構建更加符合人類價值觀和期望的大語言模型提供了新的可能性。
對于普通用戶來說,這意味著未來我們可能會看到更多基于擴散模型的語言助手,它們不僅能高效生成文本,還能更好地理解和遵循人類的指令和偏好。而對于研究社區(qū)來說,這項工作為掩碼擴散模型的對齊研究鋪平了道路,可能激發(fā)更多創(chuàng)新方法的涌現(xiàn)。
如果你對這項研究感興趣,可以通過文章開頭提到的項目頁面了解更多詳情,或者直接在arXiv上檢索原論文。未來,我們可以期待更多關于語言擴散模型對齊的研究成果,以及這些模型在實際應用中的表現(xiàn)。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。