近日,由中國人民大學(xué)高瓴人工智能學(xué)院的朱豐琦、王榮臻、聶深等研究人員,聯(lián)合阿里巴巴螞蟻集團(tuán)和清華大學(xué)的研究團(tuán)隊(duì),發(fā)表了一篇題為"LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models"的研究論文。這項(xiàng)研究于2025年5月25日發(fā)布在arXiv預(yù)印本平臺(tái)(arXiv:2505.19223v1),為擴(kuò)散語言模型與人類偏好對(duì)齊開辟了新的道路。有興趣深入了解的讀者可以通過項(xiàng)目頁面https://ml-gsai.github.io/LLaDA-1.5-Demo/獲取更多信息。
我們平時(shí)使用的大型語言模型,如ChatGPT等,大多采用自回歸(Autoregressive Models,簡稱ARMs)架構(gòu),就像寫文章一樣,一個(gè)詞接一個(gè)詞地生成。而近年來,一種名為掩碼擴(kuò)散模型(Masked Diffusion Models,簡稱MDMs)的新型架構(gòu)逐漸嶄露頭角,這種模型可以并行生成文本,而非一個(gè)接一個(gè)地生成,展現(xiàn)出很大的潛力。LLaDA就是這樣一種大型語言擴(kuò)散模型。
然而,雖然MDMs在預(yù)訓(xùn)練和監(jiān)督微調(diào)方面取得了長足進(jìn)步,但在與人類偏好對(duì)齊方面卻鮮有研究。本文作者正是瞄準(zhǔn)了這個(gè)空白,提出了一種名為"方差減少偏好優(yōu)化"(Variance-Reduced Preference Optimization,簡稱VRPO)的新方法,有效解決了MDMs在進(jìn)行偏好優(yōu)化時(shí)面臨的高方差問題。
一、擴(kuò)散語言模型中的挑戰(zhàn):為何偏好對(duì)齊如此困難?
想象一下,我們?cè)诮桃粋€(gè)小孩學(xué)習(xí)。傳統(tǒng)的自回歸模型就像是我們一句一句地教他說話,而掩碼擴(kuò)散模型則像是讓他先學(xué)會(huì)一些單詞,然后逐漸完成整句話。這種學(xué)習(xí)方式雖然在某些方面更高效,但也帶來了新的挑戰(zhàn)。
在自回歸模型中,我們可以精確計(jì)算出模型生成某個(gè)句子的概率,這就像是我們可以準(zhǔn)確知道小孩說出某句話的把握程度。但在掩碼擴(kuò)散模型中,這種計(jì)算變得異常復(fù)雜,我們只能通過一種稱為"證據(jù)下界"(Evidence Lower Bound,簡稱ELBO)的方法來估計(jì),這就像是我們只能粗略猜測(cè)小孩掌握某句話的程度,而不能精確知道。
當(dāng)我們想要通過強(qiáng)化學(xué)習(xí)讓模型更好地理解人類偏好時(shí),這種不精確性帶來了很大的挑戰(zhàn)。具體來說,傳統(tǒng)的偏好優(yōu)化方法,如直接偏好優(yōu)化(Direct Preference Optimization,簡稱DPO),需要精確計(jì)算模型生成某段文本的對(duì)數(shù)似然,而掩碼擴(kuò)散模型只能提供這種似然的估計(jì)值,而且這種估計(jì)本身就帶有很高的方差(也就是不穩(wěn)定性)。
就好比我們?cè)诮绦『W(xué)習(xí)時(shí),無法準(zhǔn)確判斷他的進(jìn)步程度,只能通過一些間接的跡象來猜測(cè),而這些猜測(cè)本身就可能大起大落,讓我們很難有效地引導(dǎo)他的學(xué)習(xí)方向。
二、方差減少偏好優(yōu)化:創(chuàng)新的解決方案
研究團(tuán)隊(duì)面對(duì)的核心問題是:如何在掩碼擴(kuò)散模型中準(zhǔn)確估計(jì)偏好分?jǐn)?shù),并減少估計(jì)過程中的高方差問題?
他們首先對(duì)這個(gè)問題進(jìn)行了深入的理論分析。把問題比作一次探險(xiǎn),他們需要找到一條更可靠的路徑。通過理論推導(dǎo),他們發(fā)現(xiàn),偏好優(yōu)化過程中引入的偏差和方差主要由偏好分?jǐn)?shù)估計(jì)器的方差控制,就像探險(xiǎn)中的不確定性主要來自地圖的模糊程度。
基于這一發(fā)現(xiàn),他們提出了VRPO方法,包含三個(gè)核心策略:
第一個(gè)策略是增加采樣預(yù)算。想象一下,如果你只看地圖一眼就決定路線,可能會(huì)走錯(cuò);但如果你反復(fù)查看地圖并綜合判斷,就能做出更可靠的決策。同樣,VRPO通過增加Monte Carlo采樣的數(shù)量,提高了ELBO估計(jì)的準(zhǔn)確性。
第二個(gè)策略是最優(yōu)分配,即將有限的計(jì)算資源最有效地分配到不同的時(shí)間步和掩碼樣本上。這就像是在有限的探險(xiǎn)時(shí)間內(nèi),決定在哪些地點(diǎn)花更多時(shí)間探索。研究團(tuán)隊(duì)發(fā)現(xiàn),最佳策略是將所有采樣預(yù)算分散到不同的時(shí)間步,而每個(gè)時(shí)間步只取一個(gè)掩碼樣本。
第三個(gè)策略是對(duì)偶采樣,即在估計(jì)當(dāng)前模型和參考模型的ELBO時(shí)共享相同的隨機(jī)樣本。這就像兩位探險(xiǎn)者沿著完全相同的路徑前進(jìn),這樣他們之間的差異就完全來自于他們自身的能力差異,而不是路徑不同帶來的干擾。
這些策略的組合使VRPO能夠顯著降低偏好分?jǐn)?shù)估計(jì)的方差,從而提高偏好優(yōu)化的效率和穩(wěn)定性。最重要的是,所有這些策略都是無偏的,意味著它們不會(huì)引入新的系統(tǒng)性誤差。
三、實(shí)驗(yàn)驗(yàn)證:LLaDA 1.5的驚人表現(xiàn)
紙上得來終覺淺,研究團(tuán)隊(duì)將VRPO應(yīng)用到了LLaDA 8B Instruct模型上,訓(xùn)練了一個(gè)全新的模型:LLaDA 1.5。他們使用了35萬對(duì)偏好數(shù)據(jù),這些數(shù)據(jù)涵蓋了寫作、對(duì)話、知識(shí)問答、推理、數(shù)學(xué)、編程等廣泛領(lǐng)域。
令人振奮的是,經(jīng)過VRPO訓(xùn)練的LLaDA 1.5在多個(gè)基準(zhǔn)測(cè)試中都顯著優(yōu)于其前身LLaDA。在數(shù)學(xué)任務(wù)方面,GSM8K基準(zhǔn)測(cè)試上提高了4.7個(gè)百分點(diǎn);在代碼生成方面,HumanEval提高了3.0個(gè)百分點(diǎn),MBPP提高了1.8個(gè)百分點(diǎn);在對(duì)齊任務(wù)方面,IFEval提高了4.0個(gè)百分點(diǎn),Arena-Hard提高了4.3個(gè)百分點(diǎn)。
更令人驚訝的是,LLaDA 1.5在數(shù)學(xué)能力上甚至能與強(qiáng)大的自回歸語言模型和掩碼擴(kuò)散模型相媲美,在Math基準(zhǔn)測(cè)試上達(dá)到了最高的零樣本得分。這一成果證明,掩碼擴(kuò)散模型與基于強(qiáng)化學(xué)習(xí)的對(duì)齊方法是完全兼容的,為今后更深入的研究奠定了基礎(chǔ)。
四、深入理解VRPO:理論與實(shí)踐的完美結(jié)合
為了更好地理解VRPO的效果,研究團(tuán)隊(duì)進(jìn)行了一系列深入的消融實(shí)驗(yàn),就像是拆解一道復(fù)雜菜品的每一個(gè)成分,觀察每個(gè)成分的貢獻(xiàn)。
他們分別測(cè)試了不同采樣預(yù)算、不同配置策略以及是否使用對(duì)偶采樣的組合。實(shí)驗(yàn)結(jié)果清晰地表明,所有這三個(gè)組件都對(duì)降低方差和提高下游任務(wù)性能起到了積極作用。特別是,將采樣預(yù)算從1增加到8,GSM8K的準(zhǔn)確率從80.1%提升到83.3%;采用最優(yōu)分配策略(每個(gè)時(shí)間步一個(gè)掩碼樣本)比每個(gè)時(shí)間步多個(gè)樣本的策略效果更好;而對(duì)偶采樣的移除則會(huì)導(dǎo)致估計(jì)器方差的顯著增加。
這些結(jié)果驗(yàn)證了VRPO的理論基礎(chǔ),印證了研究團(tuán)隊(duì)關(guān)于偏好分?jǐn)?shù)估計(jì)器方差與下游任務(wù)性能之間強(qiáng)相關(guān)性的假設(shè)。
五、拓展與局限性
研究團(tuán)隊(duì)指出,VRPO中的方差減少技術(shù)不僅限于DPO,還可以應(yīng)用到其他需要估計(jì)ELBO或兩個(gè)相關(guān)ELBO差值的對(duì)齊算法中。這為掩碼擴(kuò)散模型的更廣泛對(duì)齊開辟了可能性。
當(dāng)然,這項(xiàng)研究也存在一些局限性。首先,VRPO需要額外的計(jì)算資源來實(shí)現(xiàn)較低的方差,導(dǎo)致訓(xùn)練過程中略微增加了計(jì)算開銷。不過,研究團(tuán)隊(duì)指出,在他們的默認(rèn)設(shè)置中(采樣預(yù)算n=8),這一額外開銷相對(duì)于預(yù)訓(xùn)練的總成本而言是微不足道的——不到預(yù)訓(xùn)練成本的0.5%。
另外,盡管VRPO有效降低了方差,但在某些下游基準(zhǔn)測(cè)試(如MTBench和Arena-Hard)上的收益相對(duì)有限。這可能需要更大規(guī)模的偏好數(shù)據(jù)和更先進(jìn)的對(duì)齊方法來解決。
六、結(jié)論與未來展望
這項(xiàng)研究向我們展示了掩碼擴(kuò)散模型與基于強(qiáng)化學(xué)習(xí)的對(duì)齊方法的兼容性,為大型語言擴(kuò)散模型的研究開辟了新的方向。VRPO作為一種理論上有保證且實(shí)踐中有效的方法,不僅解決了掩碼擴(kuò)散模型中偏好優(yōu)化的高方差問題,還為未來的研究提供了堅(jiān)實(shí)的基礎(chǔ)。
歸根結(jié)底,LLaDA 1.5的成功證明,即使在架構(gòu)復(fù)雜、似然估計(jì)困難的掩碼擴(kuò)散模型中,我們也能通過精心設(shè)計(jì)的方差減少技術(shù)實(shí)現(xiàn)有效的人類偏好對(duì)齊。這為構(gòu)建更加符合人類價(jià)值觀和期望的大語言模型提供了新的可能性。
對(duì)于普通用戶來說,這意味著未來我們可能會(huì)看到更多基于擴(kuò)散模型的語言助手,它們不僅能高效生成文本,還能更好地理解和遵循人類的指令和偏好。而對(duì)于研究社區(qū)來說,這項(xiàng)工作為掩碼擴(kuò)散模型的對(duì)齊研究鋪平了道路,可能激發(fā)更多創(chuàng)新方法的涌現(xiàn)。
如果你對(duì)這項(xiàng)研究感興趣,可以通過文章開頭提到的項(xiàng)目頁面了解更多詳情,或者直接在arXiv上檢索原論文。未來,我們可以期待更多關(guān)于語言擴(kuò)散模型對(duì)齊的研究成果,以及這些模型在實(shí)際應(yīng)用中的表現(xiàn)。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。