av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 LLaDA 1.5:為大型語言擴(kuò)散模型帶來方差減少的偏好優(yōu)化

LLaDA 1.5:為大型語言擴(kuò)散模型帶來方差減少的偏好優(yōu)化

2025-05-30 09:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 09:45 ? 科技行者

近日,由中國人民大學(xué)高瓴人工智能學(xué)院的朱豐琦、王榮臻、聶深等研究人員,聯(lián)合阿里巴巴螞蟻集團(tuán)和清華大學(xué)的研究團(tuán)隊(duì),發(fā)表了一篇題為"LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models"的研究論文。這項(xiàng)研究于2025年5月25日發(fā)布在arXiv預(yù)印本平臺(tái)(arXiv:2505.19223v1),為擴(kuò)散語言模型與人類偏好對(duì)齊開辟了新的道路。有興趣深入了解的讀者可以通過項(xiàng)目頁面https://ml-gsai.github.io/LLaDA-1.5-Demo/獲取更多信息。

我們平時(shí)使用的大型語言模型,如ChatGPT等,大多采用自回歸(Autoregressive Models,簡稱ARMs)架構(gòu),就像寫文章一樣,一個(gè)詞接一個(gè)詞地生成。而近年來,一種名為掩碼擴(kuò)散模型(Masked Diffusion Models,簡稱MDMs)的新型架構(gòu)逐漸嶄露頭角,這種模型可以并行生成文本,而非一個(gè)接一個(gè)地生成,展現(xiàn)出很大的潛力。LLaDA就是這樣一種大型語言擴(kuò)散模型。

然而,雖然MDMs在預(yù)訓(xùn)練和監(jiān)督微調(diào)方面取得了長足進(jìn)步,但在與人類偏好對(duì)齊方面卻鮮有研究。本文作者正是瞄準(zhǔn)了這個(gè)空白,提出了一種名為"方差減少偏好優(yōu)化"(Variance-Reduced Preference Optimization,簡稱VRPO)的新方法,有效解決了MDMs在進(jìn)行偏好優(yōu)化時(shí)面臨的高方差問題。

一、擴(kuò)散語言模型中的挑戰(zhàn):為何偏好對(duì)齊如此困難?

想象一下,我們?cè)诮桃粋€(gè)小孩學(xué)習(xí)。傳統(tǒng)的自回歸模型就像是我們一句一句地教他說話,而掩碼擴(kuò)散模型則像是讓他先學(xué)會(huì)一些單詞,然后逐漸完成整句話。這種學(xué)習(xí)方式雖然在某些方面更高效,但也帶來了新的挑戰(zhàn)。

在自回歸模型中,我們可以精確計(jì)算出模型生成某個(gè)句子的概率,這就像是我們可以準(zhǔn)確知道小孩說出某句話的把握程度。但在掩碼擴(kuò)散模型中,這種計(jì)算變得異常復(fù)雜,我們只能通過一種稱為"證據(jù)下界"(Evidence Lower Bound,簡稱ELBO)的方法來估計(jì),這就像是我們只能粗略猜測(cè)小孩掌握某句話的程度,而不能精確知道。

當(dāng)我們想要通過強(qiáng)化學(xué)習(xí)讓模型更好地理解人類偏好時(shí),這種不精確性帶來了很大的挑戰(zhàn)。具體來說,傳統(tǒng)的偏好優(yōu)化方法,如直接偏好優(yōu)化(Direct Preference Optimization,簡稱DPO),需要精確計(jì)算模型生成某段文本的對(duì)數(shù)似然,而掩碼擴(kuò)散模型只能提供這種似然的估計(jì)值,而且這種估計(jì)本身就帶有很高的方差(也就是不穩(wěn)定性)。

就好比我們?cè)诮绦『W(xué)習(xí)時(shí),無法準(zhǔn)確判斷他的進(jìn)步程度,只能通過一些間接的跡象來猜測(cè),而這些猜測(cè)本身就可能大起大落,讓我們很難有效地引導(dǎo)他的學(xué)習(xí)方向。

二、方差減少偏好優(yōu)化:創(chuàng)新的解決方案

研究團(tuán)隊(duì)面對(duì)的核心問題是:如何在掩碼擴(kuò)散模型中準(zhǔn)確估計(jì)偏好分?jǐn)?shù),并減少估計(jì)過程中的高方差問題?

他們首先對(duì)這個(gè)問題進(jìn)行了深入的理論分析。把問題比作一次探險(xiǎn),他們需要找到一條更可靠的路徑。通過理論推導(dǎo),他們發(fā)現(xiàn),偏好優(yōu)化過程中引入的偏差和方差主要由偏好分?jǐn)?shù)估計(jì)器的方差控制,就像探險(xiǎn)中的不確定性主要來自地圖的模糊程度。

基于這一發(fā)現(xiàn),他們提出了VRPO方法,包含三個(gè)核心策略:

第一個(gè)策略是增加采樣預(yù)算。想象一下,如果你只看地圖一眼就決定路線,可能會(huì)走錯(cuò);但如果你反復(fù)查看地圖并綜合判斷,就能做出更可靠的決策。同樣,VRPO通過增加Monte Carlo采樣的數(shù)量,提高了ELBO估計(jì)的準(zhǔn)確性。

第二個(gè)策略是最優(yōu)分配,即將有限的計(jì)算資源最有效地分配到不同的時(shí)間步和掩碼樣本上。這就像是在有限的探險(xiǎn)時(shí)間內(nèi),決定在哪些地點(diǎn)花更多時(shí)間探索。研究團(tuán)隊(duì)發(fā)現(xiàn),最佳策略是將所有采樣預(yù)算分散到不同的時(shí)間步,而每個(gè)時(shí)間步只取一個(gè)掩碼樣本。

第三個(gè)策略是對(duì)偶采樣,即在估計(jì)當(dāng)前模型和參考模型的ELBO時(shí)共享相同的隨機(jī)樣本。這就像兩位探險(xiǎn)者沿著完全相同的路徑前進(jìn),這樣他們之間的差異就完全來自于他們自身的能力差異,而不是路徑不同帶來的干擾。

這些策略的組合使VRPO能夠顯著降低偏好分?jǐn)?shù)估計(jì)的方差,從而提高偏好優(yōu)化的效率和穩(wěn)定性。最重要的是,所有這些策略都是無偏的,意味著它們不會(huì)引入新的系統(tǒng)性誤差。

三、實(shí)驗(yàn)驗(yàn)證:LLaDA 1.5的驚人表現(xiàn)

紙上得來終覺淺,研究團(tuán)隊(duì)將VRPO應(yīng)用到了LLaDA 8B Instruct模型上,訓(xùn)練了一個(gè)全新的模型:LLaDA 1.5。他們使用了35萬對(duì)偏好數(shù)據(jù),這些數(shù)據(jù)涵蓋了寫作、對(duì)話、知識(shí)問答、推理、數(shù)學(xué)、編程等廣泛領(lǐng)域。

令人振奮的是,經(jīng)過VRPO訓(xùn)練的LLaDA 1.5在多個(gè)基準(zhǔn)測(cè)試中都顯著優(yōu)于其前身LLaDA。在數(shù)學(xué)任務(wù)方面,GSM8K基準(zhǔn)測(cè)試上提高了4.7個(gè)百分點(diǎn);在代碼生成方面,HumanEval提高了3.0個(gè)百分點(diǎn),MBPP提高了1.8個(gè)百分點(diǎn);在對(duì)齊任務(wù)方面,IFEval提高了4.0個(gè)百分點(diǎn),Arena-Hard提高了4.3個(gè)百分點(diǎn)。

更令人驚訝的是,LLaDA 1.5在數(shù)學(xué)能力上甚至能與強(qiáng)大的自回歸語言模型和掩碼擴(kuò)散模型相媲美,在Math基準(zhǔn)測(cè)試上達(dá)到了最高的零樣本得分。這一成果證明,掩碼擴(kuò)散模型與基于強(qiáng)化學(xué)習(xí)的對(duì)齊方法是完全兼容的,為今后更深入的研究奠定了基礎(chǔ)。

四、深入理解VRPO:理論與實(shí)踐的完美結(jié)合

為了更好地理解VRPO的效果,研究團(tuán)隊(duì)進(jìn)行了一系列深入的消融實(shí)驗(yàn),就像是拆解一道復(fù)雜菜品的每一個(gè)成分,觀察每個(gè)成分的貢獻(xiàn)。

他們分別測(cè)試了不同采樣預(yù)算、不同配置策略以及是否使用對(duì)偶采樣的組合。實(shí)驗(yàn)結(jié)果清晰地表明,所有這三個(gè)組件都對(duì)降低方差和提高下游任務(wù)性能起到了積極作用。特別是,將采樣預(yù)算從1增加到8,GSM8K的準(zhǔn)確率從80.1%提升到83.3%;采用最優(yōu)分配策略(每個(gè)時(shí)間步一個(gè)掩碼樣本)比每個(gè)時(shí)間步多個(gè)樣本的策略效果更好;而對(duì)偶采樣的移除則會(huì)導(dǎo)致估計(jì)器方差的顯著增加。

這些結(jié)果驗(yàn)證了VRPO的理論基礎(chǔ),印證了研究團(tuán)隊(duì)關(guān)于偏好分?jǐn)?shù)估計(jì)器方差與下游任務(wù)性能之間強(qiáng)相關(guān)性的假設(shè)。

五、拓展與局限性

研究團(tuán)隊(duì)指出,VRPO中的方差減少技術(shù)不僅限于DPO,還可以應(yīng)用到其他需要估計(jì)ELBO或兩個(gè)相關(guān)ELBO差值的對(duì)齊算法中。這為掩碼擴(kuò)散模型的更廣泛對(duì)齊開辟了可能性。

當(dāng)然,這項(xiàng)研究也存在一些局限性。首先,VRPO需要額外的計(jì)算資源來實(shí)現(xiàn)較低的方差,導(dǎo)致訓(xùn)練過程中略微增加了計(jì)算開銷。不過,研究團(tuán)隊(duì)指出,在他們的默認(rèn)設(shè)置中(采樣預(yù)算n=8),這一額外開銷相對(duì)于預(yù)訓(xùn)練的總成本而言是微不足道的——不到預(yù)訓(xùn)練成本的0.5%。

另外,盡管VRPO有效降低了方差,但在某些下游基準(zhǔn)測(cè)試(如MTBench和Arena-Hard)上的收益相對(duì)有限。這可能需要更大規(guī)模的偏好數(shù)據(jù)和更先進(jìn)的對(duì)齊方法來解決。

六、結(jié)論與未來展望

這項(xiàng)研究向我們展示了掩碼擴(kuò)散模型與基于強(qiáng)化學(xué)習(xí)的對(duì)齊方法的兼容性,為大型語言擴(kuò)散模型的研究開辟了新的方向。VRPO作為一種理論上有保證且實(shí)踐中有效的方法,不僅解決了掩碼擴(kuò)散模型中偏好優(yōu)化的高方差問題,還為未來的研究提供了堅(jiān)實(shí)的基礎(chǔ)。

歸根結(jié)底,LLaDA 1.5的成功證明,即使在架構(gòu)復(fù)雜、似然估計(jì)困難的掩碼擴(kuò)散模型中,我們也能通過精心設(shè)計(jì)的方差減少技術(shù)實(shí)現(xiàn)有效的人類偏好對(duì)齊。這為構(gòu)建更加符合人類價(jià)值觀和期望的大語言模型提供了新的可能性。

對(duì)于普通用戶來說,這意味著未來我們可能會(huì)看到更多基于擴(kuò)散模型的語言助手,它們不僅能高效生成文本,還能更好地理解和遵循人類的指令和偏好。而對(duì)于研究社區(qū)來說,這項(xiàng)工作為掩碼擴(kuò)散模型的對(duì)齊研究鋪平了道路,可能激發(fā)更多創(chuàng)新方法的涌現(xiàn)。

如果你對(duì)這項(xiàng)研究感興趣,可以通過文章開頭提到的項(xiàng)目頁面了解更多詳情,或者直接在arXiv上檢索原論文。未來,我們可以期待更多關(guān)于語言擴(kuò)散模型對(duì)齊的研究成果,以及這些模型在實(shí)際應(yīng)用中的表現(xiàn)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-