當(dāng)今,大型語言模型(LLMs)如何更好地與人類價值觀保持一致,已成為人工智能安全與發(fā)展的關(guān)鍵挑戰(zhàn)。來自法國巴黎綜合理工學(xué)院、巴黎-薩克雷大學(xué)、谷歌DeepMind、杜伊斯堡-埃森大學(xué)、俄羅斯高等經(jīng)濟(jì)學(xué)院、穆罕默德·本·扎耶德人工智能大學(xué)、Hugging Face、法國國家信息與自動化研究所(Inria)以及里昂高等師范學(xué)院的研究團(tuán)隊(duì),在2025年5月發(fā)表于arXiv的一篇論文中,提出了一種名為"Nash Mirror Prox"(NashMP)的創(chuàng)新算法,旨在解決人類偏好對齊中的關(guān)鍵問題。這篇題為《通過Mirror Prox加速基于人類反饋的Nash學(xué)習(xí)》的研究論文(arXiv:2505.19731v1)展示了如何更高效地將大型語言模型調(diào)整為符合人類偏好的方向。
想象一下,你在教一個聰明但不了解人類價值觀的外星人如何適應(yīng)地球生活。傳統(tǒng)方法是給這個外星人一個"分?jǐn)?shù)表",告訴它每個行為的好壞程度。但問題是,人類價值觀復(fù)雜多變,很難用簡單的分?jǐn)?shù)來表達(dá)。有時我們的偏好甚至是矛盾的——比如,在某些情況下我們可能更喜歡誠實(shí),而在其他情況下可能更看重善意。這就像是告訴外星人"紅燈停綠燈行",但當(dāng)有緊急情況時,這條規(guī)則又需要被打破。
研究人員們面臨的關(guān)鍵挑戰(zhàn)是,如何設(shè)計(jì)一種學(xué)習(xí)系統(tǒng),能夠捕捉人類偏好的全部復(fù)雜性,而不僅僅依賴于簡化后的獎勵函數(shù)。這就是本文提出的Nash學(xué)習(xí)框架(NLHF)的核心思想,它將問題視為一個對稱的雙人游戲,通過尋找這個游戲的Nash均衡來學(xué)習(xí)最佳行為策略。
在這項(xiàng)突破性研究中,研究團(tuán)隊(duì)引入了Nash Mirror Prox(NashMP)算法,這是一種基于Mirror Prox優(yōu)化方案的在線學(xué)習(xí)算法,能夠更快、更穩(wěn)定地找到基于人類偏好游戲的Nash均衡。他們的理論分析表明,NashMP算法在尋找正則化Nash均衡時展現(xiàn)出了線性收斂的特性,收斂速度為(1+2β)^(-N/2),其中N是人類偏好詢問的次數(shù),β是正則化參數(shù)。這比現(xiàn)有方法要快得多,而且算法的收斂速度不受動作空間大小的影響,這對于大型語言模型的調(diào)整特別有利。
研究團(tuán)隊(duì)不僅提供了理論證明,還進(jìn)行了實(shí)用化設(shè)計(jì),使NashMP算法能夠應(yīng)用于大型語言模型的微調(diào)過程。通過實(shí)驗(yàn)證明,他們的方法不僅理論上優(yōu)越,在實(shí)際應(yīng)用中也表現(xiàn)出色,能夠有效地將模型行為與人類偏好對齊。
讓我們一起深入了解這項(xiàng)研究,看看它如何改變我們訓(xùn)練AI系統(tǒng)理解并遵循人類價值觀的方式。
一、從傳統(tǒng)RLHF到Nash學(xué)習(xí):理解問題的本質(zhì)
想象你正在教一個孩子如何做出好決定。傳統(tǒng)的強(qiáng)化學(xué)習(xí)從人類反饋(RLHF)方法就像是給孩子一個評分表——"這樣做得10分,那樣做得5分"。但實(shí)際上,人類價值觀遠(yuǎn)比簡單的數(shù)字評分復(fù)雜得多。
傳統(tǒng)的RLHF方法主要依賴于所謂的"獎勵模型",最常見的是Bradley-Terry(BT)模型。在這個模型中,每個行動都有一個標(biāo)量獎勵值,兩個行動之間的偏好由它們的獎勵差異決定。如果行動A的獎勵值高于行動B,那么人類更可能偏好A而非B。這種方法的目標(biāo)是找到一個"Condorcet贏家"——一個能在平均意義上勝過所有其他行動的選擇。
然而,研究人員們指出,這種基于獎勵模型的方法存在嚴(yán)重局限性。最根本的問題是它假設(shè)人類偏好具有傳遞性:如果我們偏好A勝過B,偏好B勝過C,那么我們必然偏好A勝過C。但現(xiàn)實(shí)中,人類偏好常常是非傳遞的。想象一下,你可能在口味A和口味B之間更喜歡A,在口味B和口味C之間更喜歡B,但當(dāng)直接比較A和C時,你卻可能更喜歡C——這在心理學(xué)中被稱為"循環(huán)偏好",是完全正常的人類判斷現(xiàn)象。
此外,即使個人偏好是傳遞的,當(dāng)我們聚合一群人的偏好時,集體偏好也可能出現(xiàn)非傳遞性。這就像是民主投票中可能出現(xiàn)的"投票悖論"——沒有一個選項(xiàng)能讓所有人都滿意。這種非傳遞偏好意味著可能不存在一個一致的獎勵函數(shù)或Condorcet贏家能夠符合所有比較結(jié)果。
為了解決這個問題,研究人員轉(zhuǎn)向了Nash學(xué)習(xí)框架(NLHF)。這個框架不再試圖構(gòu)建一個簡單的獎勵函數(shù),而是直接將問題建模為一個對稱的雙人游戲:兩名玩家同時選擇行動,然后根據(jù)人類偏好判斷哪個行動更好。在這個游戲中,自然的目標(biāo)是找到一個對稱的Nash均衡,也稱為von Neumann贏家(VNW)。
與Condorcet贏家(單一最佳行動)不同,VNW通常是行動上的一個概率分布(混合策略),代表在面對潛在非傳遞偏好時的一個穩(wěn)定結(jié)果。這就像是制定一個靈活的行為指南,而不是簡單的"一刀切"規(guī)則。
在實(shí)際的RLHF設(shè)置中,特別是當(dāng)調(diào)整預(yù)訓(xùn)練的大型語言模型時,我們希望學(xué)習(xí)一個既符合人類偏好又與原始參考策略(例如預(yù)訓(xùn)練模型)相近的策略。為了滿足這一約束,研究者考慮尋找正則化偏好游戲的Nash均衡。這是通過添加一個與當(dāng)前策略到參考策略之間KL散度成比例的懲罰項(xiàng)來實(shí)現(xiàn)的。這種正則化不僅鼓勵與參考策略的相似性,還能為優(yōu)化提供理論上的好處,比如Nash均衡的唯一性。
二、Nash Mirror Prox算法:創(chuàng)新的優(yōu)化方法
找到這樣一個游戲的Nash均衡可能是一項(xiàng)挑戰(zhàn)。此前,Munos等人提出了NashMD算法,它是Mirror Descent(鏡像下降)的一種改編,用于近似正則化偏好游戲的von Neumann贏家。NashMD首先通過將當(dāng)前策略與參考策略混合來正則化當(dāng)前策略,然后對這個正則化策略執(zhí)行鏡像下降步驟。他們證明,NashMD的最后一次迭代以O(shè)((β?N)??)的速率收斂到正則化Nash均衡,其中N是偏好查詢的數(shù)量,β是正則化參數(shù)。
那么,我們能否開發(fā)出一種算法,基于更強(qiáng)大的優(yōu)化原則,為NLHF實(shí)現(xiàn)更快的收斂速率呢?這就是本研究的核心問題。
研究者們提出了Nash Mirror Prox(NashMP)算法,這是一種新方法,靈感來自于Mirror Prox優(yōu)化方案,旨在實(shí)現(xiàn)更快、更穩(wěn)定的Nash均衡收斂。想象一下,如果傳統(tǒng)RLHF方法就像是在地圖上按照指南針一步步前進(jìn)尋找目的地,那么NashMP就像是一個先偵察前方地形,然后根據(jù)偵察結(jié)果規(guī)劃更佳路線的探險團(tuán)隊(duì)。
NashMP算法的迭代是這樣定義的:
首先,算法計(jì)算一個"改進(jìn)的"對手策略: π???/? = arg min[P(π? ? π) + β·KL(π∥π???) + (β/η)·KL(π∥π?)]
然后,它通過對這個改進(jìn)的對手執(zhí)行另一個鏡像下降步驟來更新當(dāng)前策略: π??? = arg min[P(π???/? ? π) + β·KL(π∥π???) + (β/η)·KL(π∥π?)]
其中,π是策略,P(π? ? π?)表示π?勝過π?的偏好,KL是Kullback-Leibler散度(衡量兩個概率分布之間的差異),η是學(xué)習(xí)率,β是正則化參數(shù)。
簡單來說,這個算法的獨(dú)特之處在于它的兩步結(jié)構(gòu):首先計(jì)算一個"前瞻"步驟,然后基于這個前瞻信息執(zhí)行實(shí)際更新。這就像是國際象棋玩家先在腦中模擬幾步可能的走法,然后基于這種前瞻分析做出最終決策。
NashMP與近似點(diǎn)方法(Proximal Point method)有著密切的聯(lián)系。實(shí)際上,Mirror Prox最初的動機(jī)就是近似點(diǎn)法,而近似點(diǎn)法為Nash均衡提供了一個自然的視角。如果我們將學(xué)習(xí)率η設(shè)為無窮大(這意味著近似項(xiàng)(β/η)·KL(π∥π?)消失),那么近似點(diǎn)法的解會收斂到β-正則化的von Neumann贏家π*β。在實(shí)踐中,由于近似步驟只能被近似計(jì)算,所以需要有限的學(xué)習(xí)率η。一般來說,對近似點(diǎn)步驟的更準(zhǔn)確近似允許使用更大的學(xué)習(xí)率。
研究者們的理論分析證明,在合適的條件下,NashMP算法的最后一次迭代以線性速率收斂到正則化Nash均衡:O((1+2β)??/?/β),這比NashMD的O((β?N)??)快得多。重要的是,這種線性收斂適用于最后一次迭代,這在實(shí)際深度學(xué)習(xí)設(shè)置中非常理想,因?yàn)樵谶@種情況下計(jì)算或存儲策略平均值可能很困難。
此外,研究者們還分析了NashMP找到的正則化Nash均衡與原始非正則化游戲的VNW之間的關(guān)系,提供了次優(yōu)性差距的上界。他們的分析表明,NashMP可以以O(shè)(1/ε)的查詢復(fù)雜度找到原始游戲的ε-VNW,與最近的最先進(jìn)方法相匹配,同時為正則化問題提供最后一次迭代的收斂保證。
三、從理論到實(shí)踐:近似Nash Mirror Prox
在實(shí)際應(yīng)用中,精確計(jì)算NashMP迭代是不可行的,因?yàn)檫@需要解決高維參數(shù)化策略類上的優(yōu)化問題。為了克服這一挑戰(zhàn),研究者們提出了一種近似算法,其中迭代通過隨機(jī)策略梯度方法進(jìn)行不精確更新。
具體來說,他們對策略進(jìn)行參數(shù)化,使用softmax函數(shù):π_θ(y) = exp(θ_y)/∑_y'∈Y exp(θ_y'),然后使用隨機(jī)梯度下降優(yōu)化參數(shù)θ。這種方法使得NashMP的應(yīng)用更接近實(shí)際大型語言模型的調(diào)整場景。
為了進(jìn)行理論分析,他們首先建立了近似NashMP的收斂保證。如果我們能以span半范數(shù)ε的精度近似每個迭代,那么在K = ?(1+β)/(2β) · log(1/ε)?次迭代后,最終策略將是β-正則化游戲中的4√(ε/β)-VNW。
研究者們還提供了一個關(guān)鍵的技術(shù)貢獻(xiàn):在熵正則化多臂賭博機(jī)環(huán)境中,softmax策略梯度的改進(jìn)分析。與Mei等人先前的工作相比,他們的策略梯度分析在Y(動作空間大小)的依賴性上實(shí)現(xiàn)了exp(√Y)因子的改進(jìn),使最終復(fù)雜度僅依賴于最優(yōu)策略和初始參數(shù),而非動作數(shù)量或獎勵函數(shù)的尺度。
對于深度學(xué)習(xí)實(shí)現(xiàn),研究者們提出了一個更實(shí)用的NashMP變體。他們注意到簡化版的NashMP對每個全局鏡像步驟進(jìn)行T個梯度步。然而,由于Mirror Prox本身也是近似點(diǎn)法的近似,因此可能需要重新平衡外部和內(nèi)部近似步驟。
他們考慮了以下策略:在線策略π_t(參數(shù)θ_t),目標(biāo)π^target_t(參數(shù)θ^target_t),以及固定的參考策略π^ref。參數(shù)更新定義為: θ_t+1 = arg min_θ L_NashMP(θ; θ_t, θ^target_t, π^ref)
其中損失函數(shù)為: L_NashMP(θ; θ', θ^target) = E[P(y ? y'|x) + β·log(π_θ(y|x)/π^ref(y|x)) + (β/η)·log(π_θ(y|x)/π_θ^target(y|x))]
要獲得NashMP,需要每兩步更新一次目標(biāo)策略參數(shù)θ^target_t。如果每n步更新一次,就會得到一個更接近近似點(diǎn)法的算法。
在實(shí)際應(yīng)用中,用T個內(nèi)部梯度步驟優(yōu)化到收斂可能非常不切實(shí)際。相反,研究者們發(fā)現(xiàn)更實(shí)用優(yōu)雅的方法是用一個(或少量)梯度更新更新在線參數(shù),并用指數(shù)移動平均緩慢更新目標(biāo): θ_t+1 = θ_t - α·?_θ L_NashMP(θ_t; θ_t, θ^target_t) θ^target_t+1 = κ·θ_t + (1-κ)·θ^target_t
其中α是學(xué)習(xí)率,參數(shù)κ∈[0,1]隱式控制一個近似點(diǎn)更新的步數(shù)。因此,我們用n≈1/κ梯度步驟近似一個近似點(diǎn)子問題的解決方案。這種策略在深度強(qiáng)化學(xué)習(xí)中很常見。
對于梯度估計(jì),研究者們使用了一種與DPO類似但更具對比性的形式:如果從偏好模型的角度看,兩個響應(yīng)y_i和y'_i相同,則P(y_i ? y'_i|x_i)≈1/2,不提供任何梯度信號。但如果一個響應(yīng)比另一個好,就會增加其似然并減少較差答案的似然。如果只有對決反饋,可以用對決結(jié)果替換偏好模型。
四、實(shí)驗(yàn)驗(yàn)證:理論與實(shí)踐的結(jié)合
為了驗(yàn)證NashMP算法的有效性,研究者們進(jìn)行了兩類實(shí)驗(yàn):一是在簡單的上下文對決賭博機(jī)問題上,二是在大型語言模型的調(diào)整上。
在簡單的矩陣游戲?qū)嶒?yàn)中,他們固定了動作數(shù)Y=100和β=0.01,參考策略為均勻分布。他們將NashMP與幾個基線方法進(jìn)行比較:在線DPO、在線IPO、Nash MD,以及具有自適應(yīng)κ的NashMP。結(jié)果顯示,對于500步優(yōu)化,NashMP并未提供比在線IPO更好的改進(jìn);然而,從約1000優(yōu)化步開始,具有自適應(yīng)κ = 10/(k+10)的NashMP開始優(yōu)于所有基線,并且隨著優(yōu)化繼續(xù),相對改進(jìn)增加。此外,他們觀察到NashMP方法的置信區(qū)間要小得多,表明額外穩(wěn)定化的影響。
在大型語言模型對齊實(shí)驗(yàn)中,研究者們使用Gemma-2B預(yù)訓(xùn)練模型檢查點(diǎn),并在RLHFlow數(shù)據(jù)集上進(jìn)行訓(xùn)練。具體來說,他們首先在RLHFlow SFT數(shù)據(jù)集上執(zhí)行SFT(監(jiān)督微調(diào)),然后對所有NLHF實(shí)驗(yàn)使用結(jié)果檢查點(diǎn),使用RLHFlow Prompt集合的子集。成對判斷模型是通過Robust Reward Models方法訓(xùn)練的Gemma-2B。
實(shí)驗(yàn)結(jié)果令人鼓舞,表明NashMP以κ=0.1的實(shí)用版本勝過所有基線,包括"正則化自對弈"(實(shí)質(zhì)上是η=+∞的NashMP)。NashMP與正則化自對弈之間唯一的區(qū)別是增加了相對于目標(biāo)模型的正則化,研究結(jié)果表明這種正則化的價值。
這些實(shí)驗(yàn)結(jié)果不僅驗(yàn)證了理論分析的正確性,還展示了NashMP在實(shí)際應(yīng)用中的優(yōu)越性。特別是,NashMP在處理大動作空間(如語言模型生成)時的獨(dú)立性尤為重要,這使其成為大型語言模型調(diào)整的理想選擇。
五、研究意義與未來方向
這項(xiàng)研究的重要性在于它提供了一種更有效、更穩(wěn)定的方法來解決基于人類偏好的AI對齊問題。傳統(tǒng)RLHF方法依賴的獎勵模型可能無法捕捉人類偏好的全部復(fù)雜性,特別是當(dāng)這些偏好表現(xiàn)出非傳遞性時。相比之下,NLHF框架通過將問題建模為一個偏好游戲,可以找到即使在復(fù)雜、非傳遞偏好情況下也保持穩(wěn)定的策略。
NashMP算法的創(chuàng)新之處在于它顯著加速了這一學(xué)習(xí)過程。通過利用Mirror Prox優(yōu)化方案,它能夠?qū)崿F(xiàn)線性收斂率,這比現(xiàn)有方法要快得多。重要的是,這種收斂適用于最后一次迭代,消除了計(jì)算策略平均值的需要,這在深度學(xué)習(xí)背景下尤為重要。
此外,NashMP的收斂率不依賴于動作空間的大小,這對于大型語言模型的調(diào)整是一個關(guān)鍵優(yōu)勢,因?yàn)檫@些模型的輸出空間極其龐大。這使得NashMP成為大型語言模型對齊的特別有吸引力的選擇。
從更廣泛的角度看,這項(xiàng)研究代表了將先進(jìn)優(yōu)化技術(shù)應(yīng)用于AI對齊問題的重要一步。它展示了理論優(yōu)化和實(shí)際應(yīng)用之間的橋梁,提供了不僅理論上優(yōu)越而且在實(shí)踐中可行的解決方案。
關(guān)于未來的方向,這項(xiàng)研究提出了幾個有趣的問題。一個關(guān)鍵問題是確定最佳收斂率。盡管NashMP顯示出顯著改進(jìn),但研究者們指出,他們不知道這一特定設(shè)置的任何已確立的下界,這留下了進(jìn)一步改進(jìn)的可能性。
另一個有前途的方向是探索NashMP在多輪規(guī)劃等需要多輪決策的設(shè)置中的應(yīng)用。當(dāng)前的方法主要關(guān)注單輪決策點(diǎn)的偏好,但許多實(shí)際應(yīng)用需要長期規(guī)劃和序列決策。拓展NashMP以處理這類場景可能是一個valuable的研究方向。
此外,進(jìn)一步研究如何更有效地近似NashMP步驟,特別是在大型語言模型的背景下,也是值得探索的。當(dāng)前的近似方法使用隨機(jī)策略梯度,但可能存在更高效或更穩(wěn)定的近似技術(shù)。
最后,將NashMP應(yīng)用于更廣泛的人類偏好學(xué)習(xí)場景,超出語言模型的范圍,也是一個有前途的方向。例如,它可能在機(jī)器人學(xué)習(xí)、推薦系統(tǒng)和其他依賴人類偏好的AI應(yīng)用中發(fā)揮作用。
總的來說,這項(xiàng)研究在AI對齊的理論和實(shí)踐前沿邁出了重要一步,提供了一種更有效地從人類反饋中學(xué)習(xí)的方法,有可能為更安全、更有益的AI系統(tǒng)鋪平道路。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。