av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 Nash Mirror Prox:加速人類反饋中的Nash學習

Nash Mirror Prox:加速人類反饋中的Nash學習

2025-05-30 10:03
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 10:03 ? 科技行者

當今,大型語言模型(LLMs)如何更好地與人類價值觀保持一致,已成為人工智能安全與發(fā)展的關鍵挑戰(zhàn)。來自法國巴黎綜合理工學院、巴黎-薩克雷大學、谷歌DeepMind、杜伊斯堡-埃森大學、俄羅斯高等經濟學院、穆罕默德·本·扎耶德人工智能大學、Hugging Face、法國國家信息與自動化研究所(Inria)以及里昂高等師范學院的研究團隊,在2025年5月發(fā)表于arXiv的一篇論文中,提出了一種名為"Nash Mirror Prox"(NashMP)的創(chuàng)新算法,旨在解決人類偏好對齊中的關鍵問題。這篇題為《通過Mirror Prox加速基于人類反饋的Nash學習》的研究論文(arXiv:2505.19731v1)展示了如何更高效地將大型語言模型調整為符合人類偏好的方向。

想象一下,你在教一個聰明但不了解人類價值觀的外星人如何適應地球生活。傳統(tǒng)方法是給這個外星人一個"分數表",告訴它每個行為的好壞程度。但問題是,人類價值觀復雜多變,很難用簡單的分數來表達。有時我們的偏好甚至是矛盾的——比如,在某些情況下我們可能更喜歡誠實,而在其他情況下可能更看重善意。這就像是告訴外星人"紅燈停綠燈行",但當有緊急情況時,這條規(guī)則又需要被打破。

研究人員們面臨的關鍵挑戰(zhàn)是,如何設計一種學習系統(tǒng),能夠捕捉人類偏好的全部復雜性,而不僅僅依賴于簡化后的獎勵函數。這就是本文提出的Nash學習框架(NLHF)的核心思想,它將問題視為一個對稱的雙人游戲,通過尋找這個游戲的Nash均衡來學習最佳行為策略。

在這項突破性研究中,研究團隊引入了Nash Mirror Prox(NashMP)算法,這是一種基于Mirror Prox優(yōu)化方案的在線學習算法,能夠更快、更穩(wěn)定地找到基于人類偏好游戲的Nash均衡。他們的理論分析表明,NashMP算法在尋找正則化Nash均衡時展現出了線性收斂的特性,收斂速度為(1+2β)^(-N/2),其中N是人類偏好詢問的次數,β是正則化參數。這比現有方法要快得多,而且算法的收斂速度不受動作空間大小的影響,這對于大型語言模型的調整特別有利。

研究團隊不僅提供了理論證明,還進行了實用化設計,使NashMP算法能夠應用于大型語言模型的微調過程。通過實驗證明,他們的方法不僅理論上優(yōu)越,在實際應用中也表現出色,能夠有效地將模型行為與人類偏好對齊。

讓我們一起深入了解這項研究,看看它如何改變我們訓練AI系統(tǒng)理解并遵循人類價值觀的方式。

一、從傳統(tǒng)RLHF到Nash學習:理解問題的本質

想象你正在教一個孩子如何做出好決定。傳統(tǒng)的強化學習從人類反饋(RLHF)方法就像是給孩子一個評分表——"這樣做得10分,那樣做得5分"。但實際上,人類價值觀遠比簡單的數字評分復雜得多。

傳統(tǒng)的RLHF方法主要依賴于所謂的"獎勵模型",最常見的是Bradley-Terry(BT)模型。在這個模型中,每個行動都有一個標量獎勵值,兩個行動之間的偏好由它們的獎勵差異決定。如果行動A的獎勵值高于行動B,那么人類更可能偏好A而非B。這種方法的目標是找到一個"Condorcet贏家"——一個能在平均意義上勝過所有其他行動的選擇。

然而,研究人員們指出,這種基于獎勵模型的方法存在嚴重局限性。最根本的問題是它假設人類偏好具有傳遞性:如果我們偏好A勝過B,偏好B勝過C,那么我們必然偏好A勝過C。但現實中,人類偏好常常是非傳遞的。想象一下,你可能在口味A和口味B之間更喜歡A,在口味B和口味C之間更喜歡B,但當直接比較A和C時,你卻可能更喜歡C——這在心理學中被稱為"循環(huán)偏好",是完全正常的人類判斷現象。

此外,即使個人偏好是傳遞的,當我們聚合一群人的偏好時,集體偏好也可能出現非傳遞性。這就像是民主投票中可能出現的"投票悖論"——沒有一個選項能讓所有人都滿意。這種非傳遞偏好意味著可能不存在一個一致的獎勵函數或Condorcet贏家能夠符合所有比較結果。

為了解決這個問題,研究人員轉向了Nash學習框架(NLHF)。這個框架不再試圖構建一個簡單的獎勵函數,而是直接將問題建模為一個對稱的雙人游戲:兩名玩家同時選擇行動,然后根據人類偏好判斷哪個行動更好。在這個游戲中,自然的目標是找到一個對稱的Nash均衡,也稱為von Neumann贏家(VNW)。

與Condorcet贏家(單一最佳行動)不同,VNW通常是行動上的一個概率分布(混合策略),代表在面對潛在非傳遞偏好時的一個穩(wěn)定結果。這就像是制定一個靈活的行為指南,而不是簡單的"一刀切"規(guī)則。

在實際的RLHF設置中,特別是當調整預訓練的大型語言模型時,我們希望學習一個既符合人類偏好又與原始參考策略(例如預訓練模型)相近的策略。為了滿足這一約束,研究者考慮尋找正則化偏好游戲的Nash均衡。這是通過添加一個與當前策略到參考策略之間KL散度成比例的懲罰項來實現的。這種正則化不僅鼓勵與參考策略的相似性,還能為優(yōu)化提供理論上的好處,比如Nash均衡的唯一性。

二、Nash Mirror Prox算法:創(chuàng)新的優(yōu)化方法

找到這樣一個游戲的Nash均衡可能是一項挑戰(zhàn)。此前,Munos等人提出了NashMD算法,它是Mirror Descent(鏡像下降)的一種改編,用于近似正則化偏好游戲的von Neumann贏家。NashMD首先通過將當前策略與參考策略混合來正則化當前策略,然后對這個正則化策略執(zhí)行鏡像下降步驟。他們證明,NashMD的最后一次迭代以O((β?N)??)的速率收斂到正則化Nash均衡,其中N是偏好查詢的數量,β是正則化參數。

那么,我們能否開發(fā)出一種算法,基于更強大的優(yōu)化原則,為NLHF實現更快的收斂速率呢?這就是本研究的核心問題。

研究者們提出了Nash Mirror Prox(NashMP)算法,這是一種新方法,靈感來自于Mirror Prox優(yōu)化方案,旨在實現更快、更穩(wěn)定的Nash均衡收斂。想象一下,如果傳統(tǒng)RLHF方法就像是在地圖上按照指南針一步步前進尋找目的地,那么NashMP就像是一個先偵察前方地形,然后根據偵察結果規(guī)劃更佳路線的探險團隊。

NashMP算法的迭代是這樣定義的:

首先,算法計算一個"改進的"對手策略: π???/? = arg min[P(π? ? π) + β·KL(π∥π???) + (β/η)·KL(π∥π?)]

然后,它通過對這個改進的對手執(zhí)行另一個鏡像下降步驟來更新當前策略: π??? = arg min[P(π???/? ? π) + β·KL(π∥π???) + (β/η)·KL(π∥π?)]

其中,π是策略,P(π? ? π?)表示π?勝過π?的偏好,KL是Kullback-Leibler散度(衡量兩個概率分布之間的差異),η是學習率,β是正則化參數。

簡單來說,這個算法的獨特之處在于它的兩步結構:首先計算一個"前瞻"步驟,然后基于這個前瞻信息執(zhí)行實際更新。這就像是國際象棋玩家先在腦中模擬幾步可能的走法,然后基于這種前瞻分析做出最終決策。

NashMP與近似點方法(Proximal Point method)有著密切的聯(lián)系。實際上,Mirror Prox最初的動機就是近似點法,而近似點法為Nash均衡提供了一個自然的視角。如果我們將學習率η設為無窮大(這意味著近似項(β/η)·KL(π∥π?)消失),那么近似點法的解會收斂到β-正則化的von Neumann贏家π*β。在實踐中,由于近似步驟只能被近似計算,所以需要有限的學習率η。一般來說,對近似點步驟的更準確近似允許使用更大的學習率。

研究者們的理論分析證明,在合適的條件下,NashMP算法的最后一次迭代以線性速率收斂到正則化Nash均衡:O((1+2β)??/?/β),這比NashMD的O((β?N)??)快得多。重要的是,這種線性收斂適用于最后一次迭代,這在實際深度學習設置中非常理想,因為在這種情況下計算或存儲策略平均值可能很困難。

此外,研究者們還分析了NashMP找到的正則化Nash均衡與原始非正則化游戲的VNW之間的關系,提供了次優(yōu)性差距的上界。他們的分析表明,NashMP可以以O(1/ε)的查詢復雜度找到原始游戲的ε-VNW,與最近的最先進方法相匹配,同時為正則化問題提供最后一次迭代的收斂保證。

三、從理論到實踐:近似Nash Mirror Prox

在實際應用中,精確計算NashMP迭代是不可行的,因為這需要解決高維參數化策略類上的優(yōu)化問題。為了克服這一挑戰(zhàn),研究者們提出了一種近似算法,其中迭代通過隨機策略梯度方法進行不精確更新。

具體來說,他們對策略進行參數化,使用softmax函數:π_θ(y) = exp(θ_y)/∑_y'∈Y exp(θ_y'),然后使用隨機梯度下降優(yōu)化參數θ。這種方法使得NashMP的應用更接近實際大型語言模型的調整場景。

為了進行理論分析,他們首先建立了近似NashMP的收斂保證。如果我們能以span半范數ε的精度近似每個迭代,那么在K = ?(1+β)/(2β) · log(1/ε)?次迭代后,最終策略將是β-正則化游戲中的4√(ε/β)-VNW。

研究者們還提供了一個關鍵的技術貢獻:在熵正則化多臂賭博機環(huán)境中,softmax策略梯度的改進分析。與Mei等人先前的工作相比,他們的策略梯度分析在Y(動作空間大?。┑囊蕾囆陨蠈崿F了exp(√Y)因子的改進,使最終復雜度僅依賴于最優(yōu)策略和初始參數,而非動作數量或獎勵函數的尺度。

對于深度學習實現,研究者們提出了一個更實用的NashMP變體。他們注意到簡化版的NashMP對每個全局鏡像步驟進行T個梯度步。然而,由于Mirror Prox本身也是近似點法的近似,因此可能需要重新平衡外部和內部近似步驟。

他們考慮了以下策略:在線策略π_t(參數θ_t),目標π^target_t(參數θ^target_t),以及固定的參考策略π^ref。參數更新定義為: θ_t+1 = arg min_θ L_NashMP(θ; θ_t, θ^target_t, π^ref)

其中損失函數為: L_NashMP(θ; θ', θ^target) = E[P(y ? y'|x) + β·log(π_θ(y|x)/π^ref(y|x)) + (β/η)·log(π_θ(y|x)/π_θ^target(y|x))]

要獲得NashMP,需要每兩步更新一次目標策略參數θ^target_t。如果每n步更新一次,就會得到一個更接近近似點法的算法。

在實際應用中,用T個內部梯度步驟優(yōu)化到收斂可能非常不切實際。相反,研究者們發(fā)現更實用優(yōu)雅的方法是用一個(或少量)梯度更新更新在線參數,并用指數移動平均緩慢更新目標: θ_t+1 = θ_t - α·?_θ L_NashMP(θ_t; θ_t, θ^target_t) θ^target_t+1 = κ·θ_t + (1-κ)·θ^target_t

其中α是學習率,參數κ∈[0,1]隱式控制一個近似點更新的步數。因此,我們用n≈1/κ梯度步驟近似一個近似點子問題的解決方案。這種策略在深度強化學習中很常見。

對于梯度估計,研究者們使用了一種與DPO類似但更具對比性的形式:如果從偏好模型的角度看,兩個響應y_i和y'_i相同,則P(y_i ? y'_i|x_i)≈1/2,不提供任何梯度信號。但如果一個響應比另一個好,就會增加其似然并減少較差答案的似然。如果只有對決反饋,可以用對決結果替換偏好模型。

四、實驗驗證:理論與實踐的結合

為了驗證NashMP算法的有效性,研究者們進行了兩類實驗:一是在簡單的上下文對決賭博機問題上,二是在大型語言模型的調整上。

在簡單的矩陣游戲實驗中,他們固定了動作數Y=100和β=0.01,參考策略為均勻分布。他們將NashMP與幾個基線方法進行比較:在線DPO、在線IPO、Nash MD,以及具有自適應κ的NashMP。結果顯示,對于500步優(yōu)化,NashMP并未提供比在線IPO更好的改進;然而,從約1000優(yōu)化步開始,具有自適應κ = 10/(k+10)的NashMP開始優(yōu)于所有基線,并且隨著優(yōu)化繼續(xù),相對改進增加。此外,他們觀察到NashMP方法的置信區(qū)間要小得多,表明額外穩(wěn)定化的影響。

在大型語言模型對齊實驗中,研究者們使用Gemma-2B預訓練模型檢查點,并在RLHFlow數據集上進行訓練。具體來說,他們首先在RLHFlow SFT數據集上執(zhí)行SFT(監(jiān)督微調),然后對所有NLHF實驗使用結果檢查點,使用RLHFlow Prompt集合的子集。成對判斷模型是通過Robust Reward Models方法訓練的Gemma-2B。

實驗結果令人鼓舞,表明NashMP以κ=0.1的實用版本勝過所有基線,包括"正則化自對弈"(實質上是η=+∞的NashMP)。NashMP與正則化自對弈之間唯一的區(qū)別是增加了相對于目標模型的正則化,研究結果表明這種正則化的價值。

這些實驗結果不僅驗證了理論分析的正確性,還展示了NashMP在實際應用中的優(yōu)越性。特別是,NashMP在處理大動作空間(如語言模型生成)時的獨立性尤為重要,這使其成為大型語言模型調整的理想選擇。

五、研究意義與未來方向

這項研究的重要性在于它提供了一種更有效、更穩(wěn)定的方法來解決基于人類偏好的AI對齊問題。傳統(tǒng)RLHF方法依賴的獎勵模型可能無法捕捉人類偏好的全部復雜性,特別是當這些偏好表現出非傳遞性時。相比之下,NLHF框架通過將問題建模為一個偏好游戲,可以找到即使在復雜、非傳遞偏好情況下也保持穩(wěn)定的策略。

NashMP算法的創(chuàng)新之處在于它顯著加速了這一學習過程。通過利用Mirror Prox優(yōu)化方案,它能夠實現線性收斂率,這比現有方法要快得多。重要的是,這種收斂適用于最后一次迭代,消除了計算策略平均值的需要,這在深度學習背景下尤為重要。

此外,NashMP的收斂率不依賴于動作空間的大小,這對于大型語言模型的調整是一個關鍵優(yōu)勢,因為這些模型的輸出空間極其龐大。這使得NashMP成為大型語言模型對齊的特別有吸引力的選擇。

從更廣泛的角度看,這項研究代表了將先進優(yōu)化技術應用于AI對齊問題的重要一步。它展示了理論優(yōu)化和實際應用之間的橋梁,提供了不僅理論上優(yōu)越而且在實踐中可行的解決方案。

關于未來的方向,這項研究提出了幾個有趣的問題。一個關鍵問題是確定最佳收斂率。盡管NashMP顯示出顯著改進,但研究者們指出,他們不知道這一特定設置的任何已確立的下界,這留下了進一步改進的可能性。

另一個有前途的方向是探索NashMP在多輪規(guī)劃等需要多輪決策的設置中的應用。當前的方法主要關注單輪決策點的偏好,但許多實際應用需要長期規(guī)劃和序列決策。拓展NashMP以處理這類場景可能是一個valuable的研究方向。

此外,進一步研究如何更有效地近似NashMP步驟,特別是在大型語言模型的背景下,也是值得探索的。當前的近似方法使用隨機策略梯度,但可能存在更高效或更穩(wěn)定的近似技術。

最后,將NashMP應用于更廣泛的人類偏好學習場景,超出語言模型的范圍,也是一個有前途的方向。例如,它可能在機器人學習、推薦系統(tǒng)和其他依賴人類偏好的AI應用中發(fā)揮作用。

總的來說,這項研究在AI對齊的理論和實踐前沿邁出了重要一步,提供了一種更有效地從人類反饋中學習的方法,有可能為更安全、更有益的AI系統(tǒng)鋪平道路。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-