av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 差分信息:一種信息論視角下理解偏好優(yōu)化的新方法 - KAIST AI研究團(tuán)隊(duì)突破性解讀

差分信息:一種信息論視角下理解偏好優(yōu)化的新方法 - KAIST AI研究團(tuán)隊(duì)突破性解讀

2025-06-03 20:42
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 20:42 ? 科技行者

在人工智能快速發(fā)展的今天,如何讓大型語(yǔ)言模型(LLM)更好地理解并滿足人類(lèi)的期望,是確保AI安全部署的關(guān)鍵一環(huán)。2023年5月,來(lái)自韓國(guó)科學(xué)技術(shù)院(KAIST AI)的研究團(tuán)隊(duì)(Yunjae Won、Hyunji Lee、Hyeonbin Hwang和Minjoon Seo)在arXiv(arXiv:2505.23761v1)上發(fā)表了一篇題為《差分信息:偏好優(yōu)化的信息論視角》的研究論文,為我們提供了理解大型語(yǔ)言模型學(xué)習(xí)人類(lèi)偏好的全新視角。

直接偏好優(yōu)化(Direct Preference Optimization,簡(jiǎn)稱(chēng)DPO)作為一種讓AI理解人類(lèi)偏好的方法,已經(jīng)因其強(qiáng)大性能、訓(xùn)練穩(wěn)定性和計(jì)算效率而成為業(yè)界標(biāo)準(zhǔn)。然而,盡管DPO在實(shí)踐中取得了成功,研究人員對(duì)于它為什么有效,以及它采用的"對(duì)數(shù)比率獎(jiǎng)勵(lì)"形式(log-ratio reward)為何如此有效的理論解釋卻不夠完整。這就好比我們知道某種藥物能治病,但不完全明白它為什么能治病。

KAIST AI的研究團(tuán)隊(duì)提出了一個(gè)新概念——"差分信息分布"(Differential Information Distribution,簡(jiǎn)稱(chēng)DID),為理解DPO提供了全新視角。想象一下,如果將語(yǔ)言模型看作是一本食譜書(shū),那么差分信息就好比是從基礎(chǔ)食譜到高級(jí)食譜的"升級(jí)指南"。這個(gè)升級(jí)指南不需要重寫(xiě)整本食譜書(shū),只需告訴我們?cè)谀男╆P(guān)鍵步驟需要做出調(diào)整,就能將普通菜肴變成米其林級(jí)美食。

研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)人類(lèi)的偏好標(biāo)記包含了從參考策略(reference policy)到目標(biāo)策略(target policy)所需的差分信息時(shí),DPO中的對(duì)數(shù)比率獎(jiǎng)勵(lì)形式就成為了學(xué)習(xí)目標(biāo)策略的最佳選擇。這就像是發(fā)現(xiàn)了一種最有效的食譜更新方法,不需要完全重寫(xiě)食譜,而只需標(biāo)記關(guān)鍵改進(jìn)點(diǎn)。

通過(guò)分析差分信息分布的熵(不確定性程度),研究團(tuán)隊(duì)進(jìn)一步揭示了一個(gè)有趣現(xiàn)象:學(xué)習(xí)低熵差分信息會(huì)加強(qiáng)策略分布(就像讓食譜更專(zhuān)注于幾道拿手菜),而學(xué)習(xí)高熵差分信息則會(huì)產(chǎn)生平滑效應(yīng)(就像讓食譜更加多樣化)。這一發(fā)現(xiàn)解釋了人們常觀察到的對(duì)數(shù)似然位移(log-likelihood displacement)現(xiàn)象,即模型在學(xué)習(xí)人類(lèi)偏好時(shí),可能會(huì)降低原本"正確"答案的概率。

研究團(tuán)隊(duì)通過(guò)合成實(shí)驗(yàn)驗(yàn)證了他們的理論發(fā)現(xiàn),并將其擴(kuò)展到真實(shí)世界的指令跟隨數(shù)據(jù)集。結(jié)果表明,對(duì)于通用指令跟隨任務(wù),學(xué)習(xí)高熵差分信息至關(guān)重要;而對(duì)于知識(shí)密集型問(wèn)答任務(wù),學(xué)習(xí)低熵差分信息則更為有利。這就像一個(gè)廚師需要在多樣化烹飪技巧和專(zhuān)精特定菜系之間找到平衡。

總的來(lái)說(shuō),這項(xiàng)研究通過(guò)差分信息的鏡頭,為我們提供了一個(gè)統(tǒng)一的視角,幫助我們理解DPO目標(biāo)函數(shù)、偏好數(shù)據(jù)的結(jié)構(gòu)以及由此產(chǎn)生的策略行為,為人工智能的安全發(fā)展提供了重要理論支持。

一、研究背景:為什么需要一種新的理論視角?

想象一下,你正在教一個(gè)聰明但對(duì)世界了解有限的外星人如何做飯。最開(kāi)始,你給了它一本基礎(chǔ)食譜書(shū)(這相當(dāng)于初始語(yǔ)言模型)。但你發(fā)現(xiàn)這個(gè)外星人按照食譜做出的菜肴雖然能吃,但并不符合人類(lèi)的口味偏好。于是,你開(kāi)始通過(guò)指出哪道菜更好吃、哪道菜不那么好吃來(lái)引導(dǎo)它(這就是偏好學(xué)習(xí))。

在AI領(lǐng)域,直接偏好優(yōu)化(DPO)方法就是這樣一種教導(dǎo)AI理解人類(lèi)偏好的方式。DPO由Rafailov等人于2023年提出,它不需要顯式地估計(jì)獎(jiǎng)勵(lì)函數(shù),而是直接優(yōu)化語(yǔ)言模型以最大化給定偏好數(shù)據(jù)的經(jīng)驗(yàn)似然。特別地,DPO使用了一種特殊形式的"獎(jiǎng)勵(lì)"——β log(π/πref),其中π是正在學(xué)習(xí)的策略,πref是固定的參考策略,β是KL正則化強(qiáng)度。

雖然研究人員提出了各種DPO變體和替代獎(jiǎng)勵(lì)參數(shù)化方法,但原始的對(duì)數(shù)比率形式仍然是偏好優(yōu)化的事實(shí)標(biāo)準(zhǔn)。然而,對(duì)于為什么這種特定形式如此有效,以及在什么條件下它是最優(yōu)的,這些問(wèn)題的深層理解仍然不足。

KAIST AI的研究團(tuán)隊(duì)決定從信息論的角度重新審視這個(gè)問(wèn)題。他們提出了"差分信息分布"(DID)的概念,簡(jiǎn)單來(lái)說(shuō),差分信息分布代表了從一個(gè)分布更新到另一個(gè)分布所需的信息。

回到我們的烹飪比喻,差分信息就像是一份"改進(jìn)指南",它不是完整的新食譜,而是告訴外星人:"在這道菜中,你需要少放鹽,多加香料"。這種改進(jìn)指南比完全重寫(xiě)食譜更高效,因?yàn)樗魂P(guān)注需要改變的部分。

研究團(tuán)隊(duì)提出了一個(gè)假設(shè):通過(guò)偏好學(xué)習(xí),模型實(shí)際上是在學(xué)習(xí)從參考策略πref到目標(biāo)策略π*所需的差分信息。這個(gè)假設(shè)為理解DPO的工作原理提供了全新視角。

二、差分信息分布:理解語(yǔ)言模型策略更新的新工具

要理解差分信息分布,我們可以想象兩本不同版本的烹飪書(shū)。第一本是基礎(chǔ)版(參考策略πref),第二本是改進(jìn)版(目標(biāo)策略π*)。差分信息分布就像是一份列出了所有改進(jìn)之處的文檔,它告訴我們:哪些菜譜需要調(diào)整,以及如何調(diào)整才能從基礎(chǔ)版變成改進(jìn)版。

在技術(shù)層面,研究團(tuán)隊(duì)將差分信息分布定義為從參考策略πref到目標(biāo)策略π的"歸一化比率分布":

qπ/πref(y) = π(y)/πref(y) / Z

其中Z是歸一化因子,確保分布的概率總和為1。

簡(jiǎn)單來(lái)說(shuō),差分信息分布強(qiáng)調(diào)了兩個(gè)策略之間的差異。如果某個(gè)回答在新策略中的概率是舊策略的兩倍,那么這個(gè)回答在差分信息分布中就會(huì)有較高的概率。

研究團(tuán)隊(duì)進(jìn)一步分析了:在什么條件下,偏好數(shù)據(jù)會(huì)自然地編碼從參考策略到目標(biāo)策略所需的差分信息?他們發(fā)現(xiàn),當(dāng)差分信息分布之間存在冪律關(guān)系時(shí)(即qπref/πl(y) ∝ qπ*/πref(y)^β),偏好概率可以表示為由差分信息分布誘導(dǎo)的偏好。

回到烹飪比喻,這就好比外星人不僅知道哪道菜更好吃,還能理解為什么它更好吃——是因?yàn)樯俜帕他}還是多加了香料。這種深層次的理解才能真正幫助外星人改進(jìn)自己的烹飪技巧。

三、DPO的對(duì)數(shù)比率獎(jiǎng)勵(lì)為何是最優(yōu)的?

現(xiàn)在我們來(lái)到研究的核心問(wèn)題:為什么DPO中使用的對(duì)數(shù)比率獎(jiǎng)勵(lì)形式是最優(yōu)的?

研究團(tuán)隊(duì)證明,當(dāng)偏好數(shù)據(jù)編碼了學(xué)習(xí)目標(biāo)策略所需的差分信息時(shí),DPO中的對(duì)數(shù)比率獎(jiǎng)勵(lì)r = β log(π/πref)是唯一能夠通過(guò)偏好優(yōu)化恢復(fù)目標(biāo)策略π*的函數(shù)形式。

這就好比在烹飪學(xué)習(xí)過(guò)程中,外星人發(fā)現(xiàn)記錄"與基礎(chǔ)食譜的差異"是學(xué)習(xí)新食譜最有效的方法,而不是每次都從頭開(kāi)始寫(xiě)新食譜。

有趣的是,這一結(jié)論自然地產(chǎn)生了一個(gè)用于采樣被拒絕響應(yīng)的最優(yōu)分布的閉式表達(dá)式:

πl(y) ∝ πref(y)(πref(y)/π*(y))^β

這個(gè)公式告訴我們,在構(gòu)建偏好數(shù)據(jù)集時(shí),應(yīng)該如何選擇負(fù)面例子。它不僅僅是隨機(jī)選擇一些"不好"的回答,而是有策略地選擇那些能夠最有效傳達(dá)差分信息的例子。

在烹飪學(xué)習(xí)中,這相當(dāng)于不僅要展示好的菜品(正面例子),還要有針對(duì)性地展示那些犯了特定錯(cuò)誤的菜品(負(fù)面例子),這樣外星人才能更清楚地理解什么是需要避免的。

四、對(duì)數(shù)邊緣排序與差分信息的內(nèi)在聯(lián)系

研究團(tuán)隊(duì)進(jìn)一步探索了差分信息分布的冪律結(jié)構(gòu)與策略"對(duì)數(shù)邊緣排序"之間的聯(lián)系。他們發(fā)現(xiàn),這兩個(gè)概念實(shí)際上是等價(jià)的。

簡(jiǎn)單來(lái)說(shuō),如果我們有三個(gè)策略π*、πref和πl,當(dāng)它們之間的對(duì)數(shù)邊緣滿足特定的順序關(guān)系時(shí)(即πref的對(duì)數(shù)邊緣比πl大,同時(shí)π*的對(duì)數(shù)邊緣比πref大),策略之間的差分信息分布就會(huì)呈現(xiàn)冪律關(guān)系。

這一發(fā)現(xiàn)揭示了許多偏好優(yōu)化方法(如SLiC、SimPO和CPO)背后共同的歸納偏差。這些方法都試圖最大化對(duì)數(shù)邊緣來(lái)學(xué)習(xí)目標(biāo)策略π*,而這一行為隱含地假設(shè)了差分信息分布之間的冪律結(jié)構(gòu)。

在烹飪學(xué)習(xí)中,這相當(dāng)于發(fā)現(xiàn):"菜品口味改進(jìn)的程度"與"食譜調(diào)整的方向和幅度"之間存在一種數(shù)學(xué)上的對(duì)應(yīng)關(guān)系。理解了這種對(duì)應(yīng)關(guān)系,我們就能更有效地指導(dǎo)外星人改進(jìn)烹飪技巧。

五、差分信息的熵與策略動(dòng)態(tài)

研究團(tuán)隊(duì)接著分析了差分信息分布的熵(不確定性程度)如何影響策略動(dòng)態(tài)。

他們提出,差分信息分布的熵反映了策略更新的特征:學(xué)習(xí)低熵差分信息會(huì)導(dǎo)致策略強(qiáng)化(集中概率質(zhì)量),而學(xué)習(xí)高熵差分信息則會(huì)導(dǎo)致策略平滑(分散概率質(zhì)量)。

想象外星人學(xué)習(xí)烹飪的兩種不同情況: - 如果你只教它一兩道特定菜品的改進(jìn)技巧(低熵差分信息),它可能會(huì)在這幾道菜上變得非常精通,但整體烹飪水平仍有限。 - 如果你教它廣泛的烹飪?cè)瓌t和技巧(高熵差分信息),它的整體烹飪水平會(huì)提高,但可能在特定菜品上沒(méi)有達(dá)到極致。

這一理論為解釋DPO中常見(jiàn)的"對(duì)數(shù)似然位移"現(xiàn)象提供了新視角。對(duì)數(shù)似然位移指的是,即使模型對(duì)齊度提高,首選響應(yīng)的對(duì)數(shù)似然卻可能下降。以往的解釋通常集中在樣本相似性或梯度動(dòng)態(tài)上,而研究團(tuán)隊(duì)從信息論角度提供了互補(bǔ)的解釋。

當(dāng)偏好編碼了高熵差分信息(例如通用指令跟隨任務(wù)中的多方面標(biāo)準(zhǔn)),學(xué)習(xí)這種DID會(huì)導(dǎo)致π相對(duì)于πref的平滑,從而可能降低在πref中高概率區(qū)域的概率質(zhì)量,導(dǎo)致對(duì)數(shù)似然位移。

六、實(shí)驗(yàn)驗(yàn)證:從合成數(shù)據(jù)到真實(shí)世界

研究團(tuán)隊(duì)首先在合成設(shè)置中驗(yàn)證了他們的理論發(fā)現(xiàn)。他們使用能量基模型(EBM)構(gòu)建了一個(gè)環(huán)境,其中偏好分布自然編碼了差分信息。

在這個(gè)設(shè)置中,他們測(cè)試了各種偏好優(yōu)化目標(biāo),結(jié)果證實(shí)了當(dāng)偏好編碼差分信息時(shí),DPO的對(duì)數(shù)比率獎(jiǎng)勵(lì)確實(shí)是唯一能學(xué)習(xí)目標(biāo)策略的形式。

接著,他們將分析擴(kuò)展到真實(shí)世界的指令跟隨數(shù)據(jù)集。有趣的是,他們發(fā)現(xiàn)這些數(shù)據(jù)集的偏好更準(zhǔn)確地解釋為編碼了學(xué)習(xí)目標(biāo)策略所需的差分信息,而不是直接反映目標(biāo)策略本身。

這就像發(fā)現(xiàn)外星人通過(guò)觀察你做菜,實(shí)際上學(xué)到的不是完整的食譜,而是從基礎(chǔ)食譜到高級(jí)食譜的"升級(jí)路徑"。

七、差分信息熵與下游能力的關(guān)系

研究團(tuán)隊(duì)進(jìn)一步探索了差分信息分布的熵與下游能力獲取之間的關(guān)系。

他們?cè)谡鎸?shí)世界的指令跟隨數(shù)據(jù)集上實(shí)驗(yàn),支持了這些數(shù)據(jù)集通常編碼高熵DID,從而在DPO訓(xùn)練期間導(dǎo)致對(duì)數(shù)似然位移的假設(shè)。

更有趣的是,他們發(fā)現(xiàn)DID熵與下游性能之間存在相關(guān)性: - 學(xué)習(xí)高熵DID對(duì)于通用指令跟隨至關(guān)重要 - 學(xué)習(xí)低熵DID則有利于知識(shí)密集型問(wèn)答任務(wù)

這就像外星人在學(xué)習(xí)烹飪時(shí)發(fā)現(xiàn): - 要成為一個(gè)全能的家庭廚師,需要掌握廣泛的烹飪?cè)瓌t(高熵差分信息) - 要成為特定菜系的專(zhuān)家,則需要專(zhuān)注學(xué)習(xí)該菜系的特定技巧(低熵差分信息)

這些發(fā)現(xiàn)為如何設(shè)計(jì)和優(yōu)化語(yǔ)言模型的訓(xùn)練策略提供了重要指導(dǎo)。

八、差分信息視角的深遠(yuǎn)意義

這項(xiàng)研究不僅為理解DPO提供了新視角,還為偏好優(yōu)化領(lǐng)域的未來(lái)發(fā)展指明了方向。

首先,理解偏好優(yōu)化是在學(xué)習(xí)差分信息,而不僅僅是目標(biāo)策略本身,這改變了我們思考人類(lèi)反饋對(duì)齊的方式。這表明,在設(shè)計(jì)偏好數(shù)據(jù)集時(shí),應(yīng)該考慮所編碼的差分信息的特性,而不僅僅是選擇"好"和"壞"的例子。

其次,差分信息分布的熵與下游能力之間的關(guān)系提供了一種新的方式來(lái)思考和設(shè)計(jì)訓(xùn)練策略。對(duì)于不同類(lèi)型的任務(wù),可能需要不同熵級(jí)別的差分信息。

最后,這項(xiàng)研究提出的最優(yōu)拒絕響應(yīng)分布為構(gòu)建更有效的偏好數(shù)據(jù)集提供了理論指導(dǎo),這可能會(huì)改進(jìn)未來(lái)的語(yǔ)言模型對(duì)齊方法。

九、結(jié)論:差分信息視角的啟示

在這項(xiàng)研究中,KAIST AI團(tuán)隊(duì)通過(guò)引入差分信息分布的概念,為我們提供了理解偏好優(yōu)化的全新視角。他們證明了DPO中使用的對(duì)數(shù)比率獎(jiǎng)勵(lì)是唯一能夠從編碼差分信息的偏好中學(xué)習(xí)目標(biāo)策略的形式,這解釋了為什么DPO在實(shí)踐中如此有效。

此外,他們揭示了差分信息分布的熵與策略動(dòng)態(tài)之間的關(guān)系,為解釋對(duì)數(shù)似然位移現(xiàn)象提供了新的解釋?zhuān)⒆C明了不同熵級(jí)別的差分信息適合不同類(lèi)型的任務(wù)。

總的來(lái)說(shuō),這項(xiàng)研究通過(guò)差分信息的鏡頭,為我們提供了一個(gè)統(tǒng)一的視角,幫助我們理解DPO目標(biāo)函數(shù)、偏好數(shù)據(jù)的結(jié)構(gòu)以及由此產(chǎn)生的策略行為。這些見(jiàn)解不僅有助于我們更好地理解現(xiàn)有的偏好優(yōu)化方法,還為未來(lái)設(shè)計(jì)更有效的人類(lèi)反饋對(duì)齊方法提供了理論基礎(chǔ)。

正如研究團(tuán)隊(duì)所言,未來(lái)的工作可能會(huì)探索注釋協(xié)議如何影響DID熵,以及該框架在文本以外模態(tài)中的適用性。

對(duì)于有興趣深入了解的讀者,可以通過(guò)訪問(wèn)arXiv:2505.23761v1獲取完整論文。研究團(tuán)隊(duì)也承諾在論文被接受后發(fā)布模型檢查點(diǎn)和訓(xùn)練/評(píng)估代碼。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-