av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 MiCRo:一種利用混合建模和情境感知路由的個(gè)性化偏好學(xué)習(xí)框架

MiCRo:一種利用混合建模和情境感知路由的個(gè)性化偏好學(xué)習(xí)框架

2025-06-05 15:18
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 15:18 ? 科技行者

近日,來自伊利諾伊大學(xué)香檳分校、哥倫比亞大學(xué)和萊斯大學(xué)的研究團(tuán)隊(duì)發(fā)表了一項(xiàng)名為"MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning"(混合建模和情境感知路由的個(gè)性化偏好學(xué)習(xí))的研究成果。這篇研究論文由Jingyan Shen、Jiarui Yao、Rui Yang等人共同完成,發(fā)表于2025年5月30日的arXiv預(yù)印本平臺(arXiv:2505.24846v1)。

在人工智能發(fā)展的當(dāng)下,大型語言模型(如ChatGPT等)正變得越來越強(qiáng)大,但如何讓它們更好地理解人類多樣化的偏好,成為了一個(gè)關(guān)鍵挑戰(zhàn)。想象一下,當(dāng)你要求AI寫一篇關(guān)于海洋的文章時(shí),不同的人可能有完全不同的期望——有人喜歡科學(xué)嚴(yán)謹(jǐn)?shù)膬?nèi)容,有人關(guān)注現(xiàn)實(shí)世界的影響,有人偏好易于閱讀的表述,而有人則喜歡富有創(chuàng)意的想法。一個(gè)標(biāo)準(zhǔn)的AI模型往往難以滿足這些多樣化的需求。

目前的大語言模型訓(xùn)練過程中,通常會使用一種叫做"基于人類反饋的強(qiáng)化學(xué)習(xí)"(RLHF)的技術(shù)來調(diào)整模型行為。在RLHF中,研究人員會收集人類對AI回答的偏好評價(jià)(例如,在兩個(gè)答案中選擇更好的那一個(gè)),然后據(jù)此訓(xùn)練一個(gè)"獎勵模型"來引導(dǎo)AI生成更符合人類期望的回答。

然而,現(xiàn)有的獎勵模型通?;谝粋€(gè)簡單的假設(shè):所有人的偏好都可以用一個(gè)統(tǒng)一的標(biāo)準(zhǔn)來衡量。這就像假設(shè)全世界的人都喜歡同一種口味的冰淇淋一樣不切實(shí)際。實(shí)際上,人類偏好是多種多樣且經(jīng)常相互矛盾的。這種過度簡化限制了AI系統(tǒng)對個(gè)性化和多元化需求的支持能力。

一、理論基礎(chǔ):為什么單一獎勵函數(shù)無法滿足多樣化偏好?

研究團(tuán)隊(duì)首先在理論上證明,當(dāng)人類偏好遵循多種不同子群體的混合分布時(shí),單一的BT(Bradley-Terry)模型存在不可避免的誤差。這聽起來可能有些抽象,讓我們用一個(gè)簡單的例子來理解:

想象你開了一家餐廳,試圖通過顧客反饋來改進(jìn)菜單。你收集了成百上千的意見,比如"我更喜歡A菜而不是B菜"。如果你簡單地計(jì)算每道菜被喜歡的總次數(shù),你可能會得出"大多數(shù)人喜歡微辣的食物"這樣的結(jié)論。但這忽略了一個(gè)事實(shí):可能有一群人特別喜歡重口味,另一群人則偏好清淡口味。如果你只用一個(gè)統(tǒng)一標(biāo)準(zhǔn)來評判所有菜品,無論你怎么調(diào)整,總會有一部分客戶不滿意。

研究團(tuán)隊(duì)證明,當(dāng)人類偏好具有多樣性時(shí),單一的獎勵模型總會有一個(gè)不可消除的誤差下限。換句話說,無論你的模型有多復(fù)雜,如果只用一個(gè)標(biāo)準(zhǔn)來評判所有情況,都無法真正捕捉人類偏好的多樣性。

二、MiCRo框架:捕捉多樣化偏好的兩階段方法

為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一個(gè)名為MiCRo的兩階段框架。這個(gè)框架就像是一個(gè)能識別不同口味偏好的智能廚師,不僅能理解不同顧客的口味喜好,還能根據(jù)具體情境(比如是正式晚宴還是休閑聚會)來調(diào)整料理風(fēng)格。

MiCRo框架分為兩個(gè)主要階段:

第一階段是"混合建模"(Mixture Modeling)。在這個(gè)階段,系統(tǒng)從大量的二元偏好數(shù)據(jù)(即人類評價(jià)"A比B好"的數(shù)據(jù))中學(xué)習(xí)多個(gè)潛在的偏好模式。這就像是從大量餐廳評價(jià)中發(fā)現(xiàn)"有些人特別重視食物的創(chuàng)新性,有些人更看重傳統(tǒng)口味,還有些人主要關(guān)注性價(jià)比"這樣的偏好類型。

具體來說,MiCRo不再使用單一的獎勵函數(shù),而是訓(xùn)練多個(gè)專門的"獎勵頭",每一個(gè)都專注于捕捉某種特定類型的偏好。這些獎勵頭之間的權(quán)重不是固定的,而是根據(jù)輸入內(nèi)容(比如用戶提出的問題)動態(tài)調(diào)整的。這使得系統(tǒng)能夠根據(jù)不同的情境自動激活最相關(guān)的偏好評判標(biāo)準(zhǔn)。

第二階段是"情境感知路由"(Context-aware Routing)。在這個(gè)階段,系統(tǒng)會根據(jù)額外的情境信息(比如用戶明確表達(dá)的偏好或使用歷史)來進(jìn)一步調(diào)整不同獎勵頭的權(quán)重。比如,如果用戶明確表示"我想要一個(gè)科學(xué)嚴(yán)謹(jǐn)?shù)幕卮?,系統(tǒng)就會更多地激活專注于科學(xué)嚴(yán)謹(jǐn)性的獎勵頭。

這個(gè)過程使用了一種稱為"Hedge算法"的在線學(xué)習(xí)方法,能夠根據(jù)少量的用戶反饋快速調(diào)整模型的行為。關(guān)鍵是,這種調(diào)整不需要重新訓(xùn)練整個(gè)模型,只需微調(diào)不同獎勵頭的組合權(quán)重,大大提高了系統(tǒng)的適應(yīng)性和效率。

三、實(shí)驗(yàn)驗(yàn)證:MiCRo如何優(yōu)于現(xiàn)有方法?

研究團(tuán)隊(duì)在多個(gè)數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),以驗(yàn)證MiCRo的有效性。他們使用了包括HelpSteer2、RPR和preference-700K在內(nèi)的數(shù)據(jù)集,這些數(shù)據(jù)集包含了人類對大語言模型回答的各種偏好評價(jià)。

在第一階段的評估中,研究人員將MiCRo與幾個(gè)基線方法進(jìn)行了比較,包括單一獎勵模型、靜態(tài)混合模型(不考慮情境的混合模型)和共享基礎(chǔ)的集成模型。實(shí)驗(yàn)結(jié)果表明,MiCRo的混合頭能夠有效地捕捉不同評估維度的偏好,并且在所有維度上都優(yōu)于單一獎勵模型。

具體來說,在RPR測試集上,MiCRo的平均準(zhǔn)確率達(dá)到了0.921,比單一獎勵模型高出40.0%,比共享基礎(chǔ)集成模型高出20.7%,比不帶情境路由的混合模型高出5.5%。在HelpSteer2測試集上,MiCRo的平均準(zhǔn)確率為0.811,同樣優(yōu)于所有基線方法。

研究團(tuán)隊(duì)還提供了一個(gè)定性例子,展示了第一階段路由器的混合權(quán)重是如何根據(jù)不同的輸入內(nèi)容變化的。這進(jìn)一步證明了情境感知路由相比于先前工作中使用的無條件路由的有效性。

四、個(gè)性化適應(yīng):MiCRo如何理解用戶特定需求?

在第二階段的評估中,研究團(tuán)隊(duì)測試了MiCRo對個(gè)性化偏好的適應(yīng)能力。他們使用了兩種評估場景:一種是在相同數(shù)據(jù)分布內(nèi)的評估(即在訓(xùn)練和測試時(shí)使用相同類型的數(shù)據(jù)),另一種是跨數(shù)據(jù)分布的泛化能力測試(即在一個(gè)數(shù)據(jù)集上訓(xùn)練,然后在完全不同的數(shù)據(jù)集上測試)。

為了提供用戶情境,研究團(tuán)隊(duì)在RPR數(shù)據(jù)集中使用了用戶明確提供的評價(jià)標(biāo)準(zhǔn),而在HelpSteer2數(shù)據(jù)集中,他們根據(jù)原始評估維度增強(qiáng)了通用提示。例如,如果評估維度是"科學(xué)嚴(yán)謹(jǐn)性",他們可能會在提示中添加"請?zhí)峁┮粋€(gè)科學(xué)嚴(yán)謹(jǐn)?shù)拇鸢?這樣的信息。

實(shí)驗(yàn)結(jié)果表明,MiCRo在個(gè)性化偏好學(xué)習(xí)方面表現(xiàn)出色。在HelpSteer2測試集上,MiCRo的平均準(zhǔn)確率達(dá)到0.7830,在RPR測試集上達(dá)到0.8218,優(yōu)于所有使用二元標(biāo)簽訓(xùn)練的基線方法。

值得注意的是,MiCRo與需要更強(qiáng)監(jiān)督的方法(如ARMO,一個(gè)在50萬個(gè)精細(xì)標(biāo)注樣本上訓(xùn)練的8B模型)相比表現(xiàn)相當(dāng),甚至在HelpSteer2上超過了它。這說明MiCRo能夠從廣泛可用的二元偏好數(shù)據(jù)中有效提取多方面的人類偏好,而不需要昂貴的精細(xì)標(biāo)注。

研究團(tuán)隊(duì)還進(jìn)行了消融研究,分析了子群體數(shù)量K和路由學(xué)習(xí)預(yù)算B這兩個(gè)關(guān)鍵超參數(shù)對性能的影響。結(jié)果表明,當(dāng)K值較小時(shí)(例如K=1或K=5),模型由于無法充分捕捉偏好多樣性而性能下降,但隨著K的增加,性能趨于穩(wěn)定。對于路由學(xué)習(xí)預(yù)算B,實(shí)驗(yàn)顯示性能隨著預(yù)算增加而穩(wěn)步提升,并在每個(gè)屬性約50個(gè)情境標(biāo)注樣本時(shí)趨于收斂。這表明路由器能夠使用相對少量的情境示例高效地適應(yīng)。

五、MiCRo的優(yōu)勢與局限性

MiCRo框架相比現(xiàn)有方法有兩個(gè)主要優(yōu)勢:

首先,它能夠從廣泛可用的二元偏好比較數(shù)據(jù)集中提取多方面的人類偏好,而不需要明確的精細(xì)標(biāo)注或預(yù)定義屬性。這大大降低了數(shù)據(jù)收集成本,同時(shí)保持了捕捉人類價(jià)值觀豐富性的能力。

其次,它能夠使用情境信息高效地適應(yīng)個(gè)性化偏好,只需少量樣本。這與需要為每個(gè)用戶收集大量標(biāo)記數(shù)據(jù)的傳統(tǒng)個(gè)性化方法相比,提供了更實(shí)用的解決方案。

然而,MiCRo也存在一些局限性。正如研究團(tuán)隊(duì)在論文中指出的,盡管他們的公式化是通用的,但公開數(shù)據(jù)集中提供豐富且一致的用戶情境信息的可用性有限,這使得全面評估個(gè)性化能力變得困難。目前的實(shí)現(xiàn)依賴于明確定義的情境標(biāo)準(zhǔn)和部分合成設(shè)置來模擬用戶特定信號,但在許多現(xiàn)實(shí)場景中,用戶意圖往往是隱含的,例如反映在多輪對話、人口統(tǒng)計(jì)元數(shù)據(jù)或行為模式中。將這些隱含的用戶情境整合到路由過程中仍然是未來工作的重要方向。

六、結(jié)論與展望

MiCRo框架通過兩階段的方法有效地解決了個(gè)性化偏好學(xué)習(xí)的挑戰(zhàn)。它首先通過混合建模從大規(guī)模二元偏好數(shù)據(jù)中學(xué)習(xí)潛在的偏好多樣性,然后通過情境感知路由實(shí)現(xiàn)高效的個(gè)性化適應(yīng)。

通過廣泛的實(shí)驗(yàn),研究團(tuán)隊(duì)證明MiCRo能夠有效地分解復(fù)雜的人類偏好,并增強(qiáng)下游多元化對齊任務(wù)。這項(xiàng)研究為個(gè)性化LLM對齊提供了新的見解,有望促進(jìn)更適應(yīng)性強(qiáng)、更以個(gè)體為中心的AI系統(tǒng)的發(fā)展。

從更廣泛的角度看,這項(xiàng)研究反映了AI領(lǐng)域的一個(gè)重要趨勢:從追求通用、單一標(biāo)準(zhǔn)的AI系統(tǒng),轉(zhuǎn)向能夠理解和適應(yīng)人類多樣化需求的個(gè)性化AI系統(tǒng)。正如沒有一種食物能滿足所有人的口味一樣,沒有一個(gè)單一標(biāo)準(zhǔn)能夠評判所有AI回答的質(zhì)量。MiCRo框架通過混合建模和情境感知路由,為打造真正能理解個(gè)人偏好的AI系統(tǒng)邁出了重要一步。

對于普通用戶來說,這項(xiàng)研究意味著未來的AI系統(tǒng)可能會更好地理解你的個(gè)人偏好和需求,就像一個(gè)了解你口味的私人廚師,或者一個(gè)知道你學(xué)習(xí)風(fēng)格的私人教師。它不會用同一種方式對待所有人,而是能夠根據(jù)你的具體需求和情境提供個(gè)性化的服務(wù)。

隨著技術(shù)的進(jìn)一步發(fā)展,我們可以期待AI系統(tǒng)能夠從更多隱含的情境信息中學(xué)習(xí),比如你的對話歷史、使用模式或情感反應(yīng),從而提供更加個(gè)性化和適應(yīng)性強(qiáng)的服務(wù),真正成為理解和滿足人類多樣化需求的得力助手。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-