av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 上海AI實(shí)驗(yàn)室聯(lián)手復(fù)旦大學(xué):讓AI學(xué)會(huì)像人類一樣比較和評(píng)價(jià),重新定義獎(jiǎng)勵(lì)模型的訓(xùn)練方式

上海AI實(shí)驗(yàn)室聯(lián)手復(fù)旦大學(xué):讓AI學(xué)會(huì)像人類一樣比較和評(píng)價(jià),重新定義獎(jiǎng)勵(lì)模型的訓(xùn)練方式

2025-07-11 10:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-11 10:16 ? 科技行者

這項(xiàng)由上海AI實(shí)驗(yàn)室和復(fù)?dan大學(xué)聯(lián)合開展的突破性研究發(fā)表于2025年7月的arXiv預(yù)印本(論文編號(hào):arXiv:2507.05197v1),有興趣深入了解的讀者可以通過(guò)https://github.com/InternLM/POLAR訪問(wèn)相關(guān)代碼和資源。

想象一下教一個(gè)孩子學(xué)會(huì)分辨好壞的過(guò)程。傳統(tǒng)的方法是告訴孩子"這個(gè)好,那個(gè)不好",讓他記住這些標(biāo)準(zhǔn)答案。但是這種研究提出了一個(gè)全新的思路:與其直接告訴孩子什么是好的,不如讓他學(xué)會(huì)觀察和比較不同事物之間的差異,從而自己判斷出哪個(gè)更好。這就是這項(xiàng)研究的核心思想——讓人工智能的獎(jiǎng)勵(lì)模型不再依賴絕對(duì)的"對(duì)錯(cuò)"標(biāo)準(zhǔn),而是學(xué)會(huì)識(shí)別和量化不同策略之間的差異。

在人工智能領(lǐng)域,獎(jiǎng)勵(lì)模型就像是AI系統(tǒng)的"老師",它負(fù)責(zé)評(píng)價(jià)AI的行為是否符合人類的期望。傳統(tǒng)的獎(jiǎng)勵(lì)模型訓(xùn)練方式就像是給學(xué)生一套標(biāo)準(zhǔn)答案,讓他照著背誦。但這種方法有個(gè)致命缺陷:它過(guò)度依賴人工標(biāo)注的偏好數(shù)據(jù),不僅成本高昂,而且很難適應(yīng)新的情況。更糟糕的是,這樣訓(xùn)練出來(lái)的模型容易出現(xiàn)"應(yīng)試思維",只會(huì)機(jī)械地重復(fù)訓(xùn)練時(shí)見過(guò)的模式,而不能真正理解什么是好的行為。

研究團(tuán)隊(duì)提出的POLAR(Policy Discriminative Learning)方法就像是給AI安裝了一雙"慧眼",讓它能夠敏銳地察覺(jué)不同策略之間的細(xì)微差別。這種方法的巧妙之處在于,它不再需要人類明確告訴AI"這個(gè)答案得90分,那個(gè)答案得60分",而是讓AI自己學(xué)會(huì)識(shí)別"這兩個(gè)答案來(lái)自不同水平的學(xué)生"。通過(guò)大量觀察和比較不同AI模型的行為模式,POLAR訓(xùn)練出來(lái)的獎(jiǎng)勵(lì)模型具備了強(qiáng)大的"鑒別能力",能夠準(zhǔn)確判斷一個(gè)AI的回答更接近哪種水平的表現(xiàn)。

這項(xiàng)研究的實(shí)驗(yàn)結(jié)果令人印象深刻。在STEM任務(wù)上,POLAR-7B模型的準(zhǔn)確率從傳統(tǒng)方法的54.8%飆升到了81.0%,在創(chuàng)意寫作任務(wù)上從57.9%提升到85.5%。更讓人驚嘆的是,參數(shù)量只有7B的POLAR模型竟然能夠超越參數(shù)量達(dá)到72B的現(xiàn)有最強(qiáng)模型。這就好比一個(gè)中學(xué)生在某些方面的判斷能力超過(guò)了大學(xué)教授,充分證明了新方法的有效性。

一、從模仿到理解:獎(jiǎng)勵(lì)模型的新思路

傳統(tǒng)的強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程有點(diǎn)像是在培養(yǎng)一個(gè)"好學(xué)生"。這個(gè)學(xué)生需要根據(jù)老師的評(píng)分來(lái)調(diào)整自己的行為,而老師的評(píng)分標(biāo)準(zhǔn)來(lái)自于人類的偏好數(shù)據(jù)。但是這種方法面臨著一個(gè)根本性的問(wèn)題:人類的偏好往往是主觀的、多樣的,而且很難用簡(jiǎn)單的分?jǐn)?shù)來(lái)量化。

研究團(tuán)隊(duì)意識(shí)到,真正的問(wèn)題不在于如何更準(zhǔn)確地模仿人類的偏好,而在于如何讓AI理解什么是"更好"的行為。他們發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)的本質(zhì)實(shí)際上是一個(gè)策略優(yōu)化過(guò)程,而獎(jiǎng)勵(lì)模型的作用就是幫助訓(xùn)練策略向目標(biāo)策略靠攏。從這個(gè)角度看,獎(jiǎng)勵(lì)模型更像是一個(gè)"策略比較器",它的核心任務(wù)是衡量當(dāng)前策略與理想策略之間的差距。

這個(gè)洞察帶來(lái)了全新的訓(xùn)練思路。與其讓獎(jiǎng)勵(lì)模型學(xué)習(xí)絕對(duì)的"好壞"標(biāo)準(zhǔn),不如讓它學(xué)會(huì)識(shí)別策略之間的相對(duì)差異。這就好比訓(xùn)練一個(gè)裁判,不是讓他記住每種動(dòng)作應(yīng)該得多少分,而是讓他學(xué)會(huì)識(shí)別不同運(yùn)動(dòng)員之間的水平差異。當(dāng)裁判具備了這種鑒別能力后,他自然就能判斷出哪個(gè)表現(xiàn)更接近冠軍水平。

POLAR方法的核心創(chuàng)新就在于這種"策略判別"的思路。它通過(guò)觀察大量不同AI模型的行為模式,學(xué)會(huì)了識(shí)別這些模式背后的策略特征。當(dāng)面對(duì)一個(gè)新的回答時(shí),POLAR不是直接給出分?jǐn)?shù),而是判斷這個(gè)回答更像是哪種水平的AI產(chǎn)生的,然后根據(jù)這種判斷來(lái)分配獎(jiǎng)勵(lì)。

這種方法的優(yōu)勢(shì)是顯而易見的。首先,它大大減少了對(duì)人工標(biāo)注數(shù)據(jù)的依賴,因?yàn)锳I模型的行為數(shù)據(jù)可以通過(guò)自動(dòng)化方式大量生成。其次,它具有更強(qiáng)的泛化能力,因?yàn)樗鼘W(xué)到的是策略識(shí)別的通用能力,而不是特定任務(wù)的偏好規(guī)則。最重要的是,這種方法更符合人類學(xué)習(xí)的本質(zhì)——我們往往是通過(guò)比較和對(duì)照來(lái)理解事物的優(yōu)劣,而不是依賴絕對(duì)的標(biāo)準(zhǔn)。

二、大規(guī)模預(yù)訓(xùn)練:構(gòu)建策略識(shí)別的基礎(chǔ)能力

POLAR方法的第一個(gè)關(guān)鍵步驟是大規(guī)模的無(wú)監(jiān)督預(yù)訓(xùn)練,這個(gè)過(guò)程就像是給AI進(jìn)行"閱歷積累"。研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含3.6萬(wàn)億tokens的龐大數(shù)據(jù)集,這些數(shù)據(jù)來(lái)自184個(gè)不同的AI模型,涵蓋了從小型模型到大型模型的各種水平。

這個(gè)預(yù)訓(xùn)練過(guò)程的設(shè)計(jì)非常巧妙。研究團(tuán)隊(duì)首先從預(yù)訓(xùn)練語(yǔ)料庫(kù)中隨機(jī)選擇文本片段作為提示,然后讓不同的AI模型根據(jù)這些提示生成回答。對(duì)于每個(gè)提示,他們會(huì)從同一個(gè)模型生成兩個(gè)回答作為"正樣本對(duì)",再?gòu)牟煌P蜕梢粋€(gè)回答作為"負(fù)樣本"。這樣構(gòu)成的訓(xùn)練數(shù)據(jù)就像是在告訴POLAR:"這兩個(gè)回答來(lái)自同一個(gè)老師,而那個(gè)回答來(lái)自不同的老師。"

通過(guò)這種對(duì)比學(xué)習(xí)的方式,POLAR逐漸學(xué)會(huì)了識(shí)別不同AI模型的"個(gè)性特征"。每個(gè)AI模型都有自己獨(dú)特的表達(dá)風(fēng)格、思維模式和能力水平,就像人類作家有不同的寫作風(fēng)格一樣。POLAR通過(guò)觀察大量的樣本,學(xué)會(huì)了捕捉這些細(xì)微的差異,從而具備了強(qiáng)大的策略識(shí)別能力。

更令人驚喜的是,研究團(tuán)隊(duì)發(fā)現(xiàn)POLAR展現(xiàn)出了清晰的scaling law(規(guī)模定律)特性。隨著模型參數(shù)量的增加和訓(xùn)練數(shù)據(jù)的增多,POLAR的性能呈現(xiàn)出可預(yù)測(cè)的提升趨勢(shì)。具體來(lái)說(shuō),驗(yàn)證損失與模型參數(shù)N的關(guān)系遵循L = 0.9 × N^(-0.0425)的冪律關(guān)系,與訓(xùn)練計(jì)算量C的關(guān)系遵循L = 2.4 × C^(-0.0342)。這些scaling law的相關(guān)系數(shù)都接近0.99,說(shuō)明POLAR的性能提升是非常穩(wěn)定和可預(yù)測(cè)的。

這種scaling law的存在意味著什么呢?它表明POLAR不是一個(gè)偶然成功的方法,而是一個(gè)具有堅(jiān)實(shí)理論基礎(chǔ)的技術(shù)路線。隨著計(jì)算資源的增加和模型規(guī)模的擴(kuò)大,POLAR的能力會(huì)持續(xù)穩(wěn)定地提升,這為未來(lái)開發(fā)更強(qiáng)大的獎(jiǎng)勵(lì)模型提供了明確的方向。

三、精細(xì)調(diào)優(yōu):讓通用能力適應(yīng)人類偏好

雖然預(yù)訓(xùn)練賦予了POLAR強(qiáng)大的策略識(shí)別能力,但要讓它真正為人類服務(wù),還需要進(jìn)行精細(xì)的調(diào)優(yōu)。這個(gè)過(guò)程就像是讓一個(gè)具備了基本鑒賞能力的人學(xué)習(xí)特定的評(píng)價(jià)標(biāo)準(zhǔn)。

在這個(gè)階段,研究團(tuán)隊(duì)采用了一種巧妙的設(shè)計(jì)。他們不再需要大量的人工偏好標(biāo)注,而是采用了一種"參考答案引導(dǎo)"的方式。對(duì)于每個(gè)問(wèn)題,他們會(huì)提供一個(gè)高質(zhì)量的參考答案(通常來(lái)自GPT-4o、OpenAI o1等頂級(jí)模型),然后讓人類標(biāo)注員對(duì)候選答案進(jìn)行排序,判斷哪些更接近這個(gè)參考標(biāo)準(zhǔn)。

這種方法的優(yōu)勢(shì)在于它大大簡(jiǎn)化了標(biāo)注任務(wù)。標(biāo)注員不需要從零開始制定評(píng)價(jià)標(biāo)準(zhǔn),而只需要判斷"相似度",這是一個(gè)相對(duì)簡(jiǎn)單和客觀的任務(wù)。同時(shí),這種方法也很好地利用了POLAR的策略識(shí)別能力——它能夠準(zhǔn)確判斷一個(gè)答案是否與參考答案來(lái)自"相似水平"的策略。

更重要的是,這種調(diào)優(yōu)方式具有很強(qiáng)的靈活性。對(duì)于不同的應(yīng)用場(chǎng)景,只需要更換不同的參考答案,就能讓POLAR適應(yīng)不同的評(píng)價(jià)標(biāo)準(zhǔn)。這就像是一個(gè)經(jīng)驗(yàn)豐富的老師,能夠根據(jù)不同的教學(xué)目標(biāo)調(diào)整自己的評(píng)價(jià)方式。

實(shí)驗(yàn)結(jié)果顯示,經(jīng)過(guò)精細(xì)調(diào)優(yōu)的POLAR在各種任務(wù)上都表現(xiàn)出色。在偏好預(yù)測(cè)任務(wù)上,POLAR-7B在STEM任務(wù)上的準(zhǔn)確率達(dá)到81.0%,在創(chuàng)意寫作任務(wù)上達(dá)到85.5%,顯著超過(guò)了現(xiàn)有的最強(qiáng)基線模型。這些結(jié)果充分證明了POLAR方法的有效性。

四、強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn):真實(shí)場(chǎng)景下的出色表現(xiàn)

獎(jiǎng)勵(lì)模型的真正價(jià)值在于它能否在強(qiáng)化學(xué)習(xí)訓(xùn)練中提供準(zhǔn)確的指導(dǎo)信號(hào)。研究團(tuán)隊(duì)在這方面進(jìn)行了全面的測(cè)試,結(jié)果令人印象深刻。

他們選擇了四個(gè)不同規(guī)模的開源語(yǔ)言模型作為測(cè)試對(duì)象:InternLM3-8B、LLaMA-3.1-8B、Qwen2.5-7B和Qwen2.5-32B。這些模型就像是不同基礎(chǔ)的學(xué)生,通過(guò)POLAR的指導(dǎo)進(jìn)行"學(xué)習(xí)提升"。測(cè)試涵蓋了20個(gè)主流基準(zhǔn)測(cè)試,包括通用任務(wù)、指令跟隨、編程、推理、數(shù)學(xué)和知識(shí)問(wèn)答等各個(gè)方面。

實(shí)驗(yàn)結(jié)果顯示,POLAR的指導(dǎo)效果遠(yuǎn)超傳統(tǒng)方法。以LLaMA-3.1-8B為例,在POLAR-7B的指導(dǎo)下,模型的平均性能從47.36%提升到56.33%,提升幅度達(dá)到近9個(gè)百分點(diǎn)。對(duì)于更大的Qwen2.5-32B模型,性能也從64.49%提升到70.47%。這些提升不是在個(gè)別任務(wù)上的,而是在所有類型的任務(wù)上都有顯著改善。

更令人驚喜的是POLAR的泛化能力。傳統(tǒng)的獎(jiǎng)勵(lì)模型往往在特定類型的任務(wù)上表現(xiàn)良好,但在其他任務(wù)上效果平平。但POLAR展現(xiàn)出了出色的跨任務(wù)泛化能力,無(wú)論是需要精確計(jì)算的數(shù)學(xué)題,還是需要?jiǎng)?chuàng)意思維的寫作任務(wù),POLAR都能提供有效的指導(dǎo)。

這種泛化能力來(lái)自于POLAR獨(dú)特的訓(xùn)練方式。因?yàn)樗鼘W(xué)習(xí)的是策略識(shí)別的通用能力,而不是特定任務(wù)的評(píng)價(jià)規(guī)則,所以它能夠在面對(duì)新任務(wù)時(shí)快速適應(yīng)。這就像是一個(gè)經(jīng)驗(yàn)豐富的老師,即使面對(duì)從未教過(guò)的科目,也能憑借對(duì)學(xué)生能力的敏銳判斷提供有效指導(dǎo)。

五、深入機(jī)制:理解POLAR的工作原理

要真正理解POLAR為什么如此有效,我們需要深入其工作機(jī)制。POLAR的核心思想可以用一個(gè)簡(jiǎn)單的數(shù)學(xué)關(guān)系來(lái)表達(dá):獎(jiǎng)勵(lì)函數(shù)實(shí)際上反映的是目標(biāo)策略與初始策略之間的密度比。

在傳統(tǒng)的強(qiáng)化學(xué)習(xí)框架中,最優(yōu)策略可以表示為π*(τ|x) = πinit(τ|x)exp(r(x,τ)/β)/Z(x),其中r(x,τ)是獎(jiǎng)勵(lì)函數(shù),πinit是初始策略,π*是目標(biāo)策略,β是溫度參數(shù),Z(x)是歸一化常數(shù)。從這個(gè)公式可以看出,獎(jiǎng)勵(lì)函數(shù)r(x,τ)實(shí)際上等于β倍的對(duì)數(shù)密度比加上一個(gè)常數(shù)項(xiàng)。

這個(gè)洞察揭示了獎(jiǎng)勵(lì)建模的本質(zhì):與其直接學(xué)習(xí)絕對(duì)的獎(jiǎng)勵(lì)值,不如學(xué)習(xí)策略之間的相對(duì)關(guān)系。POLAR正是基于這個(gè)理論基礎(chǔ)設(shè)計(jì)的。它通過(guò)學(xué)習(xí)識(shí)別不同策略生成的文本,實(shí)際上是在學(xué)習(xí)策略空間中的密度分布,從而能夠準(zhǔn)確計(jì)算任意兩個(gè)策略之間的"距離"。

在實(shí)際應(yīng)用中,POLAR使用了一種巧妙的輸入格式。對(duì)于傳統(tǒng)獎(jiǎng)勵(lì)模型只需要"prompt + response"的輸入,POLAR需要"prompt + reference + candidate"的三元組輸入。這種設(shè)計(jì)讓POLAR能夠直接比較候選答案與參考答案之間的"策略相似度",從而給出更準(zhǔn)確的獎(jiǎng)勵(lì)信號(hào)。

這種比較機(jī)制帶來(lái)了另一個(gè)重要優(yōu)勢(shì):魯棒性。傳統(tǒng)獎(jiǎng)勵(lì)模型容易受到"獎(jiǎng)勵(lì)黑客攻擊",即模型學(xué)會(huì)產(chǎn)生能獲得高獎(jiǎng)勵(lì)但實(shí)際質(zhì)量不高的輸出。但POLAR的比較機(jī)制大大降低了這種風(fēng)險(xiǎn),因?yàn)樗u(píng)價(jià)的不是絕對(duì)質(zhì)量,而是相對(duì)一致性。

六、技術(shù)細(xì)節(jié):構(gòu)建高質(zhì)量的訓(xùn)練數(shù)據(jù)

POLAR方法的成功很大程度上依賴于高質(zhì)量的訓(xùn)練數(shù)據(jù)構(gòu)建。研究團(tuán)隊(duì)在這方面投入了大量心血,建立了一套完整的數(shù)據(jù)生成和質(zhì)量控制流程。

在預(yù)訓(xùn)練階段,他們使用了184個(gè)不同的AI模型來(lái)生成訓(xùn)練數(shù)據(jù)。這些模型涵蓋了從1B到72B參數(shù)的不同規(guī)模,包括基礎(chǔ)模型和指令微調(diào)模型。為了確保策略多樣性,他們還特意包含了同一模型在不同訓(xùn)練階段的78個(gè)檢查點(diǎn),這樣能夠捕捉到模型能力演進(jìn)過(guò)程中的細(xì)微變化。

數(shù)據(jù)生成過(guò)程采用了精心設(shè)計(jì)的采樣策略。研究團(tuán)隊(duì)將采樣溫度設(shè)置為1.0,top-p設(shè)置為0.9,top-k設(shè)置為50。這些參數(shù)的選擇經(jīng)過(guò)了大量實(shí)驗(yàn)驗(yàn)證,既能保證生成文本的多樣性,又能維持不同策略之間的可區(qū)分性。

在處理數(shù)據(jù)質(zhì)量問(wèn)題時(shí),研究團(tuán)隊(duì)展現(xiàn)了高度的專業(yè)性。他們發(fā)現(xiàn)某些模型容易產(chǎn)生重復(fù)循環(huán)的文本,對(duì)此他們采用了截?cái)嗵幚矶呛?jiǎn)單刪除的策略,這樣既保持了數(shù)據(jù)的完整性,又保留了模型的特征信息。對(duì)于過(guò)長(zhǎng)的輸出,他們?cè)O(shè)置了4096個(gè)token的上限,確保每個(gè)樣本都是自包含的完整片段。

在監(jiān)督微調(diào)階段,數(shù)據(jù)構(gòu)建同樣精細(xì)。研究團(tuán)隊(duì)構(gòu)建了15萬(wàn)個(gè)手工標(biāo)注的樣本,每個(gè)樣本包含一個(gè)提示和三個(gè)候選回答的排序。為了避免分布偏差,他們從多個(gè)頂級(jí)模型(GPT-4o、OpenAI o1、DeepSeek-R1、DeepSeek-V3)中隨機(jī)選擇來(lái)生成第三個(gè)候選答案。

所有的人工標(biāo)注都由公司內(nèi)部具有相關(guān)專業(yè)背景的員工完成,并按照標(biāo)準(zhǔn)薪資進(jìn)行補(bǔ)償。為了保護(hù)用戶隱私,他們對(duì)所有訓(xùn)練數(shù)據(jù)進(jìn)行了個(gè)人身份信息過(guò)濾。這些細(xì)節(jié)體現(xiàn)了研究團(tuán)隊(duì)對(duì)數(shù)據(jù)質(zhì)量和倫理標(biāo)準(zhǔn)的高度重視。

七、對(duì)比實(shí)驗(yàn):全面驗(yàn)證POLAR的優(yōu)勢(shì)

為了充分驗(yàn)證POLAR方法的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一系列對(duì)比實(shí)驗(yàn),從多個(gè)角度證明了新方法的優(yōu)勢(shì)。

在偏好預(yù)測(cè)任務(wù)上,他們將POLAR與五個(gè)當(dāng)前最強(qiáng)的基線模型進(jìn)行了比較:InternLM2-Reward-7B、InternLM2-Reward-20B、Skywork-Reward-8B、Skywork-Reward-27B和WorldPM-72B-UltraFeedback。測(cè)試使用了RMB基準(zhǔn)測(cè)試集,包含3162個(gè)問(wèn)題,涵蓋12個(gè)不同的任務(wù)類別。

結(jié)果顯示,POLAR-7B在大多數(shù)任務(wù)類別上都顯著超越了基線模型。特別是在STEM任務(wù)上,POLAR-1.8B和POLAR-7B分別比最強(qiáng)基線高出24.9和26.2個(gè)百分點(diǎn)。在創(chuàng)意寫作任務(wù)上,提升幅度同樣令人印象深刻。這些結(jié)果不僅證明了POLAR的有效性,也顯示了它在參數(shù)效率方面的優(yōu)勢(shì)——僅有1.8B參數(shù)的POLAR-1.8B就能與27B參數(shù)的Skywork-Reward-27B競(jìng)爭(zhēng)。

在強(qiáng)化學(xué)習(xí)應(yīng)用中,POLAR的優(yōu)勢(shì)更加明顯。研究團(tuán)隊(duì)使用了20個(gè)主流基準(zhǔn)測(cè)試,涵蓋了通用任務(wù)、指令跟隨、編程、推理、數(shù)學(xué)和知識(shí)問(wèn)答等六大類別。在所有四個(gè)測(cè)試模型上,POLAR都實(shí)現(xiàn)了顯著的性能提升,而且這種提升是全面的,不局限于特定類型的任務(wù)。

特別值得注意的是,POLAR在不同規(guī)模模型上都表現(xiàn)出了一致的改善效果。無(wú)論是8B參數(shù)的中型模型還是32B參數(shù)的大型模型,POLAR都能提供有效的指導(dǎo)。這說(shuō)明POLAR的方法具有很好的通用性,不依賴于特定的模型架構(gòu)或規(guī)模。

八、消融實(shí)驗(yàn):解析成功的關(guān)鍵因素

為了深入理解POLAR成功的關(guān)鍵因素,研究團(tuán)隊(duì)進(jìn)行了全面的消融實(shí)驗(yàn)。這些實(shí)驗(yàn)就像是醫(yī)生的診斷過(guò)程,通過(guò)系統(tǒng)地"移除"不同的組件來(lái)觀察性能變化,從而確定每個(gè)部分的重要性。

首先,他們測(cè)試了預(yù)訓(xùn)練階段的重要性。他們訓(xùn)練了一個(gè)沒(méi)有POLAR預(yù)訓(xùn)練、直接在人類偏好數(shù)據(jù)上微調(diào)的模型(w/o PT)。結(jié)果顯示,雖然這個(gè)模型在偏好評(píng)估任務(wù)上表現(xiàn)尚可,但在強(qiáng)化學(xué)習(xí)應(yīng)用中性能明顯下降。這證明了POLAR預(yù)訓(xùn)練階段對(duì)于建立強(qiáng)大的策略識(shí)別基礎(chǔ)能力的關(guān)鍵作用。

接下來(lái),他們測(cè)試了參考軌跡的作用。他們訓(xùn)練了一個(gè)傳統(tǒng)的獎(jiǎng)勵(lì)模型(w/o PT & Ref),這個(gè)模型既沒(méi)有POLAR預(yù)訓(xùn)練,也不使用參考軌跡。實(shí)驗(yàn)結(jié)果顯示,即使在沒(méi)有預(yù)訓(xùn)練的情況下,使用參考軌跡仍然能帶來(lái)顯著的性能提升。這說(shuō)明參考軌跡為獎(jiǎng)勵(lì)模型提供了重要的上下文信息,有助于更準(zhǔn)確的評(píng)估。

他們還比較了強(qiáng)化學(xué)習(xí)訓(xùn)練(RFT)與簡(jiǎn)單的監(jiān)督微調(diào)(SFT)。在相同的提示-參考數(shù)據(jù)上,RFT使用POLAR獎(jiǎng)勵(lì)模型的效果遠(yuǎn)超直接的SFT。這個(gè)結(jié)果很重要,因?yàn)樗f(shuō)明POLAR的成功不僅僅來(lái)自于訓(xùn)練數(shù)據(jù)的質(zhì)量,更關(guān)鍵的是它提供了更準(zhǔn)確的獎(jiǎng)勵(lì)信號(hào),使得強(qiáng)化學(xué)習(xí)算法能夠更有效地利用這些信號(hào)。

最后,他們驗(yàn)證了POLAR在不同參數(shù)規(guī)模下的表現(xiàn)。有趣的是,雖然POLAR-1.8B和POLAR-7B在偏好評(píng)估任務(wù)上性能相近,但POLAR-7B在實(shí)際強(qiáng)化學(xué)習(xí)應(yīng)用中表現(xiàn)明顯更好。這個(gè)發(fā)現(xiàn)提醒我們,傳統(tǒng)的偏好評(píng)估基準(zhǔn)可能不能完全反映獎(jiǎng)勵(lì)模型在實(shí)際應(yīng)用中的效果,需要更全面的評(píng)估方法。

九、規(guī)模效應(yīng):可預(yù)測(cè)的性能提升規(guī)律

POLAR方法最令人興奮的發(fā)現(xiàn)之一是它展現(xiàn)出的清晰scaling law特性。這種規(guī)律性的發(fā)現(xiàn)對(duì)于AI研究具有重要意義,因?yàn)樗峁┝诵阅茴A(yù)測(cè)和資源規(guī)劃的科學(xué)依據(jù)。

研究團(tuán)隊(duì)訓(xùn)練了從50M到1B參數(shù)的五個(gè)不同規(guī)模的模型,使用了最多54B的訓(xùn)練token。通過(guò)系統(tǒng)分析驗(yàn)證損失與模型參數(shù)數(shù)量和訓(xùn)練計(jì)算量的關(guān)系,他們發(fā)現(xiàn)了兩個(gè)重要的scaling law。

第一個(gè)scaling law描述了驗(yàn)證損失與模型參數(shù)數(shù)量的關(guān)系:L = 0.9 × N^(-0.0425),其中N是模型參數(shù)數(shù)量(以百萬(wàn)為單位)。這個(gè)關(guān)系的擬合度非常高,R?達(dá)到0.9886,說(shuō)明模型性能的提升與參數(shù)規(guī)模之間存在穩(wěn)定的冪律關(guān)系。

第二個(gè)scaling law描述了驗(yàn)證損失與最優(yōu)訓(xùn)練計(jì)算量的關(guān)系:L = 2.4 × C^(-0.0342),其中C是訓(xùn)練計(jì)算量(以FLOPs-days為單位)。這個(gè)關(guān)系的擬合度甚至更高,R?達(dá)到0.9912,表明增加訓(xùn)練計(jì)算量能夠可預(yù)測(cè)地改善模型性能。

這些scaling law的發(fā)現(xiàn)具有深遠(yuǎn)的實(shí)際意義。首先,它們證明了POLAR不是一個(gè)偶然成功的技術(shù),而是一個(gè)具有堅(jiān)實(shí)理論基礎(chǔ)的方法。其次,這些規(guī)律為未來(lái)的模型開發(fā)提供了明確的指導(dǎo)——研究者可以根據(jù)可用的計(jì)算資源預(yù)測(cè)模型的性能上限,從而做出最優(yōu)的資源配置決策。

更重要的是,這些scaling law與大型語(yǔ)言模型的scaling law具有相似的特征,這暗示著獎(jiǎng)勵(lì)建模可能遵循與語(yǔ)言建模相似的基本規(guī)律。這種一致性為未來(lái)開發(fā)更大規(guī)模、更強(qiáng)大的獎(jiǎng)勵(lì)模型提供了理論支撐。

十、案例分析:POLAR的實(shí)際工作表現(xiàn)

為了更直觀地展示POLAR的工作效果,研究團(tuán)隊(duì)提供了兩個(gè)具體的案例分析,這些案例就像是POLAR的"作業(yè)展示",讓我們能夠看到它是如何進(jìn)行判斷的。

第一個(gè)案例是經(jīng)典的"strawberry"測(cè)試,這是一個(gè)看似簡(jiǎn)單但實(shí)際上很能考驗(yàn)AI理解能力的任務(wù)。問(wèn)題是"單詞'strawberry'中有多少個(gè)字母'r'?"正確答案是3個(gè)。研究團(tuán)隊(duì)測(cè)試了8個(gè)不同的候選回答,包括正確答案、錯(cuò)誤答案,以及包含推理過(guò)程但結(jié)論不同的回答。

POLAR的表現(xiàn)令人印象深刻。它給與參考答案完全相同的回答打出了最高分(0.690),給出錯(cuò)誤答案但沒(méi)有推理過(guò)程的回答打出了很低的分?jǐn)?shù)(-9.523到-10.937)。更有趣的是,對(duì)于那些包含推理過(guò)程的回答,POLAR能夠區(qū)分推理過(guò)程的正確性和最終答案的正確性,給出了細(xì)致入微的評(píng)分。

第二個(gè)案例是一個(gè)創(chuàng)意性任務(wù):用一句幽默的話總結(jié)《沙丘》第一部。這個(gè)任務(wù)沒(méi)有標(biāo)準(zhǔn)答案,更多考驗(yàn)的是創(chuàng)意和表達(dá)能力。參考答案是:"Royal teen discovers that life's a beach—minus the ocean, plus spice, giant sandworms and deadly politics."

面對(duì)這個(gè)開放性任務(wù),POLAR展現(xiàn)出了令人驚喜的判斷能力。它能夠準(zhǔn)確識(shí)別與參考答案相同的回答,對(duì)事實(shí)錯(cuò)誤的相似回答給出負(fù)分,對(duì)風(fēng)格不同但質(zhì)量良好的總結(jié)給出適中的分?jǐn)?shù),對(duì)不符合"幽默"要求的嚴(yán)肅總結(jié)給出較低分?jǐn)?shù)。這種細(xì)致的判斷能力說(shuō)明POLAR不僅能處理客觀任務(wù),也能很好地處理主觀性較強(qiáng)的創(chuàng)意任務(wù)。

這些案例分析揭示了POLAR的幾個(gè)重要特點(diǎn):它能夠同時(shí)考慮內(nèi)容的準(zhǔn)確性和表達(dá)的質(zhì)量,能夠識(shí)別推理過(guò)程的正確性,能夠理解任務(wù)的具體要求(如"幽默"、"簡(jiǎn)潔"等),并且能夠在沒(méi)有明確標(biāo)準(zhǔn)答案的情況下做出合理的判斷。

十一、技術(shù)實(shí)現(xiàn):從理論到實(shí)踐的完整流程

POLAR方法的成功不僅在于其理論創(chuàng)新,更在于其完整而精細(xì)的技術(shù)實(shí)現(xiàn)。整個(gè)實(shí)現(xiàn)流程就像是一個(gè)精密的工廠生產(chǎn)線,每個(gè)環(huán)節(jié)都經(jīng)過(guò)了精心設(shè)計(jì)和優(yōu)化。

在模型架構(gòu)方面,POLAR采用了基于Transformer的自回歸架構(gòu),與GPT系列模型類似,但增加了專門的線性預(yù)測(cè)頭。與傳統(tǒng)獎(jiǎng)勵(lì)模型只需要"提示+回答"輸入不同,POLAR需要"提示+參考答案+候選答案"的三元組輸入。這些輸入通過(guò)特殊標(biāo)記組合成單一序列:prompt + reference <|split_token|> prompt + candidate <|reward_token|>,最后的線性頭處理<|reward_token|>位置的隱藏狀態(tài)來(lái)產(chǎn)生獎(jiǎng)勵(lì)值。

在訓(xùn)練超參數(shù)選擇上,研究團(tuán)隊(duì)進(jìn)行了大量的實(shí)驗(yàn)來(lái)確定最優(yōu)配置。他們發(fā)現(xiàn)了一個(gè)有趣的經(jīng)驗(yàn)公式來(lái)預(yù)測(cè)最優(yōu)學(xué)習(xí)率:LR = 0.0002306 × N^0.01125 × Dp^(-0.66587) × Drm^0.33916,其中N是模型參數(shù)數(shù)量,Dp是基礎(chǔ)模型預(yù)訓(xùn)練數(shù)據(jù)大小,Drm是獎(jiǎng)勵(lì)模型訓(xùn)練數(shù)據(jù)大小。類似地,最優(yōu)批次大小遵循:Batch Size = 31.9032 × N^0.06944 × Drm^0.52997。

這些公式的發(fā)現(xiàn)具有重要的實(shí)用價(jià)值,它們讓其他研究者能夠根據(jù)自己的資源情況快速確定合適的訓(xùn)練參數(shù),而不需要進(jìn)行大量的超參數(shù)搜索實(shí)驗(yàn)。

在計(jì)算資源使用上,POLAR-1.8B的預(yù)訓(xùn)練在320個(gè)NVIDIA H800 GPU上進(jìn)行了57小時(shí),POLAR-7B的預(yù)訓(xùn)練在912個(gè)NVIDIA H800 GPU上進(jìn)行了175小時(shí)。監(jiān)督微調(diào)階段相對(duì)輕量,在16個(gè)NVIDIA H800 GPU上約需要0.5小時(shí)。這些數(shù)據(jù)為其他研究團(tuán)隊(duì)提供了重要的資源規(guī)劃參考。

值得注意的是,研究團(tuán)隊(duì)還開發(fā)了完整的開源工具鏈,包括數(shù)據(jù)處理、模型訓(xùn)練和評(píng)估的全套代碼。這種開放的態(tài)度大大降低了其他研究者復(fù)現(xiàn)和改進(jìn)POLAR方法的門檻,有助于推動(dòng)整個(gè)領(lǐng)域的發(fā)展。

十二、局限性與未來(lái)方向:持續(xù)改進(jìn)的空間

盡管POLAR方法取得了顯著成功,但研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的局限性和未來(lái)可能的改進(jìn)方向。

首先是對(duì)參考軌跡的依賴問(wèn)題。POLAR需要為每個(gè)提示提供參考答案,這在某種程度上增加了系統(tǒng)的復(fù)雜性和成本。雖然參考軌跡大大提高了評(píng)估的準(zhǔn)確性,特別是在開放性任務(wù)中,但這也意味著需要額外的資源來(lái)生成或獲取高質(zhì)量的參考答案。研究團(tuán)隊(duì)正在探索使用多個(gè)參考軌跡來(lái)減少方差的可能性,以及如何更有效地利用其他提示的軌跡作為參考。

其次是與測(cè)試時(shí)縮放技術(shù)的結(jié)合問(wèn)題。當(dāng)前的POLAR主要關(guān)注預(yù)訓(xùn)練階段的改進(jìn),但最近在測(cè)試時(shí)縮放方面的進(jìn)展(如OpenAI的o系列模型和DeepSeek R1)顯示了動(dòng)態(tài)推理優(yōu)化的巨大潛力。研究團(tuán)隊(duì)計(jì)劃探索如何將POLAR的預(yù)訓(xùn)練策略與測(cè)試時(shí)縮放技術(shù)結(jié)合,以實(shí)現(xiàn)更強(qiáng)大的獎(jiǎng)勵(lì)建模能力。

第三是數(shù)據(jù)生成成本的問(wèn)題。雖然POLAR大大減少了對(duì)人工標(biāo)注的依賴,但構(gòu)建高質(zhì)量的策略判別訓(xùn)練數(shù)據(jù)仍然需要大量的模型推理計(jì)算。相比傳統(tǒng)的語(yǔ)言模型數(shù)據(jù)準(zhǔn)備,POLAR的數(shù)據(jù)準(zhǔn)備過(guò)程在計(jì)算成本上更高。研究團(tuán)隊(duì)正在研究更高效的數(shù)據(jù)生成策略,以及如何在保持質(zhì)量的同時(shí)降低數(shù)據(jù)生成成本。

最后是scaling潛力的進(jìn)一步探索。雖然當(dāng)前的實(shí)驗(yàn)已經(jīng)顯示了清晰的scaling law,但研究團(tuán)隊(duì)相信POLAR還有很大的提升空間。他們計(jì)劃在更大的模型規(guī)模和更多的計(jì)算資源下驗(yàn)證這些scaling law的持續(xù)有效性,并探索是否存在性能飽和點(diǎn)。

這些局限性的討論體現(xiàn)了研究團(tuán)隊(duì)的科學(xué)嚴(yán)謹(jǐn)性,也為未來(lái)的研究指明了明確的方向。每一個(gè)局限性都可能成為下一個(gè)突破的起點(diǎn)。

十三、意義與影響:重新定義獎(jiǎng)勵(lì)建模的未來(lái)

POLAR方法的提出不僅僅是一個(gè)技術(shù)改進(jìn),更代表了獎(jiǎng)勵(lì)建模領(lǐng)域的范式轉(zhuǎn)換。這種轉(zhuǎn)換的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)本身,它可能會(huì)重新塑造我們對(duì)AI對(duì)齊問(wèn)題的理解和解決方案。

從技術(shù)角度看,POLAR證明了無(wú)監(jiān)督預(yù)訓(xùn)練在獎(jiǎng)勵(lì)建模中的巨大潛力。就像GPT系列模型通過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練革命了自然語(yǔ)言處理一樣,POLAR可能會(huì)開啟獎(jiǎng)勵(lì)建模的新時(shí)代。這種方法的核心優(yōu)勢(shì)在于它的可擴(kuò)展性——隨著更多AI模型的出現(xiàn)和計(jì)算資源的增加,POLAR的性能可以持續(xù)提升,而不會(huì)遇到人工標(biāo)注數(shù)據(jù)稀缺的瓶頸。

從應(yīng)用角度看,POLAR為AI系統(tǒng)的安全部署提供了更可靠的保障。傳統(tǒng)獎(jiǎng)勵(lì)模型容易出現(xiàn)獎(jiǎng)勵(lì)黑客攻擊,即AI學(xué)會(huì)產(chǎn)生能獲得高獎(jiǎng)勵(lì)但實(shí)際質(zhì)量不佳的輸出。POLAR的策略判別機(jī)制大大降低了這種風(fēng)險(xiǎn),因?yàn)樗u(píng)估的是行為模式的一致性而非絕對(duì)質(zhì)量,更難被惡意利用。

從理論角度看,POLAR揭示了獎(jiǎng)勵(lì)建模與策略學(xué)習(xí)之間的深層聯(lián)系。它表明,有效的獎(jiǎng)勵(lì)建模本質(zhì)上是一個(gè)策略識(shí)別問(wèn)題,這個(gè)洞察可能會(huì)啟發(fā)更多相關(guān)領(lǐng)域的研究,如模仿學(xué)習(xí)、逆強(qiáng)化學(xué)習(xí)等。

更重要的是,POLAR的成功為解決AI對(duì)齊問(wèn)題提供了新的思路。傳統(tǒng)的對(duì)齊方法往往試圖直接學(xué)習(xí)人類的價(jià)值觀和偏好,但這種方法面臨著價(jià)值觀多樣性、文化差異等挑戰(zhàn)。POLAR提出的"策略對(duì)齊"思路可能是一個(gè)更可行的方案——與其讓AI學(xué)習(xí)抽象的價(jià)值觀,不如讓它學(xué)會(huì)識(shí)別和模仿優(yōu)秀的行為模式。

這種方法的社會(huì)影響也值得關(guān)注。如果AI系統(tǒng)能夠更準(zhǔn)確地理解和復(fù)制人類專家的行為模式,它們就能在教育、醫(yī)療、法律等專業(yè)領(lǐng)域發(fā)揮更大的作用。同時(shí),這也可能會(huì)改變我們對(duì)AI能力的認(rèn)知——AI不再是簡(jiǎn)單的工具,而是能夠理解和學(xué)習(xí)人類專業(yè)技能的伙伴。

回到最初的問(wèn)題,這項(xiàng)由上海AI實(shí)驗(yàn)室和復(fù)旦大學(xué)聯(lián)合開展的研究不僅提出了一個(gè)技術(shù)解決方案,更重要的是它為我們展示了一種全新的思考方式。在AI快速發(fā)展的今天,這種思維方式的轉(zhuǎn)變可能比任何具體的技術(shù)突破都更加重要。它提醒我們,有時(shí)候最大的創(chuàng)新不是在現(xiàn)有路徑上走得更遠(yuǎn),而是找到一條全新的道路。

Q&A

Q1:POLAR是什么?它與傳統(tǒng)獎(jiǎng)勵(lì)模型有什么不同? A:POLAR是一種新型的獎(jiǎng)勵(lì)模型訓(xùn)練方法,全稱Policy Discriminative Learning。與傳統(tǒng)方法直接學(xué)習(xí)"對(duì)錯(cuò)"標(biāo)準(zhǔn)不同,POLAR讓AI學(xué)會(huì)識(shí)別不同策略之間的差異,就像訓(xùn)練一個(gè)裁判識(shí)別不同水平的運(yùn)動(dòng)員,而不是死記硬背評(píng)分標(biāo)準(zhǔn)。這種方法更靈活,泛化能力更強(qiáng)。

Q2:POLAR的訓(xùn)練效果有多好?值得關(guān)注嗎? A:效果非常顯著。在STEM任務(wù)上,POLAR-7B的準(zhǔn)確率從54.8%提升到81.0%,創(chuàng)意寫作任務(wù)從57.9%提升到85.5%。更令人驚喜的是,只有7B參數(shù)的POLAR竟然超越了72B參數(shù)的現(xiàn)有最強(qiáng)模型。在強(qiáng)化學(xué)習(xí)應(yīng)用中,它幫助各種AI模型實(shí)現(xiàn)了6-9個(gè)百分點(diǎn)的性能提升。

Q3:普通人能用上POLAR技術(shù)嗎?它會(huì)如何影響我們的生活? A:目前POLAR主要用于訓(xùn)練更好的AI助手和聊天機(jī)器人。未來(lái)我們可能會(huì)接觸到由POLAR訓(xùn)練的AI,它們會(huì)更準(zhǔn)確地理解我們的需求,提供更高質(zhì)量的回答。在教育、客服、創(chuàng)作輔助等場(chǎng)景中,這種技術(shù)將讓AI變得更聰明、更可靠。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-