這項(xiàng)由北京大學(xué)葉煒教授和清華大學(xué)王聰響教授聯(lián)合領(lǐng)導(dǎo)的創(chuàng)新研究,發(fā)表于2025年8月,題為《Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future》。這項(xiàng)研究首次提出了一種讓AI模型通過(guò)巧妙的時(shí)間策略進(jìn)行自我改進(jìn)的新方法,就像一位智者既能從過(guò)去的經(jīng)驗(yàn)中汲取教訓(xùn),又能向未來(lái)的可能性學(xué)習(xí)一樣。對(duì)這項(xiàng)研究感興趣的讀者可以通過(guò)arXiv:2508.06026v1訪問(wèn)完整論文。
想象一下,你正在學(xué)習(xí)如何成為一名更好的廚師。傳統(tǒng)的學(xué)習(xí)方法是這樣的:你每天做菜,然后對(duì)比今天做得最好的菜和最差的菜,從這種對(duì)比中學(xué)習(xí)改進(jìn)。這就像現(xiàn)有的"自獎(jiǎng)勵(lì)語(yǔ)言模型"一樣,AI既是廚師又是評(píng)委,通過(guò)對(duì)比自己生成的好答案和差答案來(lái)不斷改進(jìn)。
但是,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)嚴(yán)重的問(wèn)題。隨著廚師技藝的不斷提升,他做得"最好的菜"和"最差的菜"之間的差距越來(lái)越小。到后來(lái),即使是他做得最差的菜也相當(dāng)不錯(cuò),這樣一來(lái),好菜和差菜之間的對(duì)比就變得模糊不清,學(xué)習(xí)信號(hào)越來(lái)越弱,最終導(dǎo)致學(xué)習(xí)過(guò)程停滯不前。
正是基于這個(gè)洞察,北京大學(xué)和清華大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案:讓AI既能從"過(guò)去"學(xué)習(xí),也能向"未來(lái)"學(xué)習(xí)。這就像讓我們的廚師不僅要對(duì)比當(dāng)前的菜品,還要回顧自己剛開(kāi)始學(xué)廚時(shí)做的菜作為"反面教材",同時(shí)參考一位更厲害的未來(lái)版本的自己可能做出的菜作為"正面目標(biāo)"。
這項(xiàng)研究的核心創(chuàng)新在于提出了"時(shí)間解耦"的概念。傳統(tǒng)方法就像一個(gè)人只看當(dāng)下,而新方法則像一個(gè)具有時(shí)間意識(shí)的學(xué)習(xí)者,能夠同時(shí)利用過(guò)去的經(jīng)驗(yàn)和對(duì)未來(lái)的期望來(lái)指導(dǎo)當(dāng)前的學(xué)習(xí)。研究團(tuán)隊(duì)通過(guò)理論分析證明了傳統(tǒng)自獎(jiǎng)勵(lì)方法中存在的"梯度消失"問(wèn)題,即當(dāng)好答案和差答案變得越來(lái)越相似時(shí),學(xué)習(xí)信號(hào)會(huì)逐漸衰減直至消失,就像兩個(gè)顏色越來(lái)越接近的對(duì)比圖片最終變得難以區(qū)分一樣。
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)雙階段的學(xué)習(xí)框架。第一個(gè)階段被稱為"錨定拒絕",這就像讓廚師始終記住自己初學(xué)時(shí)做的那些失敗作品作為反面例子,確保差答案始終保持在一個(gè)較低的水平,從而維持清晰的對(duì)比度。第二個(gè)階段叫做"未來(lái)引導(dǎo)選擇",這相當(dāng)于讓廚師參考一個(gè)經(jīng)過(guò)額外訓(xùn)練的"未來(lái)版本"的自己所做的菜品,以此作為更高的目標(biāo)來(lái)追求。
通過(guò)這種巧妙的時(shí)間協(xié)調(diào)策略,新方法成功地維持了好答案和差答案之間的清晰對(duì)比,確保AI模型能夠持續(xù)從對(duì)比中學(xué)習(xí)和改進(jìn)。就像一個(gè)學(xué)習(xí)者既不忘記自己的起點(diǎn),又始終朝著更高的目標(biāo)努力,這樣的學(xué)習(xí)過(guò)程自然更加高效和穩(wěn)定。
一、理論基礎(chǔ)與問(wèn)題發(fā)現(xiàn)
要理解這項(xiàng)研究的重要性,我們需要先了解AI是如何通過(guò)自我對(duì)比來(lái)學(xué)習(xí)的。這個(gè)過(guò)程就像一位老師給學(xué)生布置作文,然后讓學(xué)生自己評(píng)判哪篇寫得好,哪篇寫得差,再?gòu)倪@種對(duì)比中學(xué)習(xí)寫作技巧。
在AI的世界里,這種學(xué)習(xí)方法叫做"直接偏好優(yōu)化",簡(jiǎn)稱DPO。AI模型會(huì)為同一個(gè)問(wèn)題生成多個(gè)不同的答案,然后自己評(píng)判這些答案的質(zhì)量,選出最好的作為"首選答案",最差的作為"拒絕答案",通過(guò)強(qiáng)化這種偏好來(lái)改進(jìn)自己的表現(xiàn)。
然而,研究團(tuán)隊(duì)通過(guò)深入分析發(fā)現(xiàn)了一個(gè)嚴(yán)重的理論問(wèn)題。他們用數(shù)學(xué)語(yǔ)言證明了一個(gè)關(guān)鍵定理:當(dāng)首選答案和拒絕答案在AI的內(nèi)部表征空間中變得越來(lái)越相似時(shí),學(xué)習(xí)的梯度信號(hào)會(huì)逐漸減弱直至完全消失。這就像兩個(gè)原本顏色對(duì)比鮮明的物體逐漸變成相同的顏色,最終完全無(wú)法區(qū)分一樣。
具體來(lái)說(shuō),傳統(tǒng)的DPO方法包含兩個(gè)關(guān)鍵組成部分:一個(gè)是"自適應(yīng)權(quán)重",它決定了學(xué)習(xí)更新的強(qiáng)度;另一個(gè)是"方向指導(dǎo)",它決定了學(xué)習(xí)的方向。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)好答案和差答案變得相似時(shí),方向指導(dǎo)項(xiàng)會(huì)趨近于零,導(dǎo)致整個(gè)學(xué)習(xí)過(guò)程失去方向感,就像羅盤失靈一樣。
為了驗(yàn)證這個(gè)理論預(yù)測(cè),研究團(tuán)隊(duì)進(jìn)行了大量實(shí)驗(yàn)。他們追蹤了多個(gè)AI模型在訓(xùn)練過(guò)程中好答案和差答案之間的相似性變化。實(shí)驗(yàn)結(jié)果驚人地證實(shí)了理論分析:在傳統(tǒng)自獎(jiǎng)勵(lì)訓(xùn)練過(guò)程中,好答案和差答案之間的評(píng)分差距在幾輪訓(xùn)練后縮小了9倍,而它們?cè)贏I內(nèi)部表征空間中的相似性則從最初的0.75上升到了0.95以上,幾乎變得完全相同。
這個(gè)發(fā)現(xiàn)解釋了為什么許多自獎(jiǎng)勵(lì)語(yǔ)言模型在訓(xùn)練后期會(huì)出現(xiàn)性能停滯甚至下降的現(xiàn)象。就像一個(gè)學(xué)生如果總是在水平相近的作文中挑選好壞,最終會(huì)失去明確的改進(jìn)方向一樣,AI模型也面臨著同樣的困境。
研究團(tuán)隊(duì)將這個(gè)問(wèn)題的根源歸結(jié)為"響應(yīng)多樣性減少"。隨著AI模型能力的提升,它生成的所有答案質(zhì)量都在上升,這本來(lái)是好事,但同時(shí)也意味著好答案和差答案之間的質(zhì)量差距在縮小。這違背了偏好學(xué)習(xí)的基本假設(shè),即需要在正面和負(fù)面樣本之間保持清晰的質(zhì)量差異才能有效學(xué)習(xí)。
二、創(chuàng)新解決方案:時(shí)間解耦策略
面對(duì)傳統(tǒng)方法的局限性,研究團(tuán)隊(duì)提出了一個(gè)富有創(chuàng)意的解決方案:時(shí)間自獎(jiǎng)勵(lì)語(yǔ)言模型。這個(gè)方法的核心思想是利用不同時(shí)間點(diǎn)的模型版本來(lái)構(gòu)建更有效的學(xué)習(xí)對(duì)比。
整個(gè)方法可以比作一個(gè)聰明的學(xué)習(xí)策略。假設(shè)你正在學(xué)習(xí)繪畫(huà),傳統(tǒng)方法是每天畫(huà)幾幅畫(huà),然后在當(dāng)天的作品中選最好的和最差的進(jìn)行對(duì)比學(xué)習(xí)。而新方法則是這樣的:把今天畫(huà)得最差的那幅與你剛開(kāi)始學(xué)畫(huà)時(shí)的作品進(jìn)行比較(這樣差的樣本就真的很差),同時(shí)把今天畫(huà)得最好的那幅與一個(gè)"未來(lái)版本"的你可能畫(huà)出的作品進(jìn)行比較(這樣好的樣本就有了更高的標(biāo)準(zhǔn))。
具體來(lái)說(shuō),這個(gè)方法包含兩個(gè)巧妙設(shè)計(jì)的階段。第一個(gè)階段叫做"錨定拒絕",就像給差答案設(shè)定一個(gè)固定的低標(biāo)準(zhǔn)。研究團(tuán)隊(duì)保留了最初版本的AI模型作為"過(guò)去的自己",當(dāng)需要選擇差答案時(shí),他們會(huì)讓當(dāng)前模型和初始模型都生成答案,然后從中選擇質(zhì)量最低的作為拒絕樣本。這確保了差答案始終保持在一個(gè)較低的質(zhì)量水平,就像始終記住自己的起點(diǎn)一樣。
第二個(gè)階段被稱為"未來(lái)引導(dǎo)選擇",這是一個(gè)更加巧妙的設(shè)計(jì)。研究團(tuán)隊(duì)首先用第一階段產(chǎn)生的數(shù)據(jù)訓(xùn)練出一個(gè)臨時(shí)的"未來(lái)模型",這個(gè)模型代表了比當(dāng)前模型稍微先進(jìn)一些的版本。然后,他們讓這個(gè)未來(lái)模型也為相同的問(wèn)題生成答案,如果未來(lái)模型的答案質(zhì)量超過(guò)了當(dāng)前模型的最佳答案,就用未來(lái)模型的答案作為新的首選樣本。這就像有一個(gè)稍微厲害一些的未來(lái)版本的自己在前面引路一樣。
這種時(shí)間解耦策略的巧妙之處在于,它人為地拉大了好答案和差答案之間的質(zhì)量差距。通過(guò)錨定拒絕,差答案被固定在一個(gè)較低的水平;通過(guò)未來(lái)引導(dǎo),好答案被提升到一個(gè)更高的標(biāo)準(zhǔn)。這樣一來(lái),學(xué)習(xí)的對(duì)比信號(hào)始終保持強(qiáng)烈和清晰,就像在黑白棋盤上一樣,黑白對(duì)比永遠(yuǎn)鮮明。
值得注意的是,這個(gè)方法并沒(méi)有增加額外的計(jì)算負(fù)擔(dān)。雖然需要訓(xùn)練一個(gè)臨時(shí)的未來(lái)模型,但整個(gè)方法只需要2輪迭代就能達(dá)到傳統(tǒng)方法4輪迭代的效果,實(shí)際上還提高了計(jì)算效率。這就像找到了一條更短但更有效的學(xué)習(xí)路徑。
研究團(tuán)隊(duì)還提供了詳細(xì)的算法實(shí)現(xiàn)。整個(gè)過(guò)程從一個(gè)經(jīng)過(guò)基礎(chǔ)訓(xùn)練的模型開(kāi)始,這個(gè)模型既具備回答問(wèn)題的能力,也具備評(píng)判答案質(zhì)量的能力。然后,對(duì)于每個(gè)訓(xùn)練問(wèn)題,當(dāng)前模型和初始模型都會(huì)生成多個(gè)候選答案。當(dāng)前模型負(fù)責(zé)對(duì)所有答案進(jìn)行評(píng)分,然后按照錨定拒絕的策略選擇差答案,按照未來(lái)引導(dǎo)的策略選擇好答案。
這個(gè)過(guò)程就像一個(gè)精心設(shè)計(jì)的品酒課程。品酒師(當(dāng)前模型)需要從不同時(shí)期的酒款中選擇對(duì)比樣本:一邊是初學(xué)時(shí)期釀造的粗糙酒款(代表差答案),一邊是未來(lái)可能釀造的精品酒款(代表好答案)。通過(guò)這種跨時(shí)間的對(duì)比,品酒師能夠更清楚地理解什么是好,什么是差,從而不斷提升自己的釀酒技藝。
三、實(shí)驗(yàn)驗(yàn)證與性能突破
為了驗(yàn)證這個(gè)新方法的有效性,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)驗(yàn)證。他們選擇了三個(gè)不同的AI模型家族進(jìn)行測(cè)試:Llama、Qwen和Mistral,這些就像不同品牌的智能助手,各有特色但都面臨著相同的學(xué)習(xí)挑戰(zhàn)。
實(shí)驗(yàn)設(shè)計(jì)就像一場(chǎng)精心安排的AI能力大賽。研究團(tuán)隊(duì)使用了三個(gè)廣泛認(rèn)可的評(píng)測(cè)基準(zhǔn):AlpacaEval 2.0、Arena-Hard-v0.1和MT-Bench。這些基準(zhǔn)就像AI界的"高考",分別測(cè)試AI在不同場(chǎng)景下的表現(xiàn)能力。AlpacaEval 2.0主要評(píng)估AI回答問(wèn)題的整體質(zhì)量,Arena-Hard-v0.1測(cè)試AI處理困難問(wèn)題的能力,而MT-Bench則評(píng)估AI進(jìn)行多輪對(duì)話的技巧。
實(shí)驗(yàn)結(jié)果令人印象深刻。在AlpacaEval 2.0測(cè)試中,使用新方法訓(xùn)練的Llama3.1-8B模型達(dá)到了29.44%的勝率,相比傳統(tǒng)自獎(jiǎng)勵(lì)方法的19.69%勝率,提升了將近10個(gè)百分點(diǎn)。這就像一個(gè)學(xué)生的考試成績(jī)從70分提升到80分一樣,是一個(gè)顯著的進(jìn)步。
更令人驚訝的是,新方法只用了2輪訓(xùn)練就達(dá)到了傳統(tǒng)方法4輪訓(xùn)練才能達(dá)到的效果,而且性能還更好。這就像找到了一個(gè)更高效的學(xué)習(xí)方法,不僅學(xué)得更快,還學(xué)得更好。在Arena-Hard-v0.1測(cè)試中,Qwen2.5-7B模型的得分從傳統(tǒng)方法的21.5分躍升到新方法的34.4分,提升幅度達(dá)到了12.9分。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的對(duì)比分析,驗(yàn)證了他們的理論預(yù)測(cè)。數(shù)據(jù)顯示,傳統(tǒng)自獎(jiǎng)勵(lì)方法在訓(xùn)練過(guò)程中,好答案和差答案之間的評(píng)分差距確實(shí)在快速縮小,從最初的1.0分差距縮小到最后的0.1分,縮小了整整9倍。與此同時(shí),這些答案在AI內(nèi)部表征空間的相似性也從0.75上升到0.95以上,幾乎變得無(wú)法區(qū)分。
相比之下,使用時(shí)間自獎(jiǎng)勵(lì)方法的模型始終保持著清晰的答案質(zhì)量對(duì)比。好答案和差答案之間的評(píng)分差距穩(wěn)定維持在較高水平,內(nèi)部表征的相似性也控制在合理范圍內(nèi)。這就像始終保持著黑白分明的對(duì)比效果,確保學(xué)習(xí)信號(hào)不會(huì)衰減。
為了確保實(shí)驗(yàn)結(jié)果的可靠性,研究團(tuán)隊(duì)還測(cè)試了不同規(guī)模的模型,從小型的Llama3.2-3B到大型的Llama3.1-70B,結(jié)果顯示新方法在所有規(guī)模的模型上都能取得一致的性能提升。這證明了這個(gè)方法具有良好的通用性,就像一個(gè)好的教學(xué)方法能夠適用于不同年齡和水平的學(xué)生一樣。
四、深入分析與機(jī)制探索
為了更深入地理解新方法為什么有效,研究團(tuán)隊(duì)進(jìn)行了一系列精心設(shè)計(jì)的分析實(shí)驗(yàn),就像醫(yī)生用各種檢查手段來(lái)診斷病情一樣。
首先,他們想知道"過(guò)去"和"未來(lái)"這兩個(gè)組件各自發(fā)揮了什么作用。通過(guò)控制變量實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)"過(guò)去錨定"組件起到了更加重要的作用。當(dāng)只使用過(guò)去錨定而不使用未來(lái)引導(dǎo)時(shí),模型性能已經(jīng)有了顯著提升。這就像在學(xué)習(xí)過(guò)程中,記住自己的起點(diǎn)比預(yù)見(jiàn)未來(lái)的目標(biāo)更加重要。
這個(gè)發(fā)現(xiàn)其實(shí)很有道理。隨著AI模型能力的提升,它生成的答案普遍質(zhì)量都在上升,這時(shí)候通過(guò)回顧初始水平來(lái)構(gòu)建明確的"壞例子"就變得特別重要。就像一個(gè)已經(jīng)很厲害的廚師,如果想繼續(xù)改進(jìn),回憶自己剛開(kāi)始學(xué)廚時(shí)犯的錯(cuò)誤可能比想象未來(lái)的完美料理更有幫助。
不過(guò),"未來(lái)引導(dǎo)"組件也不是沒(méi)有作用。雖然效果相對(duì)較小,但它確實(shí)為好答案設(shè)定了更高的標(biāo)準(zhǔn),推動(dòng)模型向更優(yōu)秀的方向發(fā)展。兩個(gè)組件結(jié)合使用時(shí),效果是最好的,就像學(xué)習(xí)既需要知道什么是錯(cuò)的,也需要知道什么是更好的目標(biāo)。
研究團(tuán)隊(duì)還測(cè)試了使用外部評(píng)判模型的效果。他們使用了一個(gè)叫做AutoJ的專門評(píng)判模型來(lái)代替AI自己評(píng)判自己的方式。結(jié)果顯示,無(wú)論使用哪種評(píng)判方式,新方法都能持續(xù)優(yōu)于傳統(tǒng)方法。這證明了新方法的優(yōu)勢(shì)不是來(lái)源于特定的評(píng)判機(jī)制,而是來(lái)源于時(shí)間解耦的核心策略。
更令人驚喜的是,研究團(tuán)隊(duì)發(fā)現(xiàn)新方法不僅在訓(xùn)練數(shù)據(jù)相關(guān)的任務(wù)上表現(xiàn)出色,在完全不同的任務(wù)上也有顯著提升。他們測(cè)試了數(shù)學(xué)推理(GSM8K)、知識(shí)問(wèn)答(ARC、TruthfulQA)和代碼生成(HumanEval)等任務(wù),發(fā)現(xiàn)新方法訓(xùn)練的模型在這些任務(wù)上也比傳統(tǒng)方法有明顯優(yōu)勢(shì)。
比如在數(shù)學(xué)推理任務(wù)上,新方法將準(zhǔn)確率從53.0%提升到56.3%,在代碼生成任務(wù)上從22.0%提升到26.2%。這就像一個(gè)專門練習(xí)寫作的學(xué)生,不僅寫作能力提升了,連數(shù)學(xué)和科學(xué)成績(jī)也跟著提高了。這說(shuō)明新方法培養(yǎng)的不僅是特定任務(wù)的能力,更是一種更好的學(xué)習(xí)和思考方式。
研究團(tuán)隊(duì)推測(cè),這種泛化能力的提升可能源于更穩(wěn)定和持續(xù)的學(xué)習(xí)過(guò)程。傳統(tǒng)方法在后期學(xué)習(xí)信號(hào)衰減,可能導(dǎo)致模型學(xué)習(xí)不充分或不穩(wěn)定。而新方法始終保持強(qiáng)烈的學(xué)習(xí)信號(hào),讓模型能夠更深入地理解和掌握各種能力。
五、方法局限性與未來(lái)發(fā)展方向
作為負(fù)責(zé)任的研究者,研究團(tuán)隊(duì)也誠(chéng)實(shí)地討論了他們方法的局限性。就像任何工具都有其適用范圍一樣,時(shí)間自獎(jiǎng)勵(lì)方法也不是萬(wàn)能的。
最主要的局限在于,這個(gè)方法的前提是傳統(tǒng)自獎(jiǎng)勵(lì)方法至少要能產(chǎn)生一些改進(jìn)效果,哪怕很微小。新方法就像一個(gè)放大鏡,能夠把微小的改進(jìn)信號(hào)放大和延續(xù),但如果傳統(tǒng)方法完全失效,新方法也就失去了基礎(chǔ)。這就像一個(gè)好的學(xué)習(xí)技巧能幫助你更好地掌握知識(shí),但如果你完全不理解基礎(chǔ)概念,再好的技巧也無(wú)濟(jì)于事。
另一個(gè)局限是,雖然理論上新方法可以與其他改進(jìn)技術(shù)結(jié)合使用,比如元獎(jiǎng)勵(lì)(meta-rewarding)等方法,但研究團(tuán)隊(duì)由于時(shí)間和資源限制,還沒(méi)有充分探索這些結(jié)合的可能性。這就像發(fā)現(xiàn)了一個(gè)好的藥物,但還沒(méi)有時(shí)間測(cè)試它與其他藥物的聯(lián)合使用效果。
不過(guò),研究團(tuán)隊(duì)認(rèn)為這些局限性并不會(huì)嚴(yán)重影響方法的實(shí)用價(jià)值。在大多數(shù)實(shí)際應(yīng)用場(chǎng)景中,傳統(tǒng)自獎(jiǎng)勵(lì)方法都能產(chǎn)生至少一些改進(jìn)效果,這為新方法提供了發(fā)揮空間。而且,新方法的核心思想相對(duì)簡(jiǎn)單,容易與其他技術(shù)結(jié)合。
研究團(tuán)隊(duì)也指出了幾個(gè)有前景的未來(lái)發(fā)展方向。首先是探索與其他自改進(jìn)技術(shù)的結(jié)合,比如如何將時(shí)間解耦策略與更先進(jìn)的評(píng)判機(jī)制結(jié)合起來(lái)。其次是研究如何進(jìn)一步優(yōu)化"過(guò)去"和"未來(lái)"模型的選擇策略,可能不一定要固定使用初始模型作為過(guò)去錨點(diǎn),而是可以根據(jù)具體情況選擇合適的歷史版本。
還有一個(gè)有趣的方向是探索更長(zhǎng)的時(shí)間跨度。當(dāng)前方法主要考慮的是相鄰時(shí)間點(diǎn)的模型版本,未來(lái)可能可以考慮更長(zhǎng)時(shí)間跨度的版本對(duì)比,就像學(xué)習(xí)歷史時(shí)不僅要知道昨天發(fā)生了什么,還要了解更久遠(yuǎn)的歷史背景一樣。
研究團(tuán)隊(duì)相信,隨著對(duì)AI自學(xué)習(xí)機(jī)制理解的加深,會(huì)有更多創(chuàng)新的方法出現(xiàn)。時(shí)間自獎(jiǎng)勵(lì)只是一個(gè)開(kāi)始,它證明了通過(guò)巧妙的策略設(shè)計(jì)可以顯著改善AI的學(xué)習(xí)效果。未來(lái)可能會(huì)出現(xiàn)更多利用時(shí)間、空間或其他維度信息的學(xué)習(xí)方法。
六、技術(shù)實(shí)現(xiàn)與實(shí)際應(yīng)用
對(duì)于想要實(shí)際應(yīng)用這項(xiàng)技術(shù)的研究者和開(kāi)發(fā)者來(lái)說(shuō),了解具體的實(shí)現(xiàn)細(xì)節(jié)是很重要的。研究團(tuán)隊(duì)提供了完整的技術(shù)方案,就像一份詳細(xì)的操作手冊(cè)。
整個(gè)實(shí)現(xiàn)過(guò)程從數(shù)據(jù)準(zhǔn)備開(kāi)始。研究團(tuán)隊(duì)使用了兩個(gè)主要的數(shù)據(jù)集:Open Assistant和UltraFeedback。這些數(shù)據(jù)集就像AI學(xué)習(xí)的教科書(shū),包含了大量的問(wèn)題和高質(zhì)量的答案示例。他們精心挑選了其中最有代表性的部分,構(gòu)建了三個(gè)專門的訓(xùn)練數(shù)據(jù)集。
第一個(gè)數(shù)據(jù)集用于指令微調(diào),包含5000個(gè)精心篩選的問(wèn)答對(duì),就像給AI提供基礎(chǔ)的語(yǔ)言運(yùn)用訓(xùn)練。第二個(gè)數(shù)據(jù)集用于評(píng)估能力訓(xùn)練,包含1871個(gè)帶有詳細(xì)評(píng)分解釋的樣本,教會(huì)AI如何判斷答案的好壞。第三個(gè)數(shù)據(jù)集包含20000個(gè)問(wèn)題,用于迭代優(yōu)化過(guò)程,就像提供持續(xù)的練習(xí)材料。
在具體的訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)采用了先進(jìn)的分布式訓(xùn)練技術(shù)。他們使用了DeepSpeed ZeRO-3優(yōu)化器來(lái)處理大規(guī)模模型訓(xùn)練中的內(nèi)存管理問(wèn)題,這就像使用高效的物流系統(tǒng)來(lái)處理大量貨物的運(yùn)輸和存儲(chǔ)?;A(chǔ)微調(diào)階段使用較低的學(xué)習(xí)率(2.0×10^-6)進(jìn)行3輪訓(xùn)練,而DPO階段則使用更小的學(xué)習(xí)率(5.0×10^-7)進(jìn)行1輪訓(xùn)練,確保學(xué)習(xí)過(guò)程穩(wěn)定而有效。
推理生成過(guò)程采用了vLLM框架進(jìn)行加速,這就像使用高速公路來(lái)縮短旅行時(shí)間。生成參數(shù)設(shè)置為溫度1.0,top-p采樣為1.0,最大生成長(zhǎng)度為1024個(gè)詞元,這些參數(shù)的選擇平衡了答案的多樣性和質(zhì)量。
研究團(tuán)隊(duì)還提供了詳細(xì)的評(píng)估框架。他們選擇GPT-4o作為評(píng)判模型,這就像選擇一位公認(rèn)的權(quán)威專家來(lái)評(píng)判比賽結(jié)果。評(píng)估過(guò)程采用成對(duì)比較的方式,讓評(píng)判模型對(duì)比不同方法生成的答案,給出勝率評(píng)分。這種評(píng)估方式比單純的數(shù)值評(píng)分更加符合人類的判斷習(xí)慣。
從實(shí)際應(yīng)用的角度來(lái)看,這項(xiàng)技術(shù)為AI系統(tǒng)的持續(xù)改進(jìn)提供了新的可能性。傳統(tǒng)的AI訓(xùn)練往往需要大量的人工標(biāo)注數(shù)據(jù)和外部反饋,而自獎(jiǎng)勵(lì)方法讓AI具備了一定的自主學(xué)習(xí)能力。新的時(shí)間自獎(jiǎng)勵(lì)方法進(jìn)一步增強(qiáng)了這種能力,讓AI能夠更穩(wěn)定、更持續(xù)地自我提升。
這對(duì)于實(shí)際的AI產(chǎn)品開(kāi)發(fā)具有重要意義。比如智能客服系統(tǒng)可以通過(guò)這種方法持續(xù)改進(jìn)回答質(zhì)量,而不需要頻繁的人工干預(yù)。寫作輔助工具可以通過(guò)自我學(xué)習(xí)不斷提升文本生成質(zhì)量。代碼生成工具也可以通過(guò)這種方式持續(xù)優(yōu)化程序生成能力。
不過(guò),研究團(tuán)隊(duì)也提醒,在實(shí)際部署時(shí)需要注意一些技術(shù)細(xì)節(jié)。比如需要妥善保存初始模型版本作為"過(guò)去錨點(diǎn)",需要合理安排訓(xùn)練計(jì)劃以平衡效果和效率,還需要建立完善的質(zhì)量監(jiān)控機(jī)制以確保改進(jìn)方向的正確性。
這項(xiàng)研究的價(jià)值不僅在于提出了一個(gè)有效的新方法,更在于開(kāi)啟了AI自主學(xué)習(xí)研究的新思路。通過(guò)巧妙地利用時(shí)間維度的信息,研究團(tuán)隊(duì)證明了即使是看似簡(jiǎn)單的策略調(diào)整,也可能帶來(lái)顯著的性能提升。這為未來(lái)的AI研究提供了新的啟發(fā)和方向。
說(shuō)到底,這項(xiàng)來(lái)自北京大學(xué)和清華大學(xué)的研究展示了一個(gè)重要的觀點(diǎn):有時(shí)候解決復(fù)雜問(wèn)題的關(guān)鍵不在于使用更復(fù)雜的技術(shù),而在于從新的角度思考問(wèn)題。就像時(shí)間自獎(jiǎng)勵(lì)方法一樣,通過(guò)讓AI既能回望過(guò)去又能展望未來(lái),成功地解決了傳統(tǒng)方法面臨的學(xué)習(xí)信號(hào)衰減問(wèn)題。
這種思路對(duì)我們普通人的學(xué)習(xí)和工作也有啟發(fā)意義。在個(gè)人成長(zhǎng)過(guò)程中,既要記住自己的起點(diǎn)以保持謙虛和動(dòng)力,也要設(shè)定更高的目標(biāo)以推動(dòng)持續(xù)進(jìn)步。正如這項(xiàng)研究所展示的,有效的學(xué)習(xí)往往需要在過(guò)去的經(jīng)驗(yàn)和未來(lái)的期望之間找到平衡點(diǎn)。
隨著AI技術(shù)的不斷發(fā)展,我們可以期待看到更多類似的創(chuàng)新方法。這些方法不僅會(huì)讓AI變得更加智能,也會(huì)為我們理解學(xué)習(xí)和改進(jìn)的本質(zhì)提供新的視角。對(duì)于那些希望深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)的讀者,完整的論文和實(shí)現(xiàn)代碼提供了寶貴的參考資源。
Q&A
Q1:時(shí)間自獎(jiǎng)勵(lì)語(yǔ)言模型相比傳統(tǒng)自獎(jiǎng)勵(lì)方法有什么優(yōu)勢(shì)?
A:時(shí)間自獎(jiǎng)勵(lì)方法通過(guò)"錨定拒絕"和"未來(lái)引導(dǎo)選擇"兩個(gè)策略,解決了傳統(tǒng)方法中好答案和差答案質(zhì)量差距縮小的問(wèn)題。它讓AI既從過(guò)去的低水平樣本學(xué)習(xí)什么是差的,又從未來(lái)可能的高水平樣本學(xué)習(xí)什么是好的,始終保持清晰的學(xué)習(xí)對(duì)比信號(hào),避免了學(xué)習(xí)停滯。
Q2:這種方法需要額外的計(jì)算資源嗎?
A:實(shí)際上不需要更多資源。雖然需要訓(xùn)練一個(gè)臨時(shí)的"未來(lái)模型",但整個(gè)方法只需要2輪迭代就能達(dá)到傳統(tǒng)方法4輪迭代的效果,所以總體上還提高了計(jì)算效率。就像找到了一條更短但更有效的學(xué)習(xí)路徑。
Q3:時(shí)間自獎(jiǎng)勵(lì)方法適用于哪些AI任務(wù)?
A:研究顯示這種方法具有很好的通用性,不僅在對(duì)話和問(wèn)答任務(wù)上效果出色,在數(shù)學(xué)推理、知識(shí)問(wèn)答、代碼生成等完全不同的任務(wù)上也有顯著提升。它培養(yǎng)的是一種更好的學(xué)習(xí)方式,所以能夠遷移到各種不同的應(yīng)用場(chǎng)景中。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。