這項由字節(jié)跳動種子團(tuán)隊的王家偉、劉家才、付雨千、李映如、王鑫濤、林遠(yuǎn)、岳宇、張霖、王楊和王可等研究人員完成的突破性研究,于2025年9月發(fā)表在arXiv預(yù)印本平臺上。有興趣深入了解的讀者可以通過項目主頁 https://empgseed-seed.github.io/ 訪問完整內(nèi)容和相關(guān)材料。
在人工智能的世界里,讓機(jī)器像人類一樣學(xué)習(xí)一直是個巨大挑戰(zhàn),特別是當(dāng)機(jī)器需要完成那些需要多個步驟才能達(dá)到目標(biāo)的復(fù)雜任務(wù)時。就像教一個孩子學(xué)會做飯,你不能只在他最后端上一道菜時才說"做得好"或"做得不好",而是需要在他每一個操作步驟中給予適當(dāng)?shù)闹笇?dǎo)。但現(xiàn)實情況是,大多數(shù)AI系統(tǒng)只能在任務(wù)完成后才知道結(jié)果的好壞,這就像讓學(xué)生做完整張試卷后才知道最終分?jǐn)?shù),卻不知道每道題的對錯。
字節(jié)跳動的研究團(tuán)隊發(fā)現(xiàn),當(dāng)前的大語言模型智能體在處理需要多步驟完成的長期任務(wù)時面臨著一個根本性問題:稀疏獎勵信號讓系統(tǒng)難以判斷中間步驟的價值。這個問題就好比一個廚師在做一道復(fù)雜菜品時,只有在客人品嘗后才知道菜品好壞,卻不知道在準(zhǔn)備食材、調(diào)味、烹飪的各個環(huán)節(jié)中哪些步驟做對了,哪些需要改進(jìn)。
更深層的問題在于,研究團(tuán)隊通過數(shù)學(xué)分析發(fā)現(xiàn),傳統(tǒng)的策略梯度方法存在一個內(nèi)在缺陷:模型的學(xué)習(xí)更新幅度與其預(yù)測不確定性緊密相關(guān)。簡單來說,當(dāng)模型對某個步驟很有信心時,即使這個步驟是正確的重要決策,它得到的學(xué)習(xí)強(qiáng)化也很?。幌喾?,當(dāng)模型對某個步驟毫無把握時,這種不確定性反而會產(chǎn)生很大的學(xué)習(xí)波動,可能讓整個學(xué)習(xí)過程變得不穩(wěn)定。這種現(xiàn)象就像一個新手司機(jī),在熟悉的路段開車時即使表現(xiàn)很好也不會有太多提升,而在完全陌生的路段卻因為緊張而操作失誤,反而養(yǎng)成了壞習(xí)慣。
一、突破傳統(tǒng)框架的全新學(xué)習(xí)策略
針對這些問題,研究團(tuán)隊提出了一個革命性的解決方案:熵調(diào)制策略梯度(EMPG)。這個方法的核心思想是重新校準(zhǔn)學(xué)習(xí)信號,讓AI系統(tǒng)能夠根據(jù)每個步驟的不確定性程度來調(diào)整學(xué)習(xí)強(qiáng)度,同時鼓勵系統(tǒng)尋找那些能導(dǎo)向更明確未來狀態(tài)的行動路徑。
EMPG的工作原理可以用學(xué)習(xí)駕駛來類比。傳統(tǒng)方法就像一個駕駛教練,無論學(xué)員在哪種情況下的表現(xiàn),都給予同樣強(qiáng)度的反饋。而EMPG更像一位經(jīng)驗豐富的教練,他會根據(jù)不同情況采用不同的教學(xué)策略:當(dāng)學(xué)員在簡單路段表現(xiàn)出色時,教練會給予強(qiáng)烈的正面強(qiáng)化,讓學(xué)員牢牢記住這些正確操作;當(dāng)學(xué)員犯了明顯錯誤但表現(xiàn)得很自信時,教練會給予嚴(yán)厲批評,防止錯誤固化;而當(dāng)學(xué)員在復(fù)雜路段表現(xiàn)不確定時,教練則會溫和地指導(dǎo),避免因為過度批評而打擊學(xué)員信心。
這套方法包含兩個核心組件。第一個是"自校準(zhǔn)梯度縮放"機(jī)制,它會動態(tài)調(diào)整每個步驟的學(xué)習(xí)信號強(qiáng)度。當(dāng)AI系統(tǒng)對某個正確步驟很有信心時,這個機(jī)制會放大學(xué)習(xí)信號,讓系統(tǒng)更深刻地記住這種正確做法;當(dāng)系統(tǒng)犯了錯誤但表現(xiàn)得很自信時(這種情況被稱為"幻覺性自信"),系統(tǒng)會受到更強(qiáng)的糾正;而當(dāng)系統(tǒng)在某個步驟表現(xiàn)得不確定時,學(xué)習(xí)信號會被適當(dāng)減弱,避免不穩(wěn)定的更新影響整體學(xué)習(xí)。
第二個組件是"未來清晰度獎勵",這是一個內(nèi)在激勵機(jī)制,鼓勵A(yù)I系統(tǒng)選擇那些能夠?qū)蚋鞔_、更可預(yù)測狀態(tài)的行動。就像下棋時優(yōu)秀棋手會偏向選擇那些讓棋局變得更加明朗的走法,EMPG也會引導(dǎo)AI系統(tǒng)朝著能夠減少未來不確定性的方向發(fā)展。這種設(shè)計幫助系統(tǒng)找到更加穩(wěn)健和可預(yù)測的解決路徑,而不是陷入混亂或不可預(yù)測的狀態(tài)中。
二、嚴(yán)謹(jǐn)?shù)睦碚摶A(chǔ)與數(shù)學(xué)證明
研究團(tuán)隊并不滿足于僅僅提出一個實用的方法,他們深入挖掘了問題的數(shù)學(xué)本質(zhì)。通過嚴(yán)格的理論分析,他們證明了在標(biāo)準(zhǔn)的softmax策略下,評分函數(shù)的期望平方范數(shù)與策略熵之間存在單調(diào)關(guān)系。這個看似抽象的數(shù)學(xué)結(jié)論實際上揭示了一個重要現(xiàn)象:高熵(不確定)的行動天然會產(chǎn)生較大的梯度,而低熵(確定)的行動則產(chǎn)生較小的梯度。
這種內(nèi)在的數(shù)學(xué)特性創(chuàng)造了一個學(xué)習(xí)上的矛盾。一方面,那些模型表現(xiàn)得很有信心且正確的步驟應(yīng)該得到強(qiáng)化,但由于它們的低熵特性,實際得到的學(xué)習(xí)信號卻很微弱,就像表現(xiàn)優(yōu)異的學(xué)生卻得不到足夠的表揚(yáng)一樣。另一方面,那些充滿不確定性的探索性步驟會產(chǎn)生很大的學(xué)習(xí)波動,這些噪聲可能會干擾整個學(xué)習(xí)過程的穩(wěn)定性,就像課堂上總有一些搗亂的學(xué)生會影響整體學(xué)習(xí)氛圍。
EMPG的理論貢獻(xiàn)在于提供了一個原則性的解決方案來重新平衡這種不對稱性。通過引入熵調(diào)制機(jī)制,系統(tǒng)能夠在數(shù)學(xué)上正確地重新分配學(xué)習(xí)信號,確保每種類型的步驟都能得到適當(dāng)?shù)奶幚?。研究團(tuán)隊進(jìn)一步從信息論角度論證了未來清晰度獎勵的合理性,將其與信息增益和權(quán)能框架聯(lián)系起來,為這種內(nèi)在激勵提供了堅實的理論支撐。
三、全面的實驗驗證與卓越表現(xiàn)
為了驗證EMPG的有效性,研究團(tuán)隊在三個極具挑戰(zhàn)性的長期任務(wù)基準(zhǔn)上進(jìn)行了全面測試:WebShop(網(wǎng)絡(luò)購物導(dǎo)航任務(wù))、ALFWorld(文本環(huán)境中的指令跟隨任務(wù))和Deep Search(多步信息檢索與綜合任務(wù))。這些任務(wù)都有一個共同特點:需要AI系統(tǒng)執(zhí)行多個步驟才能達(dá)到最終目標(biāo),而且只有在任務(wù)結(jié)束時才能獲得成功或失敗的二元反饋。
在WebShop任務(wù)中,AI需要像真實用戶一樣在網(wǎng)站上搜索商品、瀏覽頁面、比較選項并做出購買決定。實驗結(jié)果顯示,當(dāng)EMPG應(yīng)用到不同規(guī)模的Qwen2.5模型上時,都帶來了顯著的性能提升。在1.5B參數(shù)的模型上,EMPG讓GRPO基線方法的成功率提高了8.1個百分點,讓DAPO基線提高了7.3個百分點。這種改進(jìn)在更大的7B模型上同樣明顯,DAPO結(jié)合EMPG后在WebShop上達(dá)到了82.7%的成功率。
ALFWorld任務(wù)要求AI在文本描述的環(huán)境中完成各種家務(wù)任務(wù),如"把熱土豆放進(jìn)冰箱"這樣的復(fù)雜指令。這個任務(wù)特別考驗AI的常識推理能力和多步規(guī)劃能力。實驗結(jié)果同樣令人印象深刻,EMPG在各種模型規(guī)模和基線算法上都表現(xiàn)出了穩(wěn)定的改進(jìn)效果。
最具挑戰(zhàn)性的是Deep Search任務(wù),這要求AI進(jìn)行多輪網(wǎng)絡(luò)搜索、閱讀和分析多個信息源,最終合成答案。研究團(tuán)隊使用了32B參數(shù)的強(qiáng)大模型來處理這個復(fù)雜任務(wù)。結(jié)果顯示,EMPG將強(qiáng)基線DAPO的平均得分從62.0提升到65.3,獲得了3.3個百分點的顯著改進(jìn)。更重要的是,EMPG在域外泛化任務(wù)上的表現(xiàn)尤為突出,提升了3.9個百分點,顯示出該方法不僅能在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,還能有效處理新穎的未見過的任務(wù)。
四、深入分析揭示的學(xué)習(xí)機(jī)制
研究團(tuán)隊通過詳細(xì)的消融研究發(fā)現(xiàn)了EMPG兩個組件的不同作用機(jī)制。未來清晰度獎勵主要作為訓(xùn)練期間的強(qiáng)大利用信號,通過強(qiáng)化已知的高質(zhì)量決策序列來幫助模型掌握域內(nèi)分布,在域內(nèi)任務(wù)上帶來了2.6個百分點的顯著提升。相比之下,自校準(zhǔn)梯度縮放更像是一個強(qiáng)大的正則化機(jī)制,它教會模型在面臨不確定性時如何恰當(dāng)?shù)匦袨?。通過減弱高熵步驟的更新,這個機(jī)制產(chǎn)生了一個本質(zhì)上更加魯棒、不易出錯的最終策略。
這種學(xué)習(xí)到的魯棒性在測試階段面對新穎輸入時表現(xiàn)得尤為明顯。當(dāng)模型遇到引發(fā)高不確定性的域外任務(wù)時,由于在訓(xùn)練中學(xué)會了不在這種情況下過度反應(yīng),它展現(xiàn)出了優(yōu)越的泛化能力,在域外任務(wù)上獲得了3.9個百分點的魯棒提升。這證明EMPG不僅僅是在過度擬合訓(xùn)練數(shù)據(jù),而是通過學(xué)習(xí)如何處理不確定性這一基本技能,獲得了更有彈性的問題解決方法。
研究團(tuán)隊還深入分析了學(xué)習(xí)動態(tài)過程,發(fā)現(xiàn)了一個重要現(xiàn)象:傳統(tǒng)基線方法在所有實驗中都會一致地達(dá)到明顯的性能平臺期,學(xué)習(xí)停滯,成功率不再提高。相比之下,EMPG增強(qiáng)的智能體能夠果斷突破這個性能上限。通過提供更豐富和更有效的學(xué)習(xí)信號,EMPG使智能體能夠維持學(xué)習(xí)動力,推進(jìn)到基線方法的峰值之外,最終收斂到顯著更高的最終成功率。
五、訓(xùn)練穩(wěn)定性的顯著改善
除了性能提升,EMPG還顯著增強(qiáng)了訓(xùn)練過程的穩(wěn)定性和魯棒性。在線強(qiáng)化學(xué)習(xí)微調(diào)中的一個常見失敗模式是"策略崩潰",即智能體的策略在訓(xùn)練后期發(fā)散,導(dǎo)致性能災(zāi)難性下降。研究團(tuán)隊通過追蹤訓(xùn)練過程中的KL損失發(fā)現(xiàn),DAPO基線智能體最初學(xué)習(xí)有效,但在大約240個訓(xùn)練步驟后KL損失變得高度不穩(wěn)定,表明嚴(yán)重的不穩(wěn)定性。
相比之下,EMPG增強(qiáng)的智能體在整個訓(xùn)練過程中保持了低且穩(wěn)定的KL損失。這表明EMPG的機(jī)制,特別是自校準(zhǔn)梯度縮放,有效地調(diào)節(jié)了策略更新,防止了可能導(dǎo)致發(fā)散的過度激進(jìn)變化,確保了更可靠地收斂到高性能策略。這種穩(wěn)定性對于實際應(yīng)用至關(guān)重要,因為它意味著研究人員和工程師可以更可靠地訓(xùn)練高性能的AI智能體,而不用擔(dān)心訓(xùn)練過程中的意外崩潰。
研究團(tuán)隊還探索了為什么步驟級別的熵分析對于他們的方法至關(guān)重要。他們發(fā)現(xiàn),與先前在令牌級別的分析不同,即使是初始熵很低的步驟仍然會經(jīng)歷實質(zhì)性的平均熵變化。這一關(guān)鍵發(fā)現(xiàn)強(qiáng)調(diào)了他們以步驟為中心的方法的重要性,并證明了EMPG設(shè)計用于在整個置信度譜上調(diào)制更新的合理性。
六、實際應(yīng)用價值與未來影響
EMPG的意義遠(yuǎn)不止是一個技術(shù)改進(jìn),它代表了AI系統(tǒng)學(xué)習(xí)方式的根本性轉(zhuǎn)變。傳統(tǒng)方法主要依賴外部獎勵信號,就像只能通過考試成績來判斷學(xué)生學(xué)習(xí)效果的教育系統(tǒng)。而EMPG開創(chuàng)了一個新范式,讓AI系統(tǒng)能夠利用自身的內(nèi)在不確定性作為額外的學(xué)習(xí)信號,就像優(yōu)秀的學(xué)生能夠通過自我反思來改進(jìn)學(xué)習(xí)方法。
這種方法的實際應(yīng)用潛力巨大。在網(wǎng)頁導(dǎo)航、軟件工程和深度搜索等現(xiàn)實任務(wù)中,反饋往往只在完成整個任務(wù)后才提供,EMPG提供了一個可擴(kuò)展的替代方案來替代昂貴的過程獎勵模型。它能夠從最少的外部反饋中鍛造出密集、信息豐富的學(xué)習(xí)信號,這對于那些難以獲得詳細(xì)中間反饋的復(fù)雜任務(wù)特別有價值。
研究團(tuán)隊表示,未來計劃將EMPG應(yīng)用到其他長期任務(wù)中,如具身AI和多智能體協(xié)作。他們相信這項工作為開發(fā)更高效、更魯棒和更能自我糾正的自主智能體奠定了基礎(chǔ)性基石。隨著AI系統(tǒng)在現(xiàn)實世界中承擔(dān)越來越復(fù)雜的任務(wù),像EMPG這樣能夠從內(nèi)在信號中學(xué)習(xí)的方法將變得越來越重要。
說到底,字節(jié)跳動這項研究解決的是AI領(lǐng)域的一個基本問題:如何讓機(jī)器從稀疏的外部反饋中高效學(xué)習(xí)。通過巧妙地利用模型自身的不確定性作為額外的學(xué)習(xí)信號,EMPG不僅提高了性能,還增強(qiáng)了訓(xùn)練的穩(wěn)定性和泛化能力。這種方法讓AI系統(tǒng)變得更像人類學(xué)習(xí)者,能夠通過自我反思和對不確定性的敏感度來指導(dǎo)自己的學(xué)習(xí)過程。對于那些希望開發(fā)能夠在復(fù)雜現(xiàn)實環(huán)境中可靠工作的AI系統(tǒng)的研究者和工程師來說,這項研究提供了一個強(qiáng)大且實用的新工具。
Q&A
Q1:什么是熵調(diào)制策略梯度EMPG?它解決什么問題?
A:EMPG是字節(jié)跳動開發(fā)的一種新型AI學(xué)習(xí)方法,專門解決長期復(fù)雜任務(wù)中的學(xué)習(xí)難題。傳統(tǒng)AI只能在任務(wù)結(jié)束后知道好壞,就像學(xué)生只能通過期末考試了解學(xué)習(xí)效果。EMPG則讓AI根據(jù)每步操作的確定性程度調(diào)整學(xué)習(xí)強(qiáng)度,同時鼓勵選擇導(dǎo)向明確結(jié)果的行動路徑,就像經(jīng)驗豐富的教練會根據(jù)不同情況給學(xué)員差異化指導(dǎo)。
Q2:EMPG在實際測試中表現(xiàn)如何?
A:在三個挑戰(zhàn)性任務(wù)中,EMPG都帶來顯著提升。在網(wǎng)購導(dǎo)航任務(wù)中,成功率提高了7-8個百分點;在Deep Search復(fù)雜檢索任務(wù)中,平均得分從62.0提升到65.3。更重要的是,EMPG在處理未見過的新任務(wù)時表現(xiàn)尤為出色,域外任務(wù)提升了3.9個百分點,顯示出強(qiáng)大的泛化能力和魯棒性。
Q3:EMPG為什么比傳統(tǒng)方法更穩(wěn)定?
A:傳統(tǒng)方法容易出現(xiàn)"策略崩潰",即訓(xùn)練后期性能突然大幅下降。EMPG通過自校準(zhǔn)梯度縮放機(jī)制,在模型不確定時減弱學(xué)習(xí)更新,在確定且正確時加強(qiáng)學(xué)習(xí),就像溫和而有針對性的教學(xué)方式。實驗顯示EMPG在整個訓(xùn)練過程中保持穩(wěn)定的KL損失,避免了傳統(tǒng)方法在240步后出現(xiàn)的嚴(yán)重不穩(wěn)定現(xiàn)象。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。