2025年5月30日,來自清華大學和螞蟻研究院的研究團隊在arXiv上發(fā)布了一篇標題為《AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning》的研究論文。這項由Wei Fu、Jiaxuan Gao、Yi Wu等人共同完成的研究,提出了一種全新的異步強化學習系統(tǒng),專為提升大語言模型的推理能力而設計。論文代碼已在GitHub上開源,有興趣的讀者可通過https://github.com/inclusionAI/AReaL/查看完整代碼庫。
一、為什么我們需要異步強化學習系統(tǒng)?
想象你正在教一個聰明但經(jīng)驗不足的學生解決復雜問題。傳統(tǒng)的教學方式是:你給學生一道題,等他完全解答出來后,再根據(jù)他的答案給予反饋,然后修正他的思維方法,再給下一道題。這種教學方式雖然直觀,但效率低下——尤其是當不同學生解題速度差異巨大時,總是要等最慢的學生完成,其他人則在空等。
在大語言模型(LLM)的世界里,強化學習(RL)就像這樣的教學過程,而當前主流的RL系統(tǒng)大多采用這種"同步"方式工作。這導致了嚴重的計算資源浪費問題,特別是在訓練大型推理模型(Large Reasoning Models,LRMs)時,不同輸入可能產(chǎn)生長度從幾十到數(shù)萬不等的思考過程,使得GPU利用率低下。
研究團隊發(fā)現(xiàn),現(xiàn)有的強化學習系統(tǒng)面臨兩個核心問題:首先,推理設備利用率低,因為系統(tǒng)必須等待最長輸出完成才能開始訓練;其次,同步系統(tǒng)的可擴展性差,因為將生成任務分散到更多設備上會降低每個GPU的批處理大小,使得解碼過程變成內(nèi)存IO受限的狀態(tài),難以通過增加設備來提高吞吐量。
二、AREAL:一個全異步的強化學習系統(tǒng)
AREAL系統(tǒng)就像是完全重新設計的教學流程——不再要求所有學生同步提交答案,而是讓每個學生獨立作答,老師隨時收集已完成的答卷進行批改,同時不斷更新教學方法。這種異步模式讓資源利用率大大提高。
具體來說,AREAL由四個核心組件組成:
首先是"可中斷的推理工作器"(Interruptible Rollout Worker)。這些工作器負責接收兩類請求:一是生成響應,二是更新權(quán)重。當新的模型參數(shù)可用時,這些工作器會中斷當前正在進行的生成任務,加載新參數(shù),然后繼續(xù)未完成的序列生成。這就像學生正在解題過程中,老師提供了新的解題思路,學生立即采納并繼續(xù)解題。
其次是"獎勵服務"(Reward Service),負責評估模型生成的回答質(zhì)量。比如在編程任務中,這個服務會提取代碼并運行單元測試來驗證其準確性。
第三是"訓練工作器"(Trainer Workers),它們從經(jīng)驗回放緩沖區(qū)持續(xù)采樣數(shù)據(jù),直到達到配置的訓練批量大小,然后執(zhí)行PPO(Proximal Policy Optimization)更新并將結(jié)果參數(shù)存儲在分布式存儲中。為確保數(shù)據(jù)新鮮度,回放緩沖區(qū)的數(shù)據(jù)只使用一次。
最后是"推理控制器"(Rollout Controller),作為推理工作器、獎勵服務和模型工作器之間的關(guān)鍵橋梁。它從數(shù)據(jù)集讀取數(shù)據(jù)并調(diào)用推理工作器的生成請求,然后將收到的響應發(fā)送給獎勵服務以獲取獎勵。軌跡和獎勵存儲在回放緩沖區(qū)中,等待模型工作器進行訓練。當模型工作器更新參數(shù)后,控制器會調(diào)用推理工作器的權(quán)重更新功能。
這種完全異步的設計確保了生成和訓練資源的持續(xù)滿負荷運行,大大提高了系統(tǒng)效率。想象一下,這就像是一個工廠的生產(chǎn)線,不同工位獨立運作,材料流動從不停止。
三、異步學習的算法挑戰(zhàn)與解決方案
然而,異步系統(tǒng)設計雖然提高了效率,但也帶來了幾個技術(shù)挑戰(zhàn)。
首先是"數(shù)據(jù)過時"問題。由于系統(tǒng)的異步特性,每個訓練批次包含的數(shù)據(jù)可能來自多個不同版本的策略。想象一下,如果學生用舊方法解的題被用來改進最新的教學方法,效果可能并不理想。之前在強化學習訓練系統(tǒng)的研究表明,這種過時性會降低學習性能。
其次是"策略版本不一致"問題。由于生成過程可能被中斷并使用新參數(shù)繼續(xù),同一軌跡可能包含由不同策略版本生成的片段,這違反了標準PPO假設——所有動作都由單一策略生成。
為了解決這些問題,研究團隊提出了兩個關(guān)鍵的算法創(chuàng)新:
第一是"過時性感知訓練"(Staleness-Aware Training)。他們引入了一個名為η的超參數(shù),代表最大允許過時度。給定最新參數(shù)版本i,總生成軌跡數(shù)Nr和訓練批量大小B,系統(tǒng)強制執(zhí)行:?Nr/B? ≤ i + η。當η=0時,系統(tǒng)退化為同步RL設置;當η=1時,系統(tǒng)恢復為之前的一步重疊方法。在訓練過程中,系統(tǒng)優(yōu)先處理較舊的軌跡,確保過時度保持在η以下。
第二是"解耦PPO目標函數(shù)"(Decoupled PPO Objective)。研究團隊應用了一個解耦的PPO目標函數(shù),將行為策略和近端策略分離。行為策略πbehav代表用于采樣軌跡的策略,代理策略πprox作為近期目標,用于規(guī)范πθ的更新。通過對采樣軌跡應用重要性采樣,他們推導出適用于異步RL訓練的解耦PPO目標函數(shù)。
這個解耦的PPO目標函數(shù)提供了一個自然的好處:它放寬了所有數(shù)據(jù)在一個訓練批次中應該由單一策略生成的要求。這對于結(jié)合可中斷生成與策略更新至關(guān)重要。研究團隊證明,一個軌跡中不一致的策略版本等同于單一行為策略πbehav。
實際實現(xiàn)中,他們簡單地使用每次模型更新前的參數(shù)作為πprox,并在每個訓練步驟中全局批次到達時重新計算令牌概率。
四、AREAL的系統(tǒng)實現(xiàn)與優(yōu)化
AREAL系統(tǒng)是使用Python和PyTorch實現(xiàn)的,建立在ReaLHF框架基礎(chǔ)上。該系統(tǒng)結(jié)合了SGLang v0.4.6作為生成服務后端,以及Megatron-Core v0.11.0作為訓練后端,由SLURM管理資源調(diào)度。
為了最大化生成和訓練階段的吞吐量,研究團隊實施了幾項關(guān)鍵的系統(tǒng)級優(yōu)化:
首先,AREAL將GPU計算與CPU操作解耦,包括基于規(guī)則的獎勵計算(如數(shù)學問題的字符串匹配或代碼的單元測試執(zhí)行)和基于TCP的數(shù)據(jù)傳輸。通過在單獨的線程中執(zhí)行這些操作并流水線化工作流程,系統(tǒng)可以將獎勵計算和數(shù)據(jù)傳輸與后續(xù)生成請求重疊。他們使用asyncio協(xié)程在推理工作器中并發(fā)運行多個請求,避免相互阻塞等待。
其次,為了處理可變長度序列的訓練,他們采用了無填充的序列打包策略,結(jié)合動態(tài)分配算法。該算法在固定內(nèi)存約束下平衡微批次間的令牌分布,最大化GPU內(nèi)存利用率,同時最小化所需的前向-后向傳遞次數(shù)。
這些優(yōu)化共同導致了系統(tǒng)性能的顯著提升,使AREAL能夠充分利用可用的計算資源。
五、實驗結(jié)果:AREAL的性能優(yōu)勢
研究團隊在具有挑戰(zhàn)性的數(shù)學和編程任務上評估了AREAL系統(tǒng),使用了從1.5B到32B參數(shù)不等的模型。他們采用了從DeepSeek-R1蒸餾的Qwen2模型系列作為基礎(chǔ)模型。
在最終的對比實驗中,AREAL與最先進的同步RL系統(tǒng)進行了比較:用于數(shù)學推理的DeepScaleR(1.5B模型)和用于代碼生成的DeepCoder(14B模型),兩者都使用verl訓練。對于較大的7B和32B模型,由于缺乏可比較的基線,他們使用AREAL的同步變體進行了對照實驗。
實驗結(jié)果令人印象深刻:AREAL在不影響(甚至提高)最終性能的情況下,實現(xiàn)了顯著的加速。在數(shù)學推理任務中,使用1.5B和7B模型時,AREAL分別將訓練時間從41.0小時和57.7小時減少到14.8小時和25.4小時,同時保持了42.2%和63.1%的AIME24基準準確率。在代碼生成任務中,使用14B和32B模型時,AREAL將訓練時間從48.8小時和51.1小時減少到21.9小時和31.1小時,同時在LiveCodeBench基準上分別達到58.1%和61.0%的準確率。
總體而言,AREAL實現(xiàn)了高達2.57倍的訓練吞吐量提升,并在多達512個GPU上展示了線性擴展效率。關(guān)鍵的是,這種加速甚至伴隨著這些任務上的解決方案準確率提高,說明AREAL在不犧牲(實際上是增強)模型性能的同時提供了顯著的效率提升。
六、算法驗證實驗與系統(tǒng)消融研究
為了驗證研究團隊在第三部分提出的算法創(chuàng)新,他們進行了一系列消融研究,通過在數(shù)學任務上訓練1.5B LRM來驗證他們的方法。
首先,他們改變了最大允許過時度η,并比較了有無解耦PPO目標函數(shù)的配置。結(jié)果顯示,樸素PPO無法匹配同步RL的性能(即η=0時的性能)。即使輕微的過時度也會由于不當?shù)牟眉糁行暮涂芍袛嗌蛇^程中的策略變化而顯著降低最終性能。此外,增加數(shù)據(jù)過時度會持續(xù)降低學習性能,這與之前在其他領(lǐng)域的研究觀察一致。
然而,通過比較學習曲線,他們發(fā)現(xiàn)解耦PPO目標函數(shù)在處理過時數(shù)據(jù)時大大提高了訓練穩(wěn)定性,這與游戲領(lǐng)域的發(fā)現(xiàn)一致。值得注意的是,即使使用解耦目標函數(shù),無界過時度(η→∞)仍然導致比零過時度的效果差。當適當約束時,適度的過時度(如η≤4)對最終性能影響很小,同時通過異步流水線顯著加速訓練。
研究團隊還對系統(tǒng)組件進行了消融研究。沒有可中斷生成功能時,控制器必須等待最長的響應,導致1.5B和7B模型在4個節(jié)點上的吞吐量分別降低12%和17%。這驗證了他們的架構(gòu)設計選擇。
在動態(tài)微批次分配方面,與標準微批次策略相比,動態(tài)批處理在各種模型大小上平均提高了30%的吞吐量。標準微批次策略可能導致多個長序列被分配到同一個微批次,通常需要足夠多的微批次以防止內(nèi)存不足錯誤。
這些消融研究結(jié)果證實了研究團隊的設計選擇,并驗證了他們提出的算法創(chuàng)新在提高異步RL訓練穩(wěn)定性和效率方面的有效性。
七、AREAL的局限性與未來研究方向
盡管AREAL取得了令人印象深刻的成果,但這項研究仍存在一些局限性,這也為未來的研究提供了方向。
首先,推理與訓練設備之間的比例可以進一步優(yōu)化,特別是針對特定的訓練設置。此外,這一比例可能受益于訓練過程中的動態(tài)調(diào)整,尤其是在微調(diào)預訓練基礎(chǔ)模型時,上下文長度通常會增加。
研究團隊的評估主要集中在單步數(shù)學和編碼任務上,但AREAL架構(gòu)本身并不僅限于這些領(lǐng)域。未來的工作可以探索多輪交互和代理場景,擴展AREAL的應用范圍。
此外,隨著模型參數(shù)量和上下文長度的持續(xù)增長,研究人員可能需要開發(fā)更高效的異步算法,進一步優(yōu)化系統(tǒng)設計,以應對更大規(guī)模的強化學習訓練挑戰(zhàn)。
八、總結(jié)與展望
AREAL代表了大語言模型強化學習訓練的一個重要進步。通過完全解耦生成和訓練過程,結(jié)合創(chuàng)新的算法方法來處理數(shù)據(jù)過時性和策略不一致性,AREAL實現(xiàn)了顯著的效率提升,同時保持或甚至提高了模型性能。
這種方法就像是重新設計了教學流程——不再要求所有學生同步提交答案,而是允許每個學生以自己的節(jié)奏學習,教師則不斷收集和評估完成的作業(yè),并持續(xù)更新教學方法。這種異步流程不僅提高了效率,還可能通過允許更多樣化的學習路徑來增強學習效果。
AREAL的成功表明,在大規(guī)模強化學習訓練中,系統(tǒng)設計與算法創(chuàng)新的結(jié)合至關(guān)重要。通過解決強化學習訓練中的關(guān)鍵瓶頸,AREAL為未來的研究提供了一個可靠的起點,有望支持更先進的AI系統(tǒng)發(fā)展,進一步推動機器智能的邊界。
對于研究人員和工程師來說,AREAL提供了一個寶貴的框架,可以在更短的時間內(nèi)訓練更強大的推理模型。對于更廣泛的AI社區(qū)來說,這意味著我們可以更快、更有效地開發(fā)出具有更強推理能力的大語言模型,最終為各種應用提供更智能的解決方案。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。