在人工智能快速發(fā)展的2025年,當我們正站在通用人工智能(AGI)發(fā)展的關(guān)鍵節(jié)點上,由清華大學深圳國際研究生院的孫浩源、吳佳琪、夏博等研究團隊發(fā)表的一篇名為《強化微調(diào)賦能多模態(tài)大語言模型的推理能力》(Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models)的前沿研究,為我們揭示了人工智能如何更好地"思考"提供了重要洞見。這項研究已于2025年5月24日發(fā)布在預印本平臺arXiv上,感興趣的讀者可以通過項目鏈接https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs獲取更多信息。
讓我們先來理解這個研究的背景。想象一下,你有一個聰明的朋友,他不僅能看懂文字,還能理解圖片、視頻和聲音,甚至能通過這些信息進行復雜的推理。這就是多模態(tài)大語言模型(MLLMs)想要實現(xiàn)的目標。而研究團隊發(fā)現(xiàn),通過一種叫做"強化微調(diào)"(Reinforcement Fine-Tuning,簡稱RFT)的方法,可以顯著提升這些AI模型的"思考"能力。就像教孩子學習一樣,不僅告訴他們正確答案,還要引導他們學會如何思考得到這個答案。
一、強化學習:AI如何從試錯中學習
首先,我們需要了解強化學習的基本概念。想象一個小孩子學騎自行車的過程:他可能會多次摔倒(嘗試錯誤的動作),但每次成功保持平衡一小段時間(獲得正向反饋),他就會逐漸學會哪些動作是有效的。這正是強化學習的核心理念——通過不斷嘗試和接收反饋來學習最佳行動策略。
在過去四十年里,從最基礎的算法到如今的深度神經(jīng)網(wǎng)絡,從基于價值的方法到基于策略的方法,強化學習領域不斷發(fā)展。到了2025年,近端策略優(yōu)化(PPO)算法已成為社區(qū)中最有影響力的強化學習算法之一。
強化學習主要分為兩大類方法:基于價值的方法和基于策略的方法?;趦r值的方法(如Q-Learning)主要關(guān)注學習一個價值函數(shù),然后從中導出策略。而基于策略的方法(如REINFORCE)則直接學習一個能最大化預期獎勵的目標策略。
近端策略優(yōu)化(PPO)算法屬于基于策略的方法,它通過一種"信任區(qū)域"約束來確保策略更新時不會偏離太多,從而實現(xiàn)穩(wěn)定的學習過程。想象你在教一個孩子新技能,你不會一次教太多內(nèi)容讓他完全改變學習方式,而是在他已掌握的基礎上逐步改進——這正是PPO的工作原理。
二、多模態(tài)推理:從語言為中心到協(xié)作推理
接下來,讓我們了解多模態(tài)推理的發(fā)展趨勢。想象你去看一部外語電影,如果只看畫面不聽對白,或只聽對白不看畫面,你對劇情的理解都會受限。多模態(tài)大語言模型就像是能同時理解畫面和對白,并將它們?nèi)诤掀饋磉M行思考的觀眾。
多模態(tài)推理主要有兩種范式:語言為中心的多模態(tài)推理和協(xié)作式多模態(tài)推理。
在語言為中心的范式中,模型將圖像、音頻等非語言內(nèi)容視為獲取信息的來源,而實際的推理過程主要由語言模塊驅(qū)動。這就像你看到一張照片,用語言在腦中描述并分析這張照片的內(nèi)容。根據(jù)多模態(tài)感知的觸發(fā)機制,這種范式又分為一次性多模態(tài)感知和主動多模態(tài)感知。一次性多模態(tài)感知就像是你只看一眼照片,然后基于記憶進行思考;而主動多模態(tài)感知則像是你在思考過程中會不斷回看照片的細節(jié)。
而在更先進的協(xié)作式多模態(tài)推理范式中,推理過程需要多模態(tài)動作推理和多模態(tài)狀態(tài)更新,各種模態(tài)不再只是被動感知,而是與語言模態(tài)全程協(xié)作進行推理。這就像你不僅能看懂電影畫面和對白,還能理解畫面構(gòu)圖、色彩、演員表情等視覺元素傳遞的情感和隱含信息,讓它們共同參與到你的思考過程中。
三、強化微調(diào):賦能模型的"思考"能力
強化微調(diào)(RFT)是一種后訓練算法,旨在提升大語言模型和多模態(tài)大語言模型的推理能力。研究表明,即使沒有單獨學習的獎勵模型,簡單的基于規(guī)則的獎勵也能幫助模型自主發(fā)展復雜的推理能力。
強化微調(diào)算法可以分為兩大類:基于評價模型的算法和無評價模型的算法。
基于評價模型的算法,如PPO,在訓練過程中同時訓練一個"評價模型"來估計每個動作的價值,就像有一位教練不斷評估學習者的表現(xiàn)并給出反饋。在多模態(tài)大語言模型的背景下,PPO的目標函數(shù)被修改為適應多模態(tài)輸入和多步驟輸出的特點。
而無評價模型的算法,如群體相對策略優(yōu)化(GRPO),則通過在一組輸出中采樣和標準化獎勵來提高效率,并減少內(nèi)存消耗。這就像在一個學習小組中,通過比較組內(nèi)成員的表現(xiàn)來評價每個人,而不需要一個單獨的評判標準。GRPO還應用了KL散度懲罰來限制優(yōu)化后的模型與初始模型的過度偏離,確保學習過程的穩(wěn)定性。
四、社區(qū)成果:RFT在多模態(tài)大語言模型中的廣泛應用
自從DeepSeek-R1的出現(xiàn),強化微調(diào)在增強多模態(tài)大語言模型推理能力方面取得了顯著成功。研究團隊將這些成功總結(jié)為五個關(guān)鍵點:
首先是多樣化的模態(tài)應用。強化微調(diào)已經(jīng)成功應用于增強視覺、音頻、全模態(tài)、圖形用戶界面、元宇宙交互和代理等多種模態(tài)的大語言模型的推理能力。特別值得一提的是,除了在視覺模態(tài)取得實質(zhì)性進展外,社區(qū)還在其他模態(tài)取得了重大突破。例如,Audio-Reasoner、R1-AQA和SARI利用強化微調(diào)增強了大型音頻語言模型在音頻問答任務中的推理能力;R1-Omni和EchoInk-R1成功將強化微調(diào)應用于全模態(tài)大語言模型;UI-R1、GUI-R1和InfiGUI-R1則將強化微調(diào)應用于圖形用戶界面代理的行動預測任務;MetaSpatial在元宇宙場景中應用強化微調(diào)增強3D空間推理;VAGEN通過多輪強化微調(diào)框架提升了基于視覺語言模型的視覺代理訓練。
其次是多樣化的任務和領域。僅在視覺模態(tài)內(nèi),強化微調(diào)就在各種任務和領域取得了顯著成功。數(shù)學視覺推理和學術(shù)多學科推理是社區(qū)高度關(guān)注的任務,這些任務需要精確整合符號處理、視覺分析和邏輯推理。社區(qū)已經(jīng)在這一領域開展了許多開創(chuàng)性工作,如InternVL2-MPO、Mulberry、Virgo等。同時,視覺驅(qū)動任務也吸引了社區(qū)的廣泛關(guān)注,如VLM-R1將強化微調(diào)應用于視覺理解任務,CrowdVLM-R1將其應用于人群計數(shù)任務,VisualThinker-R1-Zero將其用于視覺中心的空間推理任務等。此外,還有大量工作專注于多任務和多領域聯(lián)合訓練,以同時提升模型在多個任務和領域的性能,如Insight-V、Visual-RFT、Reason-RFT等。在時序視覺(視頻)領域,強化微調(diào)也成功增強了視頻推理能力,如Open-R1-Video、TimeZero、Temporal-R1等。在特定領域?qū)W科中,強化微調(diào)也成功增強了領域特定多模態(tài)大語言模型的推理能力,如醫(yī)療視覺中的MedVLM-R1、Med-R1和ChestX-Reasoner,以及具身視覺中的Embodied-Reasoner和Embodied-R。
第三是更好的訓練算法。除了探索GRPO在各種模態(tài)、任務和領域的應用外,社區(qū)還深入研究了更好的算法。這些探索主要集中在訓練范式、算法策略和數(shù)據(jù)選擇上。例如,Curr-ReFT提出了一種新的后訓練范式,包括課程強化學習和基于拒絕采樣的自我改進;MM-EUREKA引入了在線過濾范式,消除了在訓練過程中產(chǎn)生被認為完全正確或完全錯誤的響應的提示;OpenVLThinker迭代使用SFT和GRPO,利用前幾輪迭代的推理數(shù)據(jù)實現(xiàn)自我改進;VL-Rethinker引入了選擇性樣本重放(SSR)來緩解GRPO中的優(yōu)勢消失問題,并引入了強制重新思考來顯式執(zhí)行自反思推理步驟;NoisyRollout集成了來自干凈圖像和適度失真圖像的軌跡,以促進視覺感知和由此產(chǎn)生的推理模式的有針對性的多樣性;OThink-MR1引入了GRPO-D,通過融入受經(jīng)典強化學習中ε-貪婪策略啟發(fā)的動態(tài)KL散度策略來增強GRPO;R1-VL引入了StepGRPO,該算法同時融入了步驟推理準確性獎勵和步驟推理有效性獎勵,從而有效緩解了稀疏獎勵挑戰(zhàn);FAST引入了FAST-GRPO,集成了三個關(guān)鍵組件:基于模型的問題特征化指標、自適應思考獎勵機制和難度感知KL正則化;ThinkLite-VL引入了基于蒙特卡洛樹搜索的數(shù)據(jù)過濾方法,根據(jù)模型解決每個問題所需的迭代次數(shù)量化樣本難度。
第四是豐富的基準測試。豐富的基準測試在通往未來通用人工智能的道路上至關(guān)重要。在多模態(tài)大語言模型推理領域,特別是在視覺推理方面,社區(qū)內(nèi)已經(jīng)有一些公認的基準測試。在最近的調(diào)查中,這些基準測試已經(jīng)被廣泛總結(jié),這里不再詳細討論。此外,分析發(fā)現(xiàn),繼DeepSeek-R1出現(xiàn)后,多模態(tài)推理基準測試呈現(xiàn)出以下六個令人興奮的趨勢:基準測試難度的增加(如在ZeroBench上,所有當代前沿多模態(tài)大語言模型都完全失敗);評估類人推理能力的基準測試(如V1-33K通過實施輔助任務評估多模態(tài)大語言模型的推理能力);針對經(jīng)典領域的更全面的基準測試(如MDK12-Bench擴展了多學科領域的數(shù)據(jù)規(guī)模和領域覆蓋范圍);面向更現(xiàn)實應用場景的基準測試(如Video-MMLU評估多模態(tài)大語言模型在多學科講座任務上的表現(xiàn));從以語言為中心的基準測試向以多模態(tài)為中心(特別是以視覺為中心)的轉(zhuǎn)變(如VisuLogic代表了一個強大的視覺推理基準測試,在語言中表達固有的顯著難度);以及引入交互元素的基準測試(如iVISPAR引入了一個新穎的交互式基準測試,旨在評估作為代理的視覺語言模型的空間推理能力)。
第五是繁榮的工程框架。在社區(qū)中,工程訓練框架的增強對降低研究障礙和提高開發(fā)效率至關(guān)重要。自DeepSeek-R1出現(xiàn)以來,幾個框架顯著推動了社區(qū)的發(fā)展。Open-R1-Multimodal是這一領域的先驅(qū)努力,它建立在Open-R1和TRL之上,通過GRPO算法有效實現(xiàn)多模態(tài)模型訓練。R1-V更進一步,支持Qwen2.5-VL模型、GEOQA任務和用于訓練加速的vLLM。EasyR1是原始veRL項目的一個干凈分支,它具有廣泛支持模型、算法和數(shù)據(jù)集的特點,同時支持無填充訓練、檢查點恢復和工具集成。MAYA提供了一個透明且可重現(xiàn)的框架,以及一個用于將強化學習應用于多模態(tài)大語言模型的綜合評估方案;此外,它還作為一個輕量級和教育性框架,闡明了強化學習訓練的核心邏輯。
五、未來方向:社區(qū)下一步可以做什么
盡管在強化微調(diào)賦能多模態(tài)大語言模型的推理能力方面已經(jīng)取得了顯著成功,研究團隊認為以下五個方向仍然值得社區(qū)進一步研究:
首先,實現(xiàn)跨模態(tài)、任務和領域的更好泛化。雖然已經(jīng)有相當多的研究專注于跨任務推理,但現(xiàn)有工作仍然局限于特定領域和模態(tài),而且這些任務的范圍有限,通常只包含兩三個任務。然而,在追求通用人工智能的過程中,我們一直希望開發(fā)一個能夠適應各種模態(tài)、任務和領域的單一模型。因此,研究可泛化推理具有重要價值。X-Reasoner是這一領域的先驅(qū),證明了基于通用領域文本的后訓練可以實現(xiàn)可泛化推理,并且在專門領域的性能可以通過訓練特定領域(如醫(yī)學特定)的純文本數(shù)據(jù)進一步增強。此外,在這一領域還有更多值得探索的點:首先,除了文本和視覺之外的其他模態(tài)尚未得到解決;因此,未來工作可以進一步探索更復雜模態(tài)的可泛化推理能力。其次,從感知視覺任務(圖像)到時序視覺任務(視頻)等更廣泛任務的推理能力泛化,值得在社區(qū)內(nèi)進一步探索。最后,跨更廣泛領域的推理能力泛化,如從通用領域到具身特定設置,仍然是一個未被充分探索的領域,需要進一步系統(tǒng)研究。
其次,結(jié)合結(jié)果獎勵范式和過程獎勵范式。結(jié)果獎勵范式提供了高效率和易于實現(xiàn)的特點,但其獎勵的稀疏性在推理過程中沒有中間反饋。對于過程獎勵范式,雖然為中間推理步驟提供了密集獎勵,但過程獎勵模型(PRM)的訓練仍然相對具有挑戰(zhàn)性和不穩(wěn)定性。因此,社區(qū)可以考慮將結(jié)果獎勵范式與過程獎勵范式相結(jié)合。一方面,PRM訓練可以通過結(jié)果獎勵范式來增強。關(guān)于多模態(tài)獎勵模型訓練,R1-Reward、UnifiedReward-Think和Skywork-VL Reward已經(jīng)進行了開創(chuàng)性研究,證明強化微調(diào)可以導致更穩(wěn)定的訓練動態(tài)和增強的性能;因此,未來研究可以研究結(jié)果獎勵范式的整合來增強PRM訓練。另一方面,在結(jié)果獎勵范式中提供有效和密集獎勵的進一步探索是有必要的。StepGRPO代表了這一領域的開創(chuàng)性方法,特別是通過融入密集的步驟獎勵;然而,它僅限于視覺數(shù)學推理任務,這種方法在其他任務、領域和模態(tài)中的適用性需要進一步研究。
第三,更加關(guān)注推理多模態(tài)大語言模型的安全性。保護多模態(tài)大語言模型免受安全漏洞和對抗性威脅是一個已被社區(qū)廣泛探索的關(guān)鍵研究領域。最近有跡象表明,推理大語言模型由于其訓練算法、在推理過程中對對抗性攻擊的暴露以及其部署環(huán)境中固有的漏洞而面臨新的安全挑戰(zhàn)。然而,專門針對推理多模態(tài)大語言模型的安全研究仍然明顯有限,這是一個需要社區(qū)增加關(guān)注的關(guān)鍵領域。未來研究可以進一步專注于為推理多模態(tài)大語言模型開發(fā)先進的檢測和防御機制。這一點通常可以分為三個組成部分:首先,獎勵黑客,一個社區(qū)內(nèi)持續(xù)存在的挑戰(zhàn),值得進一步關(guān)注和努力;其次,對推理多模態(tài)大語言模型的越獄攻擊和防御的探索值得社區(qū)更多關(guān)注;最后,過度思考的問題,如No-Thinking-RL和FAST等開創(chuàng)性工作所強調(diào)的,也是社區(qū)內(nèi)一個關(guān)鍵挑戰(zhàn),可以在更多樣化的模態(tài)、任務和領域中進行進一步研究。
第四,為多模態(tài)探索更多數(shù)據(jù)增強嘗試。數(shù)據(jù)增強已被證明是多模態(tài)大語言模型訓練的有效技術(shù),可以潛在地增強模型的性能和魯棒性。在強化微調(diào)設置中,數(shù)據(jù)通常很稀缺;因此,內(nèi)部數(shù)據(jù)增強可能會增強模型的感知能力。NoisyRollout在這一領域開創(chuàng)先河,證明在訓練期間加入高斯噪聲可以增強視覺數(shù)學任務的推理性能。因此,在以下幾點上進行進一步探索可能是有價值的:首先,為更廣泛的視覺任務(如視覺計數(shù)任務)探索適當?shù)臄?shù)據(jù)增強方法;其次,為所有這些任務進一步探索更適當和多樣化的數(shù)據(jù)增強方法(如RandomResizedCrop、RandomCrop、CenterCrop、RandFlip、RandomAffine、RandomInvert等);最后,將數(shù)據(jù)增強方法應用于其他模態(tài)并評估其在這些上下文中的有效性,值得進一步研究。
第五,探索更好的算法、獎勵范式及其他應用。如前所述,社區(qū)在開發(fā)改進的訓練算法方面取得了實質(zhì)性進展。此外,這應該繼續(xù)是社區(qū)努力的關(guān)鍵領域之一。關(guān)于獎勵范式,當前算法通常采用基于規(guī)則的獎勵。在未來研究中,進一步探索設計任務特定獎勵函數(shù)的自動框架是有價值的。最后,探索強化微調(diào)的推理多模態(tài)大語言模型在各種學術(shù)學科(如建筑、航空航天、電氣工程等)中的實施是一個有前途的領域,需要來自各種學科社區(qū)的協(xié)作努力。
通過這些深入研究和未來展望,清華深圳國際研究生院的研究團隊為我們描繪了一幅多模態(tài)人工智能發(fā)展的清晰圖景。強化微調(diào)作為一種有效的訓練方法,正在賦能多模態(tài)大語言模型獲得更強的推理能力,讓它們不僅能"看"、能"聽",還能像人類一樣進行深度思考和推理,為通用人工智能的實現(xiàn)邁出了重要一步。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。