這項由Skywork AI公司(隸屬昆侖科技)的Chris、魏一晨、彭毅、王曉昆等多位研究人員共同完成的研究,發(fā)表于2025年6月6日,研究代號為arXiv:2504.16656v4。感興趣的讀者可以通過論文鏈接https://huggingface.co/Skywork/Skywork-R1V2-38B獲取完整模型和研究詳情。
人工智能正在經歷一場思維方式的革命。當我們使用ChatGPT或其他AI助手時,它們通常會立即給出答案,就像搶答比賽中的選手一樣迅速反應。但真正困難的數(shù)學題或科學問題,往往需要深思熟慮才能解決。就像學生考試時遇到難題,需要在草稿紙上反復推演一樣,AI也需要學會"慢慢思考"。
傳統(tǒng)的AI模型追求速度,被稱為"快思考"模型。它們就像那些反應敏捷但有時會匆忙下結論的人。而新一代的"慢思考"模型,則更像是那些遇到問題會仔細分析、反復驗證的學者。OpenAI的o1模型、谷歌的Gemini-Thinking,以及國內的Kimi-1.5等,都屬于這種新型的"慢思考"模型。它們在數(shù)學競賽和科學推理方面的表現(xiàn),比傳統(tǒng)模型提升了30%以上。
然而,當這種"慢思考"策略從純文本擴展到圖文并茂的多模態(tài)領域時,問題變得更加復雜。就像一個人既要看圖又要理解文字,還要進行復雜推理一樣,多模態(tài)AI需要同時處理視覺信息和邏輯推理。令人困惑的是,雖然在復雜的視覺推理任務上表現(xiàn)有所提升,但在簡單的圖像理解任務上卻出現(xiàn)了退步,甚至會產生更多的"視覺幻覺"——也就是看到實際不存在的東西。
為了解決這個棘手問題,Skywork AI團隊推出了第二代產品R1V2,這是一個能夠平衡復雜推理能力和通用理解能力的多模態(tài)AI模型。它就像一個既能解高等數(shù)學題,又能準確識別日常物品的全能學生。
一、創(chuàng)新的"混合強化學習"訓練方法
R1V2的核心創(chuàng)新在于采用了一種全新的"混合強化學習"訓練方法。這就像培養(yǎng)一個學生,不僅要教他解題技巧,還要培養(yǎng)他的判斷力和自我糾錯能力。
傳統(tǒng)的AI訓練就像讓學生模仿老師的解題過程,這種方法被稱為"監(jiān)督微調"。但R1V2完全跳過了這個階段,因為研究團隊發(fā)現(xiàn),過多的模仿反而會削弱AI的原創(chuàng)思維能力,就像學生過分依賴標準答案而失去了獨立思考的能力。
取而代之的是,R1V2采用了一種叫做"混合偏好優(yōu)化"(MPO)的方法。這種方法就像給AI配備了一個內在的"質量檢查員",能夠從三個維度評估自己的回答質量。首先是比較不同答案的相對優(yōu)劣,就像在多個解題方案中選擇最佳的那個。其次是評估單個答案的絕對質量,判斷這個答案本身是否達標。最后是學習如何生成高質量的回答過程,掌握正確的"解題套路"。
這個質量檢查員的角色由Skywork團隊開發(fā)的"Skywork-VL獎勵模型"來擔任。這個獎勵模型就像一個經驗豐富的老師,既能理解圖像內容,又能評判推理過程的正確性。在它的指導下,R1V2能夠有效減少重復性的思考過程和過度思考的問題,在一般性視覺任務上表現(xiàn)更加穩(wěn)定。
二、解決"優(yōu)勢消失"難題的創(chuàng)新機制
為了進一步提升推理能力,研究團隊還引入了另一種訓練方法——"群體相對策略優(yōu)化"(GRPO)。這種方法就像組織一場"頭腦風暴"比賽,讓AI對同一個問題生成多個不同的答案,然后通過比較這些答案的質量來學習改進。
但是這種方法面臨一個嚴重問題,研究人員稱之為"消失的優(yōu)勢"現(xiàn)象。隨著訓練的進行,AI生成的多個答案會逐漸趨于一致,要么都對,要么都錯,失去了相互比較的價值。這就像一個班級的學生經過長期訓練后,面對某類題目時給出的答案高度相似,老師就很難通過比較來發(fā)現(xiàn)問題和改進點了。
為了解決這個問題,Skywork團隊創(chuàng)造性地提出了"選擇性樣本緩沖區(qū)"(SSB)機制。這個機制就像建立了一個"珍貴題庫",專門收集那些能夠產生不同答案、具有區(qū)分度的高質量訓練樣本。當常規(guī)訓練樣本的區(qū)分度下降時,系統(tǒng)會自動從這個題庫中調取有價值的樣本繼續(xù)訓練。
這種方法的效果非常顯著。在訓練初期,大約60%的樣本都具有很好的區(qū)分度,但隨著訓練推進,這個比例會急劇下降到40%以下。SSB機制通過維持高質量樣本的持續(xù)供應,確保訓練過程始終保持高效率。更重要的是,研究團隊發(fā)現(xiàn),提前準備這樣的"精選題庫"能夠將訓練效率提升10%以上。
三、巧妙平衡推理能力與視覺準確性
研究過程中,團隊發(fā)現(xiàn)了一個有趣但需要謹慎處理的現(xiàn)象:過度強化視覺推理能力會導致"視覺幻覺"增加。這就像一個人過分投入復雜的圖像分析時,可能會在簡單圖片中"看到"實際不存在的細節(jié)。
這種現(xiàn)象的出現(xiàn)有其深層原因。當AI需要進行復雜的視覺推理時,它必須在視覺元素之間進行更多的"創(chuàng)造性插值"——也就是根據(jù)已有信息推測可能的關聯(lián)。這個過程雖然有助于復雜推理,但也增加了產生錯誤聯(lián)想的風險。
為了解決這個問題,研究團隊采用了精確的"獎勵閾值校準"策略。這就像給AI設置了一個"理性檢查點",防止它在追求復雜推理時偏離現(xiàn)實。通過SSB機制,系統(tǒng)能夠在保持多樣化學習信號的同時,維持視覺推理和文本推理之間的適當平衡。
四、突破性的模塊化架構設計
R1V2在技術架構上也有重要創(chuàng)新。不同于傳統(tǒng)的端到端訓練方式,它采用了模塊化的組裝方法。整個系統(tǒng)就像一個精密的相機系統(tǒng),由三個核心組件構成:負責"看"的視覺編碼器(InternViT-6B)、負責"想"的語言推理模型(QwQ-32B),以及連接二者的輕量級適配器。
這種設計的巧妙之處在于,視覺編碼器保持凍結狀態(tài),專注于提取圖像特征。語言模型則保留其強大的推理能力,不受視覺訓練的干擾。而適配器則像一個"翻譯官",負責將視覺信息轉換為語言模型能夠理解的形式。
研究團隊通過大量實驗發(fā)現(xiàn)了一個令人驚訝的現(xiàn)象:文本推理能力和視覺理解能力之間存在很強的"遷移效應"。一個模態(tài)的改進會直接惠及另一個模態(tài),就像學會了騎自行車的人更容易學會騎摩托車一樣。有趣的是,單獨訓練視覺編碼器收效甚微,而訓練適配器或同時訓練適配器和語言模型效果顯著,這說明跨模態(tài)的"對齊"比視覺編碼本身更加關鍵。
五、卓越的實驗表現(xiàn)
R1V2在多個權威測試平臺上都取得了優(yōu)異成績。在文本推理方面,它在2024年美國數(shù)學邀請賽(AIME2024)上獲得了78.9%的正確率,在編程競賽LiveCodeBench上達到63.6%,在綜合推理測試LiveBench上獲得73.2%的成績。
在多模態(tài)推理測試中,R1V2的表現(xiàn)同樣出色。在多學科理解測試MMMU上達到73.6%,在數(shù)學視覺推理MathVista上獲得74.0%,在國際奧林匹克競賽題目OlympiadBench上取得62.6%的成績。這些分數(shù)不僅在開源模型中名列前茅,甚至可以與一些商業(yè)模型相媲美。
特別值得一提的是,R1V2僅有380億個參數(shù),卻能夠超越許多720億參數(shù)的大型模型。比如在MMMU測試中,它比Qwen2.5-VL-72B高出3.4個百分點,比QvQ-Preview-72B高出3.3個百分點。在奧林匹克競賽題目上,這種優(yōu)勢更加明顯,R1V2的62.6%遠超其他大型模型的40.4%和33.2%。
與商業(yè)模型相比,R1V2在某些方面已經達到甚至超越了它們的水平。例如在MMMU測試中,它超過了Claude 3.5 Sonnet的70.4%和Gemini 2 Flash的70.7%。雖然在某些測試中仍與頂級商業(yè)模型OpenAI-o4-mini存在差距,但這個差距已經大大縮小,顯示出開源模型正在快速追趕商業(yè)產品的步伐。
六、深入的技術驗證與分析
為了驗證各項技術創(chuàng)新的有效性,研究團隊進行了詳細的對比實驗。SSB機制的效果最為顯著:在使用SSB的情況下,有效訓練樣本的比例能夠維持在60%以上,而不使用SSB時這個比例會降到40%以下。這直接轉化為更好的模型性能——MMMU測試成績從73.4%提升到73.6%。
在訓練策略的比較中,混合方法(MPO+GRPO)展現(xiàn)出最佳的平衡效果。雖然單獨使用MPO在某些數(shù)學推理任務上能夠獲得最高分(AIME2024上達到79.0%),但結合GRPO后的混合方法在綜合表現(xiàn)上更加穩(wěn)定,特別是在奧林匹克競賽題目上從60.6%提升到62.6%。
更重要的是,混合方法有效控制了"視覺幻覺"問題。傳統(tǒng)的監(jiān)督微調方法的幻覺率高達12.1%,而混合方法將這個數(shù)字降低到9.1%,MPO單獨使用時甚至能降到8.7%。這表明新的訓練策略不僅提升了推理能力,還增強了模型的可靠性。
在模塊激活策略的測試中,研究團隊發(fā)現(xiàn)了一個反直覺的結果:僅訓練適配器的效果最好,在所有測試中都取得了最高分數(shù)(MMMU 73.6%,MathVista 74.0%,OlympiadBench 62.6%)。這說明問題的關鍵不在于增強視覺編碼能力,而在于改善視覺特征與語言處理之間的"溝通"質量。
研究團隊還測試了不同的MPO閾值設置對訓練效果的影響。他們發(fā)現(xiàn),較高的閾值(如15)能夠帶來更穩(wěn)定的訓練過程,而較低的閾值雖然在初期可能表現(xiàn)更好,但容易導致后期的性能衰退。這與他們觀察到的"獎勵過度優(yōu)化"現(xiàn)象一致——過分追求某個指標可能會損害模型的整體表現(xiàn)。
七、實際應用場景展示
為了展示R1V2的實際能力,研究團隊提供了兩個具體的應用案例。第一個案例是中國高考物理題,涉及電磁感應和交流發(fā)電機的復雜問題。面對包含兩個不同匝數(shù)線圈的復雜圖表,R1V2能夠準確識別關鍵信息,并運用電磁學原理進行推理。
在這個物理問題中,R1V2展現(xiàn)了系統(tǒng)性的分析能力。它首先識別出線圈匝數(shù)的差異(n1 > n2),然后正確地指出感應電流的頻率取決于磁芯的轉速而非線圈匝數(shù)。這種分析過程體現(xiàn)了AI能夠區(qū)分相關因素和無關因素的能力,而不是簡單地進行模式匹配。
第二個案例是中國高考數(shù)學題,涉及三維幾何中球體和四角錐的體積計算。這類問題需要空間想象能力和精確的數(shù)學計算。R1V2采用了建立坐標系的策略,將復雜的三維問題轉化為可計算的代數(shù)問題。更令人印象深刻的是,它在得出答案后還會主動進行驗證:"讓我再仔細檢查一下步驟,看看是否有錯誤..."這種自我檢查的行為體現(xiàn)了真正的推理思維。
八、技術局限與改進方向
盡管R1V2在推理任務上表現(xiàn)出色,但在一些通用視覺理解任務上仍有改進空間。在文檔理解方面,它在AI2D測試中獲得81.3%,在ChartQA和TextVQA上分別達到79.0%和相當水平,雖然表現(xiàn)尚可,但與專門優(yōu)化的模型相比仍有差距。
在視頻理解方面,R1V2在VideoMME上獲得60.2%,在MVBench上達到61.5%的成績。值得注意的是,當視頻內容需要時序推理時,它的表現(xiàn)會顯著提升(在MMBench-Video上獲得1.92分,超過了InternVL2.5-38B的1.82分),這再次證明了其在復雜推理任務上的優(yōu)勢。
研究團隊坦誠地指出,這種性能分化反映了當前設計中的一個權衡選擇。他們有意識地將資源更多地投入到推理能力的提升上,而在通用視覺理解方面做出了一定的妥協(xié)。這是一個工程決策,未來的版本將致力于在保持強大推理能力的同時,提升通用視覺理解的表現(xiàn)。
在幻覺控制方面,雖然混合訓練方法已經將幻覺率降低到9.1%,但研究團隊認為還有進一步改進的空間。他們發(fā)現(xiàn),激進的推理優(yōu)化初期確實會增加幻覺現(xiàn)象,但通過MPO方法的干預,最終能夠有效控制這個問題。在事實準確性測試RealWorldQA上,R1V2達到68.9%的正確率,表明在保持推理能力的同時維持了合理的事實判斷水平。
九、對AI發(fā)展的啟示意義
R1V2的成功提供了幾個重要的技術啟示。首先,它證明了"慢思考"策略可以成功地擴展到多模態(tài)領域,而不必犧牲太多的通用理解能力。這為未來的AI系統(tǒng)設計提供了新的思路——不同類型的智能任務可能需要不同的處理策略,而關鍵在于找到合適的平衡點。
其次,模塊化的架構設計顯示了組合不同預訓練模型的巨大潛力。通過精心設計的適配層,可以將專門優(yōu)化的視覺模型和語言模型有機結合,實現(xiàn)"1+1>2"的效果。這種方法不僅提高了開發(fā)效率,還為未來的多模態(tài)系統(tǒng)提供了可擴展的框架。
第三,混合強化學習方法的成功表明,復雜的AI能力可能需要多種訓練策略的協(xié)同作用。單一的訓練方法往往難以同時優(yōu)化多個目標,而精心設計的組合策略能夠在不同維度上取得更好的平衡。
最后,SSB這樣的技術創(chuàng)新解決了強化學習中的實際問題,為其他研究者提供了有價值的工具。這種機制不僅適用于多模態(tài)AI,也可能在純文本或其他類型的AI訓練中發(fā)揮作用。
R1V2的開源發(fā)布也體現(xiàn)了推動AI民主化的重要意義。通過將先進的多模態(tài)推理技術開放給研究社區(qū),Skywork團隊為全球的AI發(fā)展做出了貢獻。這種開放策略有助于加速技術創(chuàng)新,同時也為更多開發(fā)者提供了構建智能應用的基礎工具。
說到底,R1V2代表了開源AI模型在復雜推理能力上的一次重要突破。它不僅在技術層面實現(xiàn)了多項創(chuàng)新,更重要的是證明了開源模型完全有能力在高端AI應用中與商業(yè)產品一較高下。隨著更多研究團隊在這個基礎上繼續(xù)創(chuàng)新,我們有理由相信,AI的"慢思考"能力將變得更加強大和實用,為解決現(xiàn)實世界中的復雜問題提供更好的工具。
對于普通用戶而言,這意味著未來的AI助手將能夠處理更加復雜的任務,無論是幫助學生解決數(shù)學物理難題,還是協(xié)助專業(yè)人士進行復雜的分析工作。而對于開發(fā)者來說,R1V2提供了一個強大的基礎平臺,可以在此基礎上構建各種專業(yè)應用。這項研究不僅推動了技術邊界,也為AI的普及應用鋪平了道路。
Q&A
Q1:什么是"慢思考"AI,它和普通AI有什么區(qū)別? A:"慢思考"AI就像考試時會在草稿紙上反復推演的學生,遇到復雜問題時會深思熟慮,而不是立即給出答案。普通AI追求快速響應,"慢思考"AI則更注重推理過程的準確性,在數(shù)學和科學問題上表現(xiàn)更好,準確率能提升30%以上。
Q2:Skywork R1V2會不會出現(xiàn)"視覺幻覺"問題? A:研究團隊發(fā)現(xiàn)過度強化推理能力確實會增加"視覺幻覺"風險,但他們通過混合訓練方法將幻覺率控制在9.1%,比傳統(tǒng)方法的12.1%有顯著改善。系統(tǒng)會通過"質量檢查員"機制來平衡推理能力和視覺準確性。
Q3:普通人能使用Skywork R1V2嗎?有什么要求? A:可以使用。Skywork團隊已經開源了R1V2模型,用戶可以通過https://huggingface.co/Skywork/Skywork-R1V2-38B獲取。雖然需要一定的技術基礎來部署,但這為開發(fā)者構建各種智能應用提供了強大的基礎工具。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。