這項(xiàng)由昆侖公司(Kunlun Inc.)下屬的Skywork AI團(tuán)隊(duì)完成的重要研究,于2025年6月發(fā)表在計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)期刊上。研究的主要作者包括彭毅、王佩宇、王曉坤等十多位研究人員,通訊作者為宋旭辰和劉洋。感興趣的讀者可以通過arXiv:2504.05599v2這個(gè)編號(hào),或者直接訪問https://huggingface.co/Skywork/Skywork-R1V-38B來獲取完整的論文資料和模型權(quán)重。
說到人工智能的發(fā)展,我們經(jīng)常聽到一些令人印象深刻的消息。比如GPT-4能夠解答復(fù)雜的數(shù)學(xué)題,Claude能進(jìn)行深度的邏輯推理,而最新的DeepSeek-R1在數(shù)學(xué)和推理方面達(dá)到了專家級(jí)水平。不過,這些強(qiáng)大的AI都有一個(gè)共同點(diǎn)——它們主要處理文字信息。當(dāng)涉及到需要同時(shí)理解圖片和進(jìn)行復(fù)雜推理的任務(wù)時(shí),比如看著幾何圖形證明數(shù)學(xué)定理,或者分析科學(xué)圖表得出結(jié)論,現(xiàn)有的視覺語言模型就顯得力不從心了。
這就好比一個(gè)數(shù)學(xué)天才突然失明了。雖然他的邏輯思維能力依然強(qiáng)大,但當(dāng)需要分析幾何圖形或者讀取圖表數(shù)據(jù)時(shí),就會(huì)遇到很大困難。目前的AI正面臨著同樣的挑戰(zhàn)——要么擅長看圖說話,要么精于邏輯推理,但很難做到兩者兼顧。
昆侖公司的研究團(tuán)隊(duì)注意到了這個(gè)問題,并提出了一個(gè)創(chuàng)新的解決方案。他們開發(fā)出了Skywork R1V,這是一個(gè)能夠同時(shí)"看得懂"圖片和"想得深"的AI模型。更令人驚訝的是,這個(gè)模型只有380億個(gè)參數(shù),相比其他動(dòng)輒千億參數(shù)的大模型要小得多,但在多項(xiàng)測(cè)試中卻能與那些體量龐大的閉源模型一較高下。
這項(xiàng)研究的創(chuàng)新之處在于,研究團(tuán)隊(duì)并沒有從頭開始訓(xùn)練一個(gè)全新的模型,而是巧妙地將已經(jīng)具備強(qiáng)大推理能力的R1系列文本模型"嫁接"到了視覺處理能力上。這種做法就像給一個(gè)數(shù)學(xué)專家配備了一雙敏銳的眼睛,讓他既能進(jìn)行深度思考,又能準(zhǔn)確理解視覺信息。
為了實(shí)現(xiàn)這個(gè)目標(biāo),研究團(tuán)隊(duì)設(shè)計(jì)了三項(xiàng)核心技術(shù)創(chuàng)新。第一項(xiàng)是高效的多模態(tài)遷移方法,通過一個(gè)輕量級(jí)的神經(jīng)網(wǎng)絡(luò)連接器,將視覺處理和語言推理無縫結(jié)合,就像在兩個(gè)不同語言的專家之間架設(shè)了一座溝通的橋梁。第二項(xiàng)是混合優(yōu)化框架,這個(gè)框架結(jié)合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn),能夠逐步提升模型在跨模態(tài)任務(wù)中的表現(xiàn)。第三項(xiàng)是自適應(yīng)長度的思維鏈蒸餾技術(shù),這項(xiàng)技術(shù)能夠動(dòng)態(tài)調(diào)整AI的推理過程長度,避免過度思考導(dǎo)致的效率低下。
在實(shí)際測(cè)試中,Skywork R1V展現(xiàn)出了令人矚目的性能。在MMMU這個(gè)綜合性的多模態(tài)理解基準(zhǔn)測(cè)試中,它獲得了69.0分的優(yōu)異成績,在MathVista數(shù)學(xué)視覺推理測(cè)試中得到67.5分。更重要的是,這個(gè)模型在純文本推理任務(wù)上也保持了強(qiáng)勁的表現(xiàn),在AIME數(shù)學(xué)競(jìng)賽題目上達(dá)到72.0分,在MATH500數(shù)學(xué)題集上獲得94.0分。這些成績表明,Skywork R1V成功地在視覺理解和邏輯推理之間找到了完美的平衡點(diǎn)。
一、從文字高手到圖像專家的華麗轉(zhuǎn)身
現(xiàn)在我們來深入了解Skywork R1V是如何實(shí)現(xiàn)這種跨模態(tài)能力轉(zhuǎn)換的。這個(gè)過程就像培養(yǎng)一個(gè)原本只會(huì)閱讀文字的學(xué)者,讓他也能夠理解和分析圖畫、圖表和各種視覺信息。
傳統(tǒng)的做法通常是從零開始訓(xùn)練一個(gè)全新的模型,讓它同時(shí)學(xué)會(huì)處理文字和圖像。但這種方法存在一個(gè)巨大的問題:需要海量的高質(zhì)量訓(xùn)練數(shù)據(jù),而且訓(xùn)練成本極其昂貴。更糟糕的是,在訓(xùn)練過程中,模型原有的推理能力很可能會(huì)被削弱,就像一個(gè)人在學(xué)習(xí)新技能時(shí)忘記了原來掌握的本領(lǐng)。
Skywork R1V的研究團(tuán)隊(duì)采用了一種更加巧妙的策略。他們將整個(gè)過程分解為三個(gè)相互連接的步驟,每一步都有明確的目標(biāo)和作用。
第一步被稱為MLP初始化,這里的MLP是多層感知器的簡稱,可以理解為一個(gè)智能的翻譯器。研究團(tuán)隊(duì)首先選擇了一個(gè)已經(jīng)具備視覺處理能力的模型作為"眼睛",這就是著名的視覺變換器ViT。然后他們選擇了一個(gè)在語言理解方面表現(xiàn)優(yōu)秀但不具備推理能力的模型作為"替身",這就是Qwen2.5-32B-Instruct。最后,他們的目標(biāo)是那個(gè)具備強(qiáng)大推理能力的DeepSeek-R1-distill-Qwen2.5-32B模型。
這個(gè)過程就像訓(xùn)練一個(gè)翻譯官,讓他能夠準(zhǔn)確地將視覺信息轉(zhuǎn)換為語言模型能夠理解的形式。研究團(tuán)隊(duì)使用了200萬個(gè)樣本進(jìn)行初始訓(xùn)練,然后篩選出20萬個(gè)高質(zhì)量樣本進(jìn)行精細(xì)調(diào)優(yōu),最后用4萬個(gè)包含推理過程的樣本進(jìn)行最終優(yōu)化。學(xué)習(xí)率從初始的2×10^-4逐步降低到4×10^-5,確保模型能夠穩(wěn)定地學(xué)習(xí)這種轉(zhuǎn)換能力。
第二步是模型重新組裝。這一步最令人驚訝,因?yàn)檠芯繄F(tuán)隊(duì)發(fā)現(xiàn),當(dāng)他們將訓(xùn)練好的MLP連接器從"替身"模型轉(zhuǎn)移到真正的推理模型上時(shí),盡管兩個(gè)模型使用的是不同的詞匯表和編碼方式,但連接器居然能夠很好地工作。這就像一個(gè)原本為英語翻譯訓(xùn)練的翻譯官,突然能夠?yàn)榉ㄕZ專家提供同樣優(yōu)質(zhì)的翻譯服務(wù)。這個(gè)現(xiàn)象表明,不同語言模型之間存在某種潛在的相似性,使得這種跨模型的知識(shí)轉(zhuǎn)移成為可能。
第三步是模態(tài)對(duì)齊,也就是讓視覺信息和文本信息能夠完美配合。在這個(gè)階段,研究團(tuán)隊(duì)只調(diào)整MLP連接器的參數(shù),而保持視覺處理器和推理模型的參數(shù)不變。這種做法確保了模型既不會(huì)失去原有的視覺理解能力,也不會(huì)損害寶貴的推理能力。整個(gè)過程就像調(diào)音師調(diào)節(jié)不同樂器,讓它們能夠和諧地演奏出美妙的音樂。
這種分步驟的方法帶來了顯著的優(yōu)勢(shì)。相比于從頭訓(xùn)練一個(gè)多模態(tài)推理模型,這種方法大大減少了對(duì)訓(xùn)練數(shù)據(jù)的需求,降低了計(jì)算成本,同時(shí)還能更好地保持原有模型的各項(xiàng)能力。研究結(jié)果表明,即使在沒有進(jìn)行任何進(jìn)一步優(yōu)化的情況下,重新組裝后的模型就已經(jīng)能夠在MMMU測(cè)試中獲得60.2分的成績,這個(gè)表現(xiàn)已經(jīng)超過了許多專門訓(xùn)練的多模態(tài)模型。
二、循序漸進(jìn)的智能優(yōu)化策略
在成功實(shí)現(xiàn)基礎(chǔ)的多模態(tài)能力轉(zhuǎn)換之后,研究團(tuán)隊(duì)面臨的下一個(gè)挑戰(zhàn)是如何進(jìn)一步提升模型的性能。他們?cè)O(shè)計(jì)了一個(gè)被稱為"混合優(yōu)化框架"的訓(xùn)練策略,這個(gè)框架就像一個(gè)經(jīng)驗(yàn)豐富的教練,知道如何循序漸進(jìn)地提升學(xué)生的能力。
這個(gè)優(yōu)化框架包含三個(gè)階段,每個(gè)階段都有特定的目標(biāo)和方法。整個(gè)過程就像培養(yǎng)一個(gè)學(xué)生從初學(xué)者成長為專家的完整歷程。
第一階段是基礎(chǔ)訓(xùn)練,使用完整的數(shù)據(jù)集對(duì)模型進(jìn)行初始化訓(xùn)練。這個(gè)階段就像讓學(xué)生接受通識(shí)教育,廣泛接觸各種類型的問題和任務(wù)。研究團(tuán)隊(duì)使用了與MLP初始化相同的訓(xùn)練配置,確保模型能夠建立起堅(jiān)實(shí)的基礎(chǔ)能力。這一階段產(chǎn)生了初始模型M0,為后續(xù)的迭代改進(jìn)提供了起點(diǎn)。
第二階段是迭代訓(xùn)練,這是整個(gè)框架中最具創(chuàng)新性的部分。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)智能的樣本篩選機(jī)制,使用獎(jiǎng)勵(lì)模型來評(píng)估每個(gè)訓(xùn)練樣本的質(zhì)量。這個(gè)獎(jiǎng)勵(lì)模型會(huì)給每個(gè)樣本打分,分?jǐn)?shù)范圍從0到5分,就像老師給學(xué)生作業(yè)打分一樣。
基于這些分?jǐn)?shù),研究團(tuán)隊(duì)構(gòu)建了一個(gè)動(dòng)態(tài)的數(shù)據(jù)集篩選策略。在第一次迭代中,他們選擇所有得分2分及以上的樣本。在第二次迭代中,標(biāo)準(zhǔn)提高到3分及以上。第三次和第四次迭代分別要求4分和5分及以上。這種逐步提高標(biāo)準(zhǔn)的做法,就像逐漸增加訓(xùn)練難度,讓模型在每個(gè)階段都能面對(duì)適當(dāng)?shù)奶魬?zhàn)。
更巧妙的是,研究團(tuán)隊(duì)還加入了一個(gè)"錯(cuò)題重做"的機(jī)制。在每次迭代中,他們都會(huì)收集前一次迭代中模型答錯(cuò)的題目,將這些"錯(cuò)題"與高質(zhì)量樣本一起用于訓(xùn)練。這種做法確保模型能夠從錯(cuò)誤中學(xué)習(xí),不斷改正自己的問題。整個(gè)過程就像一個(gè)學(xué)生在老師的指導(dǎo)下,既學(xué)習(xí)新知識(shí),又反復(fù)練習(xí)之前做錯(cuò)的題目。
訓(xùn)練參數(shù)也經(jīng)過了精心設(shè)計(jì)。第一次迭代使用1×10^-4的學(xué)習(xí)率,后續(xù)迭代降低到2×10^-5,確保模型能夠穩(wěn)定地學(xué)習(xí)而不會(huì)出現(xiàn)過度擬合。每次迭代都訓(xùn)練一個(gè)完整的輪次,使用16384個(gè)token的上下文長度,批次大小為512。
第三階段是強(qiáng)化學(xué)習(xí),這個(gè)階段使用了一種叫做群體相對(duì)策略優(yōu)化(GRPO)的先進(jìn)技術(shù)。這種方法結(jié)合了基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng),包括準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)。準(zhǔn)確性獎(jiǎng)勵(lì)鼓勵(lì)模型給出正確答案,格式獎(jiǎng)勵(lì)確保模型的輸出符合預(yù)期的格式要求。
強(qiáng)化學(xué)習(xí)階段使用了最高質(zhì)量的數(shù)據(jù)子集,也就是獎(jiǎng)勵(lì)模型評(píng)分為5分的樣本。訓(xùn)練參數(shù)被進(jìn)一步精調(diào):學(xué)習(xí)率降低到1×10^-6,溫度設(shè)置為1.0,每個(gè)樣本生成8個(gè)候選答案,最大生成長度為8000個(gè)token。這些參數(shù)的設(shè)置確保了模型能夠在保持穩(wěn)定性的同時(shí)獲得最大的性能提升。
經(jīng)過這三個(gè)階段的訓(xùn)練,模型的性能得到了顯著提升。從初始的60.2分開始,經(jīng)過第一階段訓(xùn)練達(dá)到62.5分,隨后的四次迭代分別提升到63.9分、64.7分、65.2分和65.6分。最終的強(qiáng)化學(xué)習(xí)階段將性能推高到了69.0分,實(shí)現(xiàn)了近9分的總體提升。
這種漸進(jìn)式的優(yōu)化策略不僅提升了模型的性能,還確保了訓(xùn)練過程的穩(wěn)定性。每個(gè)階段的改進(jìn)都是可控的和可預(yù)測(cè)的,避免了訓(xùn)練過程中可能出現(xiàn)的性能波動(dòng)或退化問題。
三、智能推理鏈條的動(dòng)態(tài)調(diào)節(jié)藝術(shù)
在多模態(tài)推理任務(wù)中,一個(gè)常見的問題是模型要么推理不夠深入,導(dǎo)致答案不準(zhǔn)確,要么推理過度冗長,影響效率并可能產(chǎn)生錯(cuò)誤的結(jié)論。Skywork R1V的研究團(tuán)隊(duì)開發(fā)了一項(xiàng)被稱為"自適應(yīng)長度思維鏈蒸餾"的技術(shù),這項(xiàng)技術(shù)就像一個(gè)智能的思維調(diào)節(jié)器,能夠根據(jù)問題的復(fù)雜程度自動(dòng)調(diào)整推理的深度和長度。
這個(gè)技術(shù)框架包含三個(gè)核心模塊,每個(gè)模塊都有特定的功能和作用,它們協(xié)同工作來確保推理過程既充分又高效。
第一個(gè)模塊是質(zhì)量與難度評(píng)估模塊,簡稱QDAM。這個(gè)模塊的作用就像一個(gè)經(jīng)驗(yàn)豐富的老師,能夠快速評(píng)估一道題目的各個(gè)方面。具體來說,它會(huì)從兩個(gè)主要維度來分析輸入的圖文查詢對(duì):視覺得分和文本得分。
視覺得分主要評(píng)估圖像的特征。在圖像清晰度方面,模塊會(huì)分析圖像的感知質(zhì)量,使用模糊檢測(cè)和分辨率分析等技術(shù)來判斷圖像是否足夠清晰。在圖像必要性方面,模塊會(huì)評(píng)估文本內(nèi)容對(duì)視覺信息的依賴程度,通過上下文消除測(cè)試和相關(guān)性分類來判斷圖像對(duì)于理解問題的重要性。
文本得分則從三個(gè)不同角度來評(píng)估語言特性。問題質(zhì)量評(píng)估主要關(guān)注表達(dá)的清晰程度,通過語法驗(yàn)證和語義連貫性檢查來確保問題本身是明確和合理的。難度水平評(píng)估則測(cè)量概念的復(fù)雜程度,基于領(lǐng)域特定知識(shí)的要求來判斷問題的難易程度。推理需求評(píng)估會(huì)量化推理步驟的復(fù)雜性,通過多跳推理分析來確定解決問題需要的邏輯鏈條長度。
這些評(píng)估工作主要由GPT-4o來完成,除了圖像清晰度檢測(cè)使用專門的技術(shù)工具外。通過綜合這些評(píng)估結(jié)果,模塊能夠?yàn)槊總€(gè)查詢對(duì)提供全面的復(fù)雜度畫像。
第二個(gè)模塊是視覺文本集成分析器,簡稱VTIA。這個(gè)模塊專門負(fù)責(zé)量化跨模態(tài)集成的所需深度。它通過執(zhí)行句法和語義分析,生成一個(gè)集成得分,這個(gè)過程同樣借助GPT-4o的模式識(shí)別能力來完成。
對(duì)于需要高度集成的查詢,比如需要科學(xué)解釋或詳細(xì)推理的任務(wù),VTIA會(huì)識(shí)別出特定的模式特征。這些特征包括因果連接詞的存在,如"為什么"或"如何"等詞匯,以及伴隨的預(yù)設(shè)觸發(fā)器。另外,需要多對(duì)象視覺參考和空間關(guān)系理解的任務(wù),以及領(lǐng)域特定術(shù)語的共現(xiàn),都會(huì)導(dǎo)致較高的集成得分。
相反,對(duì)于集成要求較低的查詢,比如簡單的物體識(shí)別任務(wù),VTIA會(huì)識(shí)別出不同的模式特征。這些任務(wù)通常具有直接的疑問詞,如"什么"或"哪里",伴隨著明確的冠詞,查詢目標(biāo)是直接的物體識(shí)別,文本內(nèi)容和視覺輸入之間的依賴性很小。
第三個(gè)模塊是動(dòng)態(tài)推理長度控制器,簡稱DRLC。這個(gè)模塊是整個(gè)框架的核心執(zhí)行部分,它根據(jù)前兩個(gè)模塊提供的信息來動(dòng)態(tài)調(diào)整推理鏈的長度。
DRLC模塊基于標(biāo)準(zhǔn)化后的分?jǐn)?shù)來工作,將原始的視覺得分、文本得分和集成得分通過最小-最大縮放的方法標(biāo)準(zhǔn)化到0到1的范圍內(nèi)。然后,控制器通過調(diào)節(jié)重復(fù)懲罰來動(dòng)態(tài)調(diào)整推理鏈長度。
對(duì)于視覺文本質(zhì)量高、認(rèn)知難度大、需要深度推理的復(fù)雜視覺場(chǎng)景,控制器會(huì)設(shè)置較低的重復(fù)懲罰,允許生成更長的推理鏈。相反,對(duì)于難度較低、視覺識(shí)別任務(wù)簡單、跨模態(tài)集成要求最低的查詢,控制器會(huì)設(shè)置較高的重復(fù)懲罰,防止不必要的推理冗余。
重復(fù)懲罰的計(jì)算公式經(jīng)過精心設(shè)計(jì),采用指數(shù)函數(shù)來確保調(diào)整的平滑性和穩(wěn)定性。具體公式為P = min(2, e^(α·(1-(Sv+βSt+γSI)/(1+β+γ)))),其中α、β、γ是控制各個(gè)分量相對(duì)影響的超參數(shù),通過實(shí)驗(yàn)確定最優(yōu)值。
在這個(gè)技術(shù)框架的基礎(chǔ)上,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)多階段自我蒸餾流程。在這個(gè)流程中,模型首先生成帶有思考標(biāo)記的推理數(shù)據(jù),重復(fù)懲罰P由DRLC模塊動(dòng)態(tài)調(diào)節(jié)推理長度。然后,GPT-4o會(huì)評(píng)估生成答案的正確性。如果答案被評(píng)估為正確,原始的推理鏈會(huì)被保留。如果答案不正確,GPT-4o會(huì)修正推理過程,使其與正確答案保持一致。
這個(gè)自我蒸餾過程會(huì)在第一階段訓(xùn)練之前執(zhí)行一次,然后在第二階段的每次迭代之前重復(fù)執(zhí)行,不斷完善推理鏈的質(zhì)量。這種做法確保了訓(xùn)練數(shù)據(jù)的質(zhì)量,同時(shí)也提高了模型的推理能力。
通過這種自適應(yīng)的推理長度控制,Skywork R1V能夠?yàn)椴煌瑥?fù)雜程度的問題提供最合適的推理深度,既避免了推理不足導(dǎo)致的錯(cuò)誤,也防止了過度推理造成的效率損失和錯(cuò)誤累積。
四、實(shí)戰(zhàn)測(cè)試中的卓越表現(xiàn)
為了全面評(píng)估Skywork R1V的能力,研究團(tuán)隊(duì)在多個(gè)標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試中進(jìn)行了詳細(xì)的性能評(píng)估。這些測(cè)試就像給AI模型進(jìn)行的綜合體檢,從不同角度檢驗(yàn)?zāi)P偷母黜?xiàng)能力。
測(cè)試基準(zhǔn)分為兩大類別。第一類是推理基準(zhǔn)測(cè)試,主要評(píng)估模型在純文本環(huán)境下的邏輯推理和數(shù)學(xué)能力。第二類是視覺語言模型基準(zhǔn)測(cè)試,評(píng)估模型在多模態(tài)環(huán)境下的理解和推理能力。
在推理基準(zhǔn)測(cè)試中,MATH-500是一個(gè)包含500道大學(xué)水平數(shù)學(xué)題的數(shù)據(jù)集,涵蓋代數(shù)、微積分、概率論等多個(gè)領(lǐng)域。這些題目不僅考查計(jì)算能力,更重要的是測(cè)試高級(jí)數(shù)學(xué)推理能力。AIME 2024則包含了2024年美國數(shù)學(xué)邀請(qǐng)賽的競(jìng)賽題目,這是一個(gè)面向精英高中生的高選擇性競(jìng)賽,需要深度的概念理解和嚴(yán)格的邏輯推理技能。GPQA則評(píng)估語言模型的通用問答能力,包含精心設(shè)計(jì)的跨領(lǐng)域問題,全面測(cè)試模型的知識(shí)理解、分析和準(zhǔn)確回應(yīng)能力。
在視覺語言模型基準(zhǔn)測(cè)試中,MathVista提出了整合數(shù)學(xué)推理和視覺理解的挑戰(zhàn),結(jié)合了需要精確視覺解釋和結(jié)構(gòu)化分析推理的多樣化任務(wù)。MMMU包含約11500道來自大學(xué)水平考試、測(cè)驗(yàn)和教科書的問題,涵蓋藝術(shù)設(shè)計(jì)、商務(wù)、科學(xué)、健康醫(yī)學(xué)、人文社科、技術(shù)工程六個(gè)學(xué)術(shù)領(lǐng)域,評(píng)估模型在理解和有效回應(yīng)復(fù)雜多模態(tài)輸入方面的能力。
測(cè)試設(shè)置經(jīng)過精心設(shè)計(jì)以確保公平性和一致性。最大生成長度設(shè)置為64000個(gè)token,為復(fù)雜推理提供充足空間。對(duì)于文本推理基準(zhǔn)測(cè)試,測(cè)試提示嚴(yán)格遵循DeepseekR1的實(shí)現(xiàn)指南。對(duì)于視覺語言模型基準(zhǔn)測(cè)試,研究團(tuán)隊(duì)使用了統(tǒng)一的測(cè)試提示。性能指標(biāo)采用Pass@1分?jǐn)?shù),即模型在第一次嘗試時(shí)給出正確答案的概率,并在5次獨(dú)立運(yùn)行中取平均值以確保結(jié)果的可靠性。
針對(duì)選擇題和其他類型題目,研究團(tuán)隊(duì)設(shè)計(jì)了不同的提示格式。對(duì)于選擇題,提示要求模型在回答最后一行使用特定格式標(biāo)注選擇的字母。對(duì)于其他問題,要求在最后一行用特定格式標(biāo)注最終答案。這些格式要求確保了答案提取的一致性和準(zhǔn)確性。
在與同等規(guī)模模型的比較中,Skywork R1V展現(xiàn)出了突出的性能優(yōu)勢(shì)。在文本推理任務(wù)中,模型在MATH-500基準(zhǔn)上獲得了94.0分的優(yōu)異成績,顯著超過了同等規(guī)模的QwQ-32B-Preview的90.6分。在AIME 2024基準(zhǔn)上,Skywork R1V取得了72.0分的顯著成績,展現(xiàn)出強(qiáng)大的數(shù)學(xué)競(jìng)賽解題能力。
在視覺多模態(tài)任務(wù)中,Skywork R1V同樣表現(xiàn)優(yōu)異。在MathVista基準(zhǔn)上獲得67.5分,雖然略低于InternVL2.5-38B的71.9分,但仍保持了相對(duì)較強(qiáng)的競(jìng)爭力。在MMMU基準(zhǔn)上,Skywork R1V獲得了69.0分的出色成績,顯著超過了VILA-40B的55.1分、InternVL2-40B的55.2分、InternVL2.5-38B的63.9分和QwenVL2-72B的64.5分。
更令人印象深刻的是,當(dāng)與更大規(guī)模的開源和閉源模型進(jìn)行比較時(shí),Skywork R1V這個(gè)僅有380億參數(shù)的模型仍然能夠保持競(jìng)爭優(yōu)勢(shì)。在MathVista基準(zhǔn)上,它的67.5分超過了Claude 3.5 Sonnet的65.3分。在MMMU基準(zhǔn)上,69.0分的成績超過了Claude 3.5 Sonnet的66.4分,并與GPT-4o的69.1分基本持平。
這些測(cè)試結(jié)果表明,研究團(tuán)隊(duì)的方法成功地將先進(jìn)的推理能力從文本模態(tài)轉(zhuǎn)移到了視覺模態(tài),使得相對(duì)較小規(guī)模的模型能夠與更大規(guī)模的模型相媲美。這種效率優(yōu)勢(shì)在實(shí)際應(yīng)用中具有重要意義,因?yàn)樗馕吨偷挠?jì)算成本和更高的部署靈活性。
五、深度推理能力的精彩展示
為了更直觀地展示Skywork R1V的推理能力,研究團(tuán)隊(duì)選擇了兩個(gè)典型案例來詳細(xì)分析模型的推理過程,這些案例就像透過顯微鏡觀察模型的思維過程。
第一個(gè)案例是一道幾何數(shù)學(xué)題,涉及一個(gè)五邊形的角度計(jì)算問題。題目給出了一個(gè)五邊形,其中各個(gè)角度用含有變量x的代數(shù)表達(dá)式來表示,要求找出角H的度數(shù)。面對(duì)這個(gè)問題,Skywork R1V展現(xiàn)出了系統(tǒng)性的數(shù)學(xué)推理方法。
模型首先運(yùn)用了幾何學(xué)的基礎(chǔ)原理,即五邊形內(nèi)角和為540度這一重要定理。這就像一個(gè)數(shù)學(xué)家在解決復(fù)雜問題時(shí),首先回憶起相關(guān)的基礎(chǔ)知識(shí)作為解題的起點(diǎn)。接著,模型將題目中給出的各個(gè)角度表達(dá)式相加,構(gòu)建了一個(gè)包含變量x的線性方程。
在代數(shù)運(yùn)算過程中,模型表現(xiàn)出了嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)操作能力。它將所有含x的項(xiàng)合并,將常數(shù)項(xiàng)歸總,最終得到了一個(gè)簡潔的線性方程。通過求解這個(gè)方程,模型確定了x等于102度。但模型的推理過程并沒有就此結(jié)束,而是進(jìn)行了關(guān)鍵的驗(yàn)證步驟。
驗(yàn)證階段體現(xiàn)了模型的自我檢查能力。模型將x的值代入到所有角度表達(dá)式中,重新計(jì)算了五邊形的每個(gè)內(nèi)角,然后驗(yàn)證它們的總和確實(shí)等于540度。這種雙重驗(yàn)證的方法確保了答案的準(zhǔn)確性,展現(xiàn)出了嚴(yán)格的數(shù)學(xué)思維習(xí)慣。最后,模型計(jì)算出角H的度數(shù)為97度,并明確指出這個(gè)結(jié)果符合題目的要求。
第二個(gè)案例是一道圖表分析題,考查模型對(duì)美國2009年至2019年期間男女預(yù)期壽命數(shù)據(jù)的分析能力。這個(gè)任務(wù)要求模型識(shí)別出兩條線之間差距最大的年份,這不僅需要準(zhǔn)確的數(shù)據(jù)讀取能力,還需要系統(tǒng)的比較分析能力。
模型首先表現(xiàn)出了出色的圖表理解能力,準(zhǔn)確識(shí)別了圖表的結(jié)構(gòu),包括橫軸代表年份、縱軸代表預(yù)期壽命,以及藍(lán)色線條代表女性數(shù)據(jù)、黑色線條代表男性數(shù)據(jù)。這種視覺信息的準(zhǔn)確解析為后續(xù)的數(shù)值分析奠定了基礎(chǔ)。
在數(shù)據(jù)分析階段,模型采用了系統(tǒng)性的方法。它逐年計(jì)算了女性和男性預(yù)期壽命之間的差值,從2009年的5.28年開始,一直計(jì)算到2019年的6.19年。這種逐年對(duì)比的方法確保了分析的全面性和準(zhǔn)確性。
更值得注意的是,模型在計(jì)算過程中表現(xiàn)出了自我糾錯(cuò)的能力。當(dāng)發(fā)現(xiàn)某些計(jì)算結(jié)果可能存在誤差時(shí),模型主動(dòng)進(jìn)行了重新計(jì)算和驗(yàn)證。這種自我修正的機(jī)制確保了最終結(jié)果的可靠性,體現(xiàn)了模型在推理過程中的審慎態(tài)度。
在完成數(shù)值計(jì)算后,模型還進(jìn)行了視覺驗(yàn)證,將計(jì)算得出的數(shù)值結(jié)果與圖表中的視覺趨勢(shì)進(jìn)行對(duì)比。模型觀察到隨著時(shí)間推移,兩條線之間的間距確實(shí)呈現(xiàn)出逐漸擴(kuò)大的趨勢(shì),這與計(jì)算結(jié)果完全一致。最終,模型正確識(shí)別出2019年是差距最大的年份。
這兩個(gè)案例充分展現(xiàn)了Skywork R1V在多模態(tài)推理方面的優(yōu)勢(shì)。在數(shù)學(xué)幾何問題中,模型展現(xiàn)出了系統(tǒng)的問題分解能力、嚴(yán)格的代數(shù)運(yùn)算能力和可靠的自我驗(yàn)證能力。在圖表分析問題中,模型展現(xiàn)出了準(zhǔn)確的視覺理解能力、系統(tǒng)的數(shù)據(jù)處理能力和有效的視覺-數(shù)值一致性檢驗(yàn)?zāi)芰Α?/p>
這些推理過程的詳細(xì)展示說明了Skywork R1V不僅能夠得出正確答案,更重要的是它能夠通過結(jié)構(gòu)化、系統(tǒng)化的推理過程來解決復(fù)雜問題。這種推理能力的透明性和可解釋性對(duì)于實(shí)際應(yīng)用具有重要價(jià)值,因?yàn)橛脩艨梢岳斫夂万?yàn)證模型的推理邏輯,增強(qiáng)對(duì)AI系統(tǒng)的信任度。
六、漸進(jìn)訓(xùn)練效果的詳細(xì)剖析
通過對(duì)Skywork R1V在不同訓(xùn)練階段表現(xiàn)的詳細(xì)分析,我們可以清楚地看到每個(gè)技術(shù)創(chuàng)新是如何發(fā)揮作用的,這就像觀察一個(gè)學(xué)生在不同學(xué)習(xí)階段的成長歷程。
初始模型的表現(xiàn)為整個(gè)研究奠定了堅(jiān)實(shí)基礎(chǔ)。在進(jìn)行任何專門的多模態(tài)推理訓(xùn)練之前,研究團(tuán)隊(duì)首先評(píng)估了初步的視覺語言模型的性能。這個(gè)初步模型是通過ViT視覺編碼器、MLP適配器和Qwen2.5-32B-Instruct語言模型的組合構(gòu)建的。令人驚喜的是,這個(gè)初步模型在MMMU基準(zhǔn)測(cè)試中就獲得了64.0分的競(jìng)爭性成績,這個(gè)結(jié)果已經(jīng)超過了許多專門為多模態(tài)對(duì)齊而訓(xùn)練的小規(guī)模模型。
模型重新組裝階段的發(fā)現(xiàn)更加令人矚目。當(dāng)研究團(tuán)隊(duì)將預(yù)訓(xùn)練的MLP適配器轉(zhuǎn)移到DeepSeek-R1-distill-Qwen-32B模型上時(shí),新組裝的多模態(tài)模型獲得了60.2分的成績。這個(gè)結(jié)果特別有意義,因?yàn)樗粌H超過了許多小規(guī)模模型的顯式多模態(tài)對(duì)齊訓(xùn)練結(jié)果,還能與更大規(guī)模的模型如InternVL2-40B的55.2分相競(jìng)爭。更重要的是,這個(gè)重新組裝的模型性能接近了同等規(guī)模的最先進(jìn)模型,特別是InternVL2.5-38B-MPO的64.1分。
這個(gè)現(xiàn)象揭示了一個(gè)重要發(fā)現(xiàn):預(yù)訓(xùn)練的MLP適配器在對(duì)齊ViT視覺編碼器與同系列的另一個(gè)推理能力強(qiáng)的語言模型方面表現(xiàn)出了驚人的有效性,即使使用了不同的分詞器且沒有進(jìn)行額外的微調(diào)。這種跨模型的兼容性為多模態(tài)模型的開發(fā)提供了新的思路和可能性。
迭代監(jiān)督微調(diào)的效果體現(xiàn)了漸進(jìn)優(yōu)化策略的價(jià)值。從初始的60.2分開始,模型在連續(xù)的訓(xùn)練階段中展現(xiàn)出了穩(wěn)定的性能提升。第一階段訓(xùn)練后達(dá)到62.5分,隨后的四次迭代分別提升到63.9分、64.7分、65.2分和65.6分。每次迭代大約帶來0.4到0.8分的提升,這種穩(wěn)定的進(jìn)步模式證明了迭代策略的有效性和穩(wěn)定性。
這種漸進(jìn)式改進(jìn)的成功關(guān)鍵在于智能的樣本篩選機(jī)制。通過逐步提高質(zhì)量閾值,從第一次迭代的2分提高到最后一次迭代的5分,模型能夠在每個(gè)階段面對(duì)適當(dāng)難度的挑戰(zhàn)。同時(shí),錯(cuò)題重做機(jī)制確保了模型能夠從之前的錯(cuò)誤中學(xué)習(xí),不斷完善自己的能力。
強(qiáng)化學(xué)習(xí)階段的效果最為顯著。通過引入群體相對(duì)策略優(yōu)化技術(shù),并結(jié)合基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng),模型性能從65.6分大幅提升到69.0分。這個(gè)3.4分的提升幅度超過了之前所有迭代階段的總和,突顯了強(qiáng)化學(xué)習(xí)在進(jìn)一步增強(qiáng)多模態(tài)推理能力方面的強(qiáng)大潛力。
在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,研究團(tuán)隊(duì)觀察到了一個(gè)有趣的現(xiàn)象:模型的輸出在長度和細(xì)節(jié)方面都有所增加。這種變化與DeepSeek-R1中觀察到的"頓悟時(shí)刻"現(xiàn)象相符,即經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的模型會(huì)自發(fā)地生成更加全面和詳細(xì)的回答。這種現(xiàn)象表明,強(qiáng)化學(xué)習(xí)不僅提高了模型的準(zhǔn)確性,還增強(qiáng)了其推理的深度和完整性。
整個(gè)訓(xùn)練過程的累計(jì)效果令人印象深刻。從最初的60.2分到最終的69.0分,總體提升幅度達(dá)到8.8分,這相當(dāng)于近15%的性能改進(jìn)。這種顯著的提升證明了研究團(tuán)隊(duì)提出的混合優(yōu)化框架的有效性,也驗(yàn)證了漸進(jìn)式訓(xùn)練策略相比于一次性訓(xùn)練的優(yōu)勢(shì)。
更重要的是,整個(gè)訓(xùn)練過程保持了穩(wěn)定性和可預(yù)測(cè)性。每個(gè)階段的改進(jìn)都是可控的,沒有出現(xiàn)性能波動(dòng)或退化的問題。這種穩(wěn)定性對(duì)于實(shí)際應(yīng)用具有重要價(jià)值,因?yàn)樗_保了訓(xùn)練過程的可重復(fù)性和可靠性。
這些詳細(xì)的性能分析不僅驗(yàn)證了Skywork R1V技術(shù)方法的有效性,也為未來的多模態(tài)模型開發(fā)提供了寶貴的經(jīng)驗(yàn)和指導(dǎo)。通過系統(tǒng)性的階段劃分和漸進(jìn)式優(yōu)化,研究團(tuán)隊(duì)成功地將一個(gè)文本推理模型轉(zhuǎn)換為了具備強(qiáng)大多模態(tài)推理能力的綜合性AI系統(tǒng)。
說到底,Skywork R1V這項(xiàng)研究為我們展示了一種全新的AI能力提升路徑。研究團(tuán)隊(duì)沒有選擇從零開始訓(xùn)練一個(gè)龐大的模型,而是巧妙地利用了現(xiàn)有模型的優(yōu)勢(shì),通過精心設(shè)計(jì)的"嫁接"過程,讓一個(gè)原本只能處理文字的推理專家獲得了理解圖像的能力。這種方法不僅大大降低了訓(xùn)練成本,還實(shí)現(xiàn)了1加1大于2的效果。
從實(shí)際應(yīng)用的角度來看,這項(xiàng)研究的意義遠(yuǎn)超技術(shù)層面。當(dāng)AI能夠同時(shí)理解圖像和進(jìn)行深度推理時(shí),它就能夠處理更多真實(shí)世界中的復(fù)雜問題。比如醫(yī)生分析X光片時(shí)的診斷推理,工程師根據(jù)技術(shù)圖紙進(jìn)行設(shè)計(jì)分析,或者學(xué)生解答包含圖表的數(shù)學(xué)物理題目,這些場(chǎng)景都需要視覺理解和邏輯推理的完美結(jié)合。
Skywork R1V在測(cè)試中的優(yōu)異表現(xiàn)證明了這種技術(shù)路線的可行性。尤其值得注意的是,這個(gè)僅有380億參數(shù)的模型在某些任務(wù)上的表現(xiàn)甚至超過了那些參數(shù)量是它數(shù)倍的大型模型。這種效率優(yōu)勢(shì)在當(dāng)前計(jì)算資源日益寶貴的環(huán)境下顯得格外重要,它意味著更多的研究機(jī)構(gòu)和公司都有可能部署和使用這樣的先進(jìn)AI系統(tǒng)。
研究團(tuán)隊(duì)選擇將所有的代碼、模型權(quán)重和技術(shù)細(xì)節(jié)完全開源,這個(gè)決定具有深遠(yuǎn)的影響。它不僅讓全球的研究者都能夠在這個(gè)基礎(chǔ)上繼續(xù)創(chuàng)新,也推動(dòng)了整個(gè)AI領(lǐng)域向更加開放和協(xié)作的方向發(fā)展。當(dāng)越來越多的研究成果能夠被自由獲取和改進(jìn)時(shí),AI技術(shù)的進(jìn)步速度必將大大加快。
對(duì)于普通人來說,這項(xiàng)研究預(yù)示著未來AI助手將變得更加智能和實(shí)用。我們可以期待這樣的場(chǎng)景:當(dāng)你拍攝一道數(shù)學(xué)題的照片時(shí),AI不僅能識(shí)別題目內(nèi)容,還能提供詳細(xì)的解題思路。當(dāng)你上傳一張醫(yī)學(xué)影像時(shí),AI能夠幫助分析其中的異常并給出可能的解釋。當(dāng)你需要理解復(fù)雜的科學(xué)圖表時(shí),AI能夠?qū)⑵渲械男畔⑥D(zhuǎn)換為通俗易懂的解釋。
當(dāng)然,這項(xiàng)技術(shù)還有很大的發(fā)展空間。研究團(tuán)隊(duì)在論文中也坦率地討論了當(dāng)前方法的局限性和未來的改進(jìn)方向。隨著更多研究者的參與和技術(shù)的不斷完善,我們有理由相信,多模態(tài)AI推理能力將會(huì)繼續(xù)快速發(fā)展,為人類社會(huì)帶來更多的便利和價(jià)值。
感興趣的讀者如果想要深入了解這項(xiàng)研究的技術(shù)細(xì)節(jié),可以通過arXiv:2504.05599v2查閱完整論文,或者訪問https://huggingface.co/Skywork/Skywork-R1V-38B下載模型進(jìn)行實(shí)際體驗(yàn)。畢竟,最好的理解方式就是親自動(dòng)手試一試這個(gè)能夠"看懂圖片、想得深刻"的AI助手到底有多么神奇。
Q&A
Q1:Skywork R1V是什么?它與普通AI有什么不同? A:Skywork R1V是一個(gè)能同時(shí)理解圖片和進(jìn)行深度推理的AI模型。與普通AI不同,它不僅能看懂圖像內(nèi)容,還能像數(shù)學(xué)專家一樣進(jìn)行復(fù)雜的邏輯推理,比如解幾何題或分析科學(xué)圖表。簡單說,它就像給一個(gè)推理高手配上了一雙敏銳的眼睛。
Q2:這個(gè)模型的參數(shù)量只有380億,會(huì)不會(huì)能力有限? A:恰恰相反,Skywork R1V證明了"小而精"的優(yōu)勢(shì)。在多項(xiàng)測(cè)試中,它的表現(xiàn)甚至超過了一些參數(shù)量更大的模型。比如在MMMU測(cè)試中得分69.0,超過了Claude 3.5 Sonnet的66.4分,幾乎與GPT-4o持平。這說明通過巧妙的技術(shù)設(shè)計(jì),小模型也能實(shí)現(xiàn)強(qiáng)大的能力。
Q3:普通人能用到Skywork R1V嗎?如何獲?。?A:目前研究團(tuán)隊(duì)已經(jīng)將模型完全開源,技術(shù)人員可以通過https://huggingface.co/Skywork/Skywork-R1V-38B免費(fèi)下載使用。對(duì)于普通用戶,預(yù)計(jì)未來會(huì)有基于這項(xiàng)技術(shù)的應(yīng)用產(chǎn)品出現(xiàn),讓大家能夠輕松體驗(yàn)這種"看圖推理"的AI能力。
好文章,需要你的鼓勵(lì)
北航團(tuán)隊(duì)推出Easy Dataset框架,通過直觀的圖形界面和角色驅(qū)動(dòng)的生成方法,讓普通用戶能夠輕松將各種格式文檔轉(zhuǎn)換為高質(zhì)量的AI訓(xùn)練數(shù)據(jù)。該工具集成了智能文檔解析、混合分塊策略和個(gè)性化問答生成功能,在金融領(lǐng)域?qū)嶒?yàn)中顯著提升了AI模型的專業(yè)表現(xiàn),同時(shí)保持通用能力。項(xiàng)目已開源并獲得超過9000顆GitHub星標(biāo)。
盧森堡計(jì)算機(jī)事件響應(yīng)中心開發(fā)的VLAI系統(tǒng),基于RoBERTa模型,能夠通過閱讀漏洞描述自動(dòng)判斷危險(xiǎn)等級(jí)。該系統(tǒng)在60萬個(gè)真實(shí)漏洞數(shù)據(jù)上訓(xùn)練,準(zhǔn)確率達(dá)82.8%,已集成到實(shí)際安全服務(wù)中。研究采用開源方式,為網(wǎng)絡(luò)安全專家提供快速漏洞風(fēng)險(xiǎn)評(píng)估工具,有效解決了官方評(píng)分發(fā)布前的安全決策難題。
中國電信研究院等機(jī)構(gòu)聯(lián)合開發(fā)的xVerify系統(tǒng),專門解決復(fù)雜AI推理模型的評(píng)估難題。該系統(tǒng)能夠準(zhǔn)確判斷包含多步推理過程的AI輸出,在準(zhǔn)確率和效率方面均超越現(xiàn)有方法,為AI評(píng)估領(lǐng)域提供了重要突破。
Essential AI團(tuán)隊(duì)通過系統(tǒng)研究發(fā)現(xiàn),大語言模型的反思能力在預(yù)訓(xùn)練階段就開始萌芽,而非傳統(tǒng)認(rèn)為的僅在強(qiáng)化學(xué)習(xí)后出現(xiàn)。研究團(tuán)隊(duì)對(duì)OLMo-2等模型的240個(gè)檢查點(diǎn)進(jìn)行測(cè)試,發(fā)現(xiàn)簡單的"Wait,"觸發(fā)詞就能激發(fā)模型識(shí)別和糾正推理錯(cuò)誤的能力。這種反思能力隨預(yù)訓(xùn)練規(guī)模增長而提升,在數(shù)學(xué)、編程、邏輯推理等六個(gè)領(lǐng)域都有體現(xiàn),為AI系統(tǒng)的高效開發(fā)提供了新思路。